集成洗牌器优化了用于机器学习的个人基因组数据的隐私

来源:
导读 通过集成一系列隐私保护算法,KAUST研究团队开发了一种机器学习方法,可解决医学研究中的重大挑战:如何利用人工智能(AI)的力量加速基因组

通过集成一系列隐私保护算法,KAUST研究团队开发了一种机器学习方法,可解决医学研究中的重大挑战:如何利用人工智能(AI)的力量加速基因组数据的发现,同时保护基因组数据的完整性。个人隐私。

“组学数据通常包含大量私人信息,例如基因表达和细胞组成,这些信息通常可能与一个人的疾病或健康状况有关,”阿卜杜勒国王科技大学的高鑫说。“根据这些数据训练的人工智能模型,尤其是深度学习模型,有可能保留个人的私人详细信息。我们的主要重点是在保护隐私和优化模型性能之间找到更好的平衡。”

保护隐私的传统方法是对数据进行加密。然而,这需要对数据进行解密以进行训练,这会带来大量的计算开销。经过训练的模型仍然保留私人信息,因此只能在安全的环境中使用。

保护隐私的另一种方法是将数据分成更小的数据包,并使用一组本地训练算法在每个数据包上单独训练模型,这种方法称为本地训练或联合学习。然而,就其本身而言,这种方法仍然有可能将私人信息泄露到训练模型中。

一种称为差异隐私的方法可用于以保证隐私的方式分解数据,但这会产生“嘈杂”的模型,限制了其在基于基因的精确研究中的实用性。

“使用差分隐私框架,添加洗牌器可以实现更好的模型性能,同时保持相同水平的隐私保护;但是之前使用集中式第三方洗牌器的方法引入了一个关键的安全缺陷,因为洗牌器可能是不诚实的,”该论文的主要作者、博士生周爵晓说道。高组的学生。“我们方法的关键进步是集成了去中心化的洗牌算法。”

他解释说,洗牌器不仅解决了这个信任问题,而且在保证完美的隐私保护的同时,在隐私保护和模型能力之间实现了更好的权衡。

该团队通过针对三个具有挑战性的多组学任务训练三个代表性深度学习模型,展示了他们的隐私保护机器学习方法(称为PPML-Omics)。PPML-Omics不仅能够比其他方法更高效地生成优化模型,而且还被证明能够抵御最先进的网络攻击。

高说:“重要的是要意识到,经过熟练训练的深度学习模型具有从训练数据中保留大量私人信息的能力,例如患者的特征基因。”“随着深度学习越来越多地应用于分析生物和生物医学数据,隐私保护的重要性比以往任何时候都更加重要。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!