怎样用联邦学习解决医学影像数据隐私问题?

日前,英伟达与伦敦国王学院以及一家法国初创公司Owkin合作,在新成立的伦敦医学影像与人工智能中心中应用了联邦学习技术。

这项技术论文在今年的MICCAI 2019大会上发布,英伟达与伦敦国王学院研究人员在大会上介绍了联邦学习技术的实施细节。

研究人员表示:“联邦学习在无需共享患者数据的情况下,即可实现协作与分散化的神经网络训练。各节点负责训练其自身的本地模型,并定期提交给参数服务器。服务器不断累积并聚合各自的贡献,进而创建一个全局模型,分享给所有节点。”

研究人员进一步解释道,虽然联邦学习可以保证极高的隐私安全性,但通过模型反演,仍可以设法使数据重现。为了帮助提高联邦学习的安全性,研究人员研究试验了使用ε-差分隐私框架的可行性。这个框架是一种正式定义隐私损失的方法,可以借助其强大的隐私保障性来保护患者与机构数据。

据了解,试验是基于取自BraTS 2018数据集的脑肿瘤分割数据实施的。BraTS 2018 数据集包含有285位脑肿瘤患者的MRI扫描结果。

NVIDIA团队解释到,联邦学习有望有效聚合各机构从私有数据中本地习得的知识,从而进一步提高深度模型的准确性、稳健性与通用化能力。

以下为论文详细内容,由雷锋网AI掘金志学术组编译。关注AI掘金志公众号,在对话框回复关键词“英伟达”,即可获取原文PDF。

摘要

由于医疗数据的隐私规定,在集中数据湖中收集和共享患者数据通常是不可行的。这就给训练机器学习算法带来了挑战,例如深度卷积网络通常需要大量不同的训练示例。联邦学习通过将代码带给患者数据所有者,并且只在他们之间共享中间模型训练的信息,从而避开了这一困难。尽管适当地聚合这些模型可以获得更高精度的模型,但共享的模型可能会间接泄漏本地训练数据。

在本文中,我们探讨了在联邦学习系统中应用微分隐私技术来保护病人数据的可行性。我们在BraTS数据集上应用并评估了用于脑肿瘤分割的实用联邦学习系统。实验结果表明,模型性能与隐私保护成本之间存在一种折衷关系。

1.介绍

深度学习神经网络(DNN)在多种医学应用中都显示出很好的效果,但它高度依赖于训练数据的数量和多样性[11]。在医学成像方面,这构成了一种特殊困难:例如,由于患者数量或病理类型的原因,所需的训练数据可能无法在单个机构中获得。同时,由于医疗数据隐私规定,在集中数据湖中收集和共享患者数据通常是不可行的。

解决此问题的一个最新方法是联邦学习(FL)[7,9]:它允许在不共享患者数据的情况下对DNN进行合作和分布式训练。每个节点都训练自己的本地模型,并定期将其提交给参数服务器。服务器收集并聚合各个节点模型以生成一个全局模型,然后与所有节点共享。

需要注意的是,训练数据对每个节点都是私有的,在学习过程中不会被共享。只共享模型的可训练权重或更新,从而保持患者数据的私密性。因此,FL简洁地解决了许多数据安全挑战,将数据放在需要的地方,并支持多机构协作。

虽然FL可以在隐私方面提供高水平的安全性,但它仍然存在危险,例如通过模型逆推来重建单个训练模型。一种应对措施是在每个节点的训练过程中注入噪声并对更新进行扭曲,以隐藏单个模型节点的贡献并限制训练节点之间共享信息的粒度。[3,1,10]然而,现有的隐私保护研究只关注一般机器学习基准,如MNIST和随机梯度下降算法。

在这项工作中,我们实现并评估实用的联邦学习系统,用于脑肿瘤分割。通过对BraTS 2018的一系列实验,我们证明了医学成像隐私保护技术的可行性。

我们的主要贡献是:(1)尽我们所知,实现并评估第一个用于医学图像分析的隐私保护联邦学习系统;(2)比较和对比联合平均算法处理基于动量的优化和不平衡训练节点的各个方面;(3)对稀疏向量技术进行了实证研究,以获得一个较强的微分隐私保证。

【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章