人工智能的突破和登陆 联邦学习在中国的加速发展

关注人工智能技术的人一定都知道,联合学习技术最早是由谷歌在2017年公开发布的,它一推出就受到了业界的期待。

由于数据孤岛和数据隐私保护问题,人工智能行业在登陆过程中面临着严重的数据困境。联邦学习技术被提出来解决这个问题,现在已经成为新一代人工智能最重要的技术范式之一。

在联邦学习出现和快速发展的三年多时间里,国内外许多技术巨头都对联邦学习进行了深入的研究和应用。值得注意的是,在联邦学习技术的研究和推广中,中国的科技企业和研究机构不再处于跟随者的状态,而是与外国技术巨头平起平坐。其中一些领先企业正积极参与联邦研究技术标准的制定和工业应用的实施。

为什么联邦学习如此重要?在过去的两年里,联邦学习是如何在国内众多技术巨头的支持和推动下实现快速发展和应用的?这已经成为许多人非常关心的问题。

打破人工智能数据困境,联邦学习野马

谷歌的技术假设是联邦学习,它主要回答的问题是如何在不侵犯用户数据隐私的情况下,有效地将用户终端上的数据用于人工智能模型培训。

工程师的解决方案是用户数据只需要在本地终端进行训练,云服务器只需要获得训练好的训练模型(权重),即建立一个大规模的分布式神经网络模型训练框架,使用户数据不能离开本地,同时可以获得良好的人工智能服务体验。

联邦学习的出现使得每一个用户都成为人工智能发展的贡献者,同时也启发了一种新的方法来弥合企业之间的数据鸿沟。

所谓的“数据鸿沟”主要是我们经常听到的“数据孤岛”。一方面,企业的逐利本质不可避免地使其不愿意与其他公司交换自己的数据,导致少数巨头垄断大量数据而小企业没有数据的马太效应。另一方面,世界各国对数据隐私保护的监管越来越严格,企业在使用和共享用户数据时应考虑合规性和合法性的应用,从而进一步加剧数据孤岛效应。

在这种数据鸿沟的制约下,许多行业和企业无法获得更好的培训模型,因为他们没有高质量、大规模的数据支持。特别是对于一些高度专业化和细分化的领域,如金融、风力控制、法律和医疗等,人工智能技术的发展将受到很大的限制,因为无法获得每个家庭的数据和有限的数据量。

它不仅可以保护数据不被共享以保护用户隐私,还可以更新和共享云中的通用模型。这正是联邦学习技术可以实现“两全其美”的策略。

联邦学习在从C端应用到B端工业应用的演进中形成了一个更通用的解决方案。首先,横向联邦学习,即不同的用户和样本中相同的特征,是谷歌的方法。第二,纵向联邦学习,即样本具有相同的用户和不同的特征,适用于具有相同用户群体的不同企业;第三,迁移联合学习,即样本中的用户和特征可能不同,因此可以通过增加或减少数据维度来迁移和学习额外的数据子空间。

这样,联邦学习作为一种更一般化的机器学习方法,可以使用更多的行业组织如金融、保险、医疗、安全、教育等作为数据主体来实现人工智能模型的应用场景。在联邦学习技术的深化和扩展中,我国许多科技企业发挥了重要作用。

中国联邦学习成绩单

作为联邦学习技术的深入参与者,国内企业不仅参与联邦学习技术的研发和应用,还参与联邦学习技术的制定

首先,我国许多企业组织并参与了联邦学习基础设施和应用标准的制定。去年,联邦学习基础设施和应用(IEEE P3652.1)标准工作组分别在深圳和洛杉矶举行了两次会议。许多国内企业对联邦学习标准草案的制定提出了建设性的建议,草案有望于今年公布。

业内人士评价说,联邦学习技术已经成为人工智能的研究领域,由于由世界著名的人工智能专家杨强教授及其团队领导和参与的美国电气和电子工程师学会联邦学习标准发展委员会的推动,已经引起了工业界、大学和研究界的广泛关注。

其次,许多国内企业也推出了可应用于行业的开源框架。

例如,腾讯发起的伟众银行早在2018年就开始了基于联邦学习理论的相关开源软件的研发。2019年初,正式开通了全球首个行业级联邦学习框架FATE(Federated Learning Enabler),实现了基于同态加密和多方计算的安全计算协议,并在信用风险控制、客户权益定价、监管技术等领域推出了相应的商业计划。

去年,百度还在Paddle 2.0开放平台上增加了Paddle学习框架。PaddleFL主要是为深度学习而设计的,在计算机视觉、自然语言处理、推荐算法等领域提供了大量的联邦学习策略和应用场景。同样,平安科技在其提出的联邦情报系统的基础上,自主开发了蜂巢式联邦学习平台,主要用于多方信息的安全协同计算,以满足银行和金融机构的多场景应用需求,如风险评估、反洗钱、投资、投资与研究、信贷、保险和监管等。

同样,基于联合学习理论的多方安全计算技术,滕循云开发了“滕循云数字盾”,以满足数据安全治理的多种需求。早在2015年,阿里巴巴就开始研究共享学习技术,这与联邦学习理念是一致的。各方通过共享加密数据或加密机制下的参数交换进行机器学习,建立虚拟共享模型产品平台。

此外,华为、360buy.com、联想和许多国内初创企业为联邦学习的生态发展做出了贡献,并在各个分领域开展了切实可行的创新。

这些国内科技企业之所以投资研发和推广联邦学习技术,是为了在保护用户数据隐私和人工智能技术创新之间找到完美的平衡,以及人工智能应用在许多行业落地带来的机遇。

中国推进人工智能产业落地和联邦学习的实践

根据联邦学习的技术特点和参与企业当前的研发重点,金融领域已经成为联邦学习首先应用的主要领域。在金融业务的诸多环节中,信用风险控制是联邦学习的典型应用落地场景。

基于联邦学习的信用风险控制,伟众银行提出了“中间变量同态加密”的解决方案,即在原始数据不送出仓库的情况下,利用梯度交换得到的中间变量对风险控制模型进行建模,从而降低集中机器学习带来的系统隐私风险。

通过联邦学习实现的信用风险控制用户数据网络的增强,可以更好地在贷款前判断客户风险,帮助信贷公司过滤信用黑名单或明显未转化的贷款客户,进一步降低贷款审批流程后期的信用审查成本。同时,在贷款中实现了对贷款后用户行为的动态评估,以辅助信用额度的调整,并在贷款后期协助贷款机构对催收进行战略评估,从而调整催收策略,提高催收效率。

在医疗卫生行业,它也面临着

基于对患者数据隐私保护的要求,以及各医疗机构的数据不能互联且标准不同的问题,联邦学习可以很好地避免医疗机构之间的信息障碍。加密信息不是集中和合并各种数据,而是通过协议在它们之间传输。每个医疗机构通过使用这些加密信息来更新模型参数,从而实现使用所有患者数据而不暴露原始数据的训练过程。

日前,腾讯田燕实验室和伟众银行利用这种联邦学习方法成功构建了“中风风险预测模型”,不仅可以利用两家医院加密的普通患者样本进行特征建模训练,还可以很好地保护他们的数据隐私。最后,两所医院独立训练的模型准确率有了很大提高。

在安全监控行业中,由于数据隐私保护的监管要求以及不同安全厂商之间的相互争斗,人工智能安全系统也难以实现良好的发展。如果多个制造商使用联合学习来训练和优化人工智能算法模型,每个企业可以在自己的服务器上训练,只需要将训练模型加密并上传到后台,然后在模型优化后将改进后的模型方案反馈给每个制造商。

除了在金融、医疗和安全行业的应用,联邦学习正在深入到其他行业。未来,包括金融、医疗保健、保险、安全、教育、零售、工业和智能城市在内的各种行业和场景都可以依靠联邦学习技术来提高行业的人工智能能力,从而实现降低成本和提高效率的运营目标。

总的来说,联邦学习对于积极促进和实践联邦学习的国内技术企业来说到底意味着什么?

首先,去年5月,中国互联网信息办公室发布了《数据安全管理办法(征求意见稿)》,一项名为“中国的GDPR”的法规,标志着中国数据标准化使用时代的到来。面对越来越严格的数据安全监管要求和越来越严重的用户数据隐私保护风险,这些国内科技企业必须将数据的合规性和合法使用作为日常运营的重中之重。

对数据安全的严格限制无疑会给企业应用人工智能技术带来挑战。联邦学习技术是这种监管挑战和行业竞争限制的解决方案,自然受到科技企业的高度尊重。

其次,对于那些技术巨头来说,联邦学习技术不仅可以直接解决企业内部的“数据孤岛”问题,还可以使他们在所涉及的行业中建立数据共享的合作生态。只有率先为联邦学习引入自己的开源框架,才能吸引更多的行业合作伙伴加入联邦学习的生态。

此外,对于那些初创企业或行业客户来说,既没有丰富的数据资源,也没有足够的资源来投资于人工智能系统的建设。加入联邦学习的生态,利用巨人平台和大数据资源,大大降低企业智能升级的成本,是一个非常经济可行的选择。

在过去的两年里,我们经常听到“包容性人工智能”的概念。普惠人工智能的愿景肯定不会只靠一两家人工智能巨头来实现,而是更需要企业、组织和各界人士的参与,为人工智能的技术升级和落地贡献持续的数据资源。

随着人工智能的不断发展和对数据隐私的保护,联邦学习正在机构和用户之间、机构和机构之间搭建一座桥梁,以实现数据信任和包容性人工智能结果的共享。然而,国内技术建设者和各行各业的参与者仍有许多工作要做,以建设学习生态的联邦桥梁。