联邦学习或可破解机器学习数据获取难题

2019-09-03 11:53
科技日报

随着人工智能的不断发展与落地，用户隐私问题越来越受到重视。近日，人工智能大数据公司因为违反相关法规而被罚巨额罚款，用户隐私问题再次回归大众视野。人工智能企业在分享数据的同时应遵守哪些道德原则？隐私保护法规对于AI的发展与落地而言是机遇还是挑战？更强大的数据保护法规是否会减缓AI的发展速度？在日前召开的第28届国际人工智能联合会议（IJCAI）上，业内专家提出了当今各行业在处理数据、实现AI落地需要共同面对的多个问题。

“在《通用数据保护条例》等隐私保护条款实施的前提下，数据处理与隐私保护并不是一场‘零和博弈’的关系，二者的关系需要被正确对待，以实现双赢的局面。”华盛顿大学教授、D. E. Shaw机器学习团队董事总经理兼负责人佩德罗·多明戈斯认为，企业在处理数据时，不要被数据的力量冲昏了头脑，需要重点考虑用户的知情权，承担起相应的社会责任。

如何解决AI应用中出现的“数据孤岛”和用户隐私难题？国际人工智能联合会议2019理事会主席、微众银行首席人工智能官杨强给出了解决方案：“联邦学习或是解决这两个核心问题的同一个解决思路。”

什么是联邦学习？“在保护数据隐私、满足合法合规要求的前提下，继续进行机器学习，这部分研究被称为联邦学习。”杨强说，开始联邦学习的背景是欧盟通过了《数据隐私保护条例》。该条例要求公司在使用数据前要先向用户声明模型的作用，这份条例的实行让许多大数据公司在数据交流方面非常谨慎，这对于极度依赖数据的机器学习是一个巨大的挑战。

“联邦学习希望在不共享数据的前提下，利用双方的数据实现模型增长。”杨强举例，假设两家公司想要建立一个用户画像模型，其中部分用户是重合的。联邦学习的做法是，首先通过加密交换的手段，建立用户的识别符并进行沟通，在加密状态下用减法找出共有的部分用户。因为关键用户信息并没有得到交换，交换的只是共有的识别符，因此这并不违反《数据隐私保护条例》。然后，双方将这部分数据提取出来，将各自拥有的同样用户的不同特征作为输入，迭代地进行训练模型、交换参数的过程。多项测试证明了给定模型参数，双方不能互相反推出对方拥有的、自己没有的特征，因此用户隐私仍然得到了保护。在不违反《数据隐私保护条例》的情况下，双方的模型性能都得到了提高。

“数据安全和用户隐私目前已成为大数据时代的两大挑战，对于金融、医疗及法律等数据敏感行业更甚，联邦学习可以解决这两大问题。”微众银行AI部高级研究员刘洋介绍。

目前，联邦学习已经应用于多个行业的业务板块。未来，AI与用户隐私的平衡问题会持续伴随AI的发展。杨强表示，新一代的机器学习算法框架，需以保护隐私、安全合规为出发点，用透明的机制来保障人工智能的健康发展，联邦学习的发展提供了新思路。