机器学习模型的安全挑战
人类大脑如何识别停止标志?计算机视觉架构师试图为众多对象解答这个问题,从野外鸟类到通心粉菜肴。这个问题非常复杂,因为机器需要学习人类本能具备的感官处理能力。即使停止标志被涂鸦或贴纸覆盖,人类仍能识别。如何让计算机学会同样能力?
随着技术成为日常生活的重要组成部分,这已不仅是效用或便利性问题,更是关键的安全问题——适用于从图像到音频、文本等多种数据输入形式。
漏洞发现与防御机制
某机构研究奖获得者、伊利诺伊大学厄巴纳-香槟分校计算机科学助理教授的研究同时揭示了漏洞和解决方案。2017年,其团队证明即使对常见道路标志进行轻微改动,也足以干扰负责识别它们的神经网络——这对自动驾驶系统构成障碍。该研究提出了一种通用算法来发现此类漏洞。
在2020年某机构研究奖支持下,安全学习实验室的持续工作旨在"使机器学习算法更鲁棒、私有、高效和可解释"。2019年的另一项研究奖为当前评估机器学习算法鲁棒性(特别是在隐私方面)的工作奠定基础。
“这类攻击非常隐蔽,“研究人员谈到可能混淆算法的输入轻微改动时表示,“人类坐在计算机前试图分辨哪些图像被攻击…无法做到。只能训练模型来完成。”
隐私保护技术创新
2020年研究奖资助已产生四项研究成果。其中被IEEE安全与隐私研讨会接受的论文关注图结构数据,揭示了社交网络等服务底层图数据的"边隐私"问题。
论文《LinkTeller: 通过影响分析从图神经网络恢复私有边》提出一种场景:训练图数据的服务API可能被利用来访问本应私有的信息。
其他论文侧重于防御和保护。其中在NeurIPS 2021会议上发表的论文解决了训练可扩展机器学习算法生成可用私有数据的挑战。
“这个问题非常重要。但迄今为止,对于高维数据还没有良好方法实现这一点。“高维数据具有大量特征和较少观测值,常见例子包括基因组学和健康记录。
该论文提出了一种生成可扩展、高维、差分私有数据的算法——意味着无法推断(从而暴露)用于生成结果的敏感信息。该策略通过将私有数据隐藏在"教师判别器"组后面进行掩蔽,而非依赖单一训练样本。
被2021年ACM计算机与通信安全会议接受的论文《TSS: 鲁棒性认证的特定变换平滑》提供了一种认证机器学习模型对抗任意攻击的方法,通过标记可解析的数据干扰或变换。在停止标志示例中,该思想旨在认证即使标志图像出现意外变更,算法仍能以高置信度识别它。
研究历程与未来方向
本科阶段专注于纯系统安全(如密码学)的研究人员,在2011年开始博士和博士后研究时,被人工智能的相关问题吸引。她认识到AI和私有数据的潜在漏洞,开始通过实验攻击(如2017年自动驾驶汽车和道路标志研究)和理论分析来探索这些漏洞,揭示AI可信度的基本原理。
早期研究产生了多个项目,如强化学习的认证鲁棒策略(CROP)——同样由2020年研究奖资助——系统性地基于认证标准评估不同强化学习算法,以及对抗性通用语言理解评估(GLUE),用于测试分析自然语言理解系统漏洞的基准系统。
这些研究和开源工作不仅对特定场景的安全维护重要,对领域泛化的更广泛挑战也至关重要:即算法是否足够灵活和强大以适应不同设置和使用场景。例如,在城市训练的自动驾驶汽车到达从未见过的乡村地区时是否知道该怎么做?
“领域泛化是机器学习的永恒主题,“研究人员表示,“我们正从鲁棒性角度解决这个问题。”
除了研究奖的资金和计算资源,与某机构研究人员讨论实际问题也带来益处。实验室的方法可应用于视觉、文本、音频和视频领域,目标是产生实际影响——无论是与某云工具集成还是启发其他研究人员。
“希望研究人员在不同领域尝试我们的方法,“研究人员总结道。