设备端语言模型私有化训练的技术突破与生产实践

本文详细介绍了Google Gboard如何通过联邦学习与差分隐私技术实现设备端语言模型的私有化训练,涵盖技术架构、隐私保障机制及生产部署实践,包括30多个模型在15个国家支持7种语言的规模化应用。

语言模型(LMs)通过预测输入文本的下一个词成为许多应用的核心技术[1, 2]。在Gboard中,LMs用于提升用户输入体验,支持下一词预测(NWP)、智能撰写、智能补全与建议、滑动输入和校对等功能。将模型部署在用户设备而非企业服务器上具有低延迟和更好隐私保护的优势。虽然直接基于用户数据训练设备端模型能有效提升NWP和智能文本选择等应用的性能,但保护用户数据在模型训练中的隐私至关重要。

Gboard中由设备端语言模型驱动的功能

本文讨论了自2017年联邦学习(FL)概念验证和2022年形式化差分隐私(DP)保证以来,多年研究成果如何推动Gboard LMs的私有化训练。FL使移动设备能够协作学习模型,同时将所有训练数据保留在设备上,而DP提供了数据匿名化的可量化度量。形式上,DP通常由(ε, δ)表征,较小的值代表更强的保障。当δ较小时,机器学习(ML)模型在ε=10时被认为具有合理的DP保障,在ε=1时具有强DP保障。

截至今日,Gboard中所有NWP神经网络LMs均通过FL训练并具有形式化DP保障,未来所有基于用户数据训练的Gboard LMs发布都要求DP。这些30多个Gboard设备端LMs支持7种以上语言和15个以上国家,满足(ε, δ)-DP保障,其中δ为10⁻¹⁰,ε介于0.994和13.69之间。据我们所知,这是Google乃至全球已知最大的用户级DP生产部署,也是首次宣布基于用户数据直接训练的模型具有ε < 1的强DP保障。

Gboard中的隐私原则与实践

在“Gboard中的私有联邦学习”中,我们讨论了不同隐私原则如何体现在生产模型中,包括:

  • 透明度和用户控制:我们披露了所用数据类型、使用目的、在不同渠道中的处理方式,以及Gboard用户如何轻松配置学习模型中的数据使用。
  • 数据最小化:FL仅立即聚合改进特定模型的聚焦更新。安全聚合(SecAgg)是一种加密方法,进一步确保只能访问临时更新的聚合结果。
  • 数据匿名化:服务器应用DP防止模型记忆单个用户训练数据中的独特信息。
  • 可审计性和可验证性:我们已在开源代码中公开关键算法方法和隐私核算(TFF聚合器、TFP DPQuery、DP核算和FL系统)。

简要历史

近年来,FL已成为从用户数据训练Gboard设备端LMs的默认方法。2020年,一种通过裁剪和添加噪声到模型更新的DP机制用于防止西班牙LM训练中的记忆,满足有限DP保障(“如何DP化ML”指南中的Tier 3)。2022年,借助DP-Follow-The-Regularized-Leader(DP-FTRL)算法,西班牙LM成为首个基于用户数据直接训练的生产神经网络,宣布具有(ε=8.9, δ=10⁻¹⁰)-DP的形式化保障(相当于报告的ρ=0.81零集中差分隐私),因此满足合理隐私保障(Tier 2)。

联邦学习中的默认差分隐私

在“使用差分隐私的Gboard语言模型联邦学习”中,我们宣布所有Gboard NWP神经网络LMs都具有DP保障,且未来所有基于用户数据训练的Gboard LMs发布都要求DP保障。通过以下实践在FL中启用DP:

  • 使用多语言C4数据集预训练模型。
  • 通过在公共数据集上的模拟实验,找到允许高效用的大DP噪声信号比。增加每轮模型更新的客户端数量在保持噪声比固定的情况下改善隐私,直至达到DP目标或系统允许的最大值及人口规模限制。
  • 根据计算预算和FL系统中估计的人口规模配置参数,限制每个客户端的贡献频率(例如,每几天一次)。
  • 运行DP-FTRL训练,限制每设备更新幅度,通过自适应裁剪或基于经验固定选择。

SecAgg可通过采用改进计算和通信的进展来额外应用,以适应规模和敏感性。

报告DP保障

已启动的Gboard NWP LMs的DP保障在下面的柱状图中可视化。x轴显示按语言-区域标记的LMs,并在相应人口上训练;y轴显示当δ固定为10⁻¹⁰小值时的ε值(越低越好)。这些模型的效用要么显著优于生产中以前的非神经模型,要么与没有DP的先前LMs相当,基于A/B测试中的用户交互指标测量。例如,通过应用最佳实践,西班牙模型的DP保障从ε=8.9改进到ε=5.37。SecAgg额外用于训练西班牙和美国英语模型。更多DP保障细节遵循“如何DP化ML”指南在附录中报告。

迈向更强DP保障

许多已启动LMs的ε~10 DP保障在实践中已被认为合理,而Gboard中的DP FL之旅继续在保护数据隐私的同时改善用户输入体验。我们兴奋地宣布,首次生产LMs的巴西葡萄牙语和拉丁美洲西班牙语以ε ≤ 1的DP保障训练和启动,满足Tier 1强隐私保障。具体地,(ε=0.994, δ=10⁻¹⁰)-DP保障通过运行高级矩阵分解DP-FTRL(MF-DP-FTRL)算法实现,每轮服务器模型更新有12,000+设备参与,高于常见设置的6,500+设备,并精心配置策略限制每个客户端在14天的2,000轮训练中最多参与两次,覆盖巴西庞大的葡萄牙语用户人口。使用类似设置,es-US西班牙语LM在结合拉丁美洲多国的大人口中训练,实现(ε=0.994, δ=10⁻¹⁰)-DP。ε ≤ 1的es-US模型显著改善了许多国家的效用,并在哥伦比亚、厄瓜多尔、危地马拉、墨西哥和委内瑞拉启动。对于西班牙较小人口,es-ES LM的DP保障从ε=5.37改进到ε=3.42,仅通过将DP-FTRL替换为MF-DP-FTRL而不增加每轮参与设备数量。更多技术细节在隐私核算的colab中披露。

讨论与下一步

我们的经验表明,DP可以通过系统算法协同设计在客户端参与上实现,且当人口庞大和大量设备贡献聚合时,隐私和效用都可以很强。隐私-效用-计算权衡可以通过使用公共数据、新MF-DP-FTRL算法和收紧核算来改善。通过这些技术,ε ≤ 1的强DP保障是可能的但仍具挑战性。关于经验隐私审计的积极研究[1, 2]表明,DP模型可能比最坏情况DP保障暗示的更私有。在我们不断推动算法前沿的同时,隐私-效用-计算的哪个维度应优先?

我们积极致力于ML的所有隐私方面,包括将DP-FTRL扩展到分布式DP和改进可审计性与可验证性。可信执行环境为大幅增加模型大小与可验证隐私开辟了机会。大型LMs(LLMs)的最新突破激励我们重新思考公共信息在私有训练中的使用,以及LLMs、设备端LMs和Gboard生产之间更多未来交互。

致谢

作者感谢Peter Kairouz、Brendan McMahan和Daniel Ramage对博客文章的早期反馈,Shaofeng Li和Tom Small帮助制作动画图表,以及Google团队在算法设计、基础设施实现和生产维护方面的帮助。以下合作者直接贡献了所述结果:

  • 研究与算法开发:Galen Andrew, Stanislav Chiknavaryan, Christopher A. Choquette-Choo, Arun Ganesh, Peter Kairouz, Ryan McKenna, H. Brendan McMahan, Jesse Rosenstock, Timon Van Overveldt, Keith Rush, Shuang Song, Thomas Steinke, Abhradeep Guha Thakurta, Om Thakkar, and Yuanbo Zhang。
  • 基础设施、生产与领导支持:Mingqing Chen, Stefan Dierauf, Billy Dou, Hubert Eichner, Zachary Garrett, Jeremy Gillula, Jianpeng Hou, Hui Li, Xu Liu, Wenzhi Mao, Brett McLarnon, Mengchen Pei, Daniel Ramage, Swaroop Ramaswamy, Haicheng Sun, Andreas Terzis, Yun Wang, Shanshan Wu, Yu Xiao, and Shumin Zhai。
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计