Gemma Scope:助力安全社区揭示语言模型内部机制
2024年7月31日发布 语言模型可解释性团队
今日宣布推出全面的开源稀疏自编码器套件,用于语言模型可解释性研究。创建人工智能语言模型时,研究人员构建的系统需从海量数据中自主学习,导致模型内部工作机制往往成谜,甚至对训练者而言也是如此。机制可解释性研究领域专注于破译这些内部机制,研究人员使用稀疏自编码器作为"显微镜"来观察语言模型内部,更好地理解其工作原理。
Gemma Scope是针对轻量级开源模型Gemma 2系列的新工具集,包含数百个免费开放的稀疏自编码器(SAEs),适用于Gemma 2 9B和Gemma 2 2B模型。同时开源Mishax工具,该工具支撑了Gemma Scope背后的可解释性研究工作。
解读语言模型内部运作机制
当向语言模型提问时,系统会将文本输入转化为一系列"激活"。这些激活映射词语间关系,帮助模型建立连接以生成答案。模型处理文本时,神经网络不同层的激活代表多个日益复杂的"特征"概念。例如早期层可能学习迈克尔·乔丹打篮球的事实,而后期层可识别文本事实性等复杂概念。
可解释性研究者面临核心挑战:模型激活是多种特征的混合体。早期研究希望神经网络激活中的特征能与单个神经元对应,但实践中神经元会对多个无关特征激活。稀疏自编码器通过利用特征稀疏性原理,将每个激活分解为少量特征成分,自动发现语言模型使用的底层特征结构。
Gemma Scope的技术创新
与传统仅针对小型模型或单层的研究不同,Gemma Scope在Gemma 2所有层和子层输出训练稀疏自编码器,生成超过400个自编码器和3000万个学习特征(可能存在重叠)。采用新型JumpReLU SAE架构,显著改善特征检测与强度估计的平衡,大幅降低误差。
训练过程消耗Gemma 2 9B约15%的训练算力(不含蒸馏标签生成),保存约20PB的激活数据(相当于百万份英文维基百科),产生数千亿稀疏自编码器参数。
推动领域发展
通过Gemma Scope的发布,旨在使Gemma 2成为开源机制可解释性研究的最佳模型系列,加速社区研究进展。当前可解释性社区已在小型模型稀疏自编码器理解方面取得重大进展,开发出因果干预、自动电路分析、特征解释等技术。Gemma Scope有望帮助社区将这些技术扩展到现代模型,分析思维链等复杂能力,并解决大模型特有的幻觉和越狱等实际问题。
[查看技术报告] | [体验交互式演示] | [尝试编程教程] | [下载工具包] | [查看Mishax工具]