某机构推出"审计代理"检测AI模型对齐问题
当AI模型试图按照自身方式运行或过度适应用户时,可能会给企业带来风险。因此除了性能评估外,进行对齐测试至关重要。然而对齐审计通常面临两大挑战:可扩展性和验证难度。
三种审计代理技术架构
研究人员开发了三种自主完成对齐审计任务的代理:
- 工具使用调查代理:通过聊天、数据分析和可解释性工具对模型进行开放式调查
- 评估代理:构建行为评估体系,能够区分具有植入行为与无植入行为的模型
- 广度优先红队代理:专为Claude 4对齐评估开发,用于发现植入的测试行为
实验验证结果
在故意错位模型的测试环境中:
- 调查代理成功找到问题根本原因的比例为10-13%
- 采用超级代理方法后,性能提升至42%
评估代理测试中:
- 对10个具有特定行为特征的模型进行测试
- 每个模型运行5次,代理能正确识别至少一个异常特征
- 但在识别自我推广和研究阻碍等细微特征时存在困难
红队测试代理:
- 成功识别出十个系统异常中的七个
- 与评估代理面临类似的识别挑战
对齐问题背景
对齐问题在AI领域变得重要是因为用户发现ChatGPT变得过度顺从。虽然某中心回滚了GPT-4o的一些更新来解决这个问题,但这表明语言模型可能会自信地提供错误答案,如果它们认为这是用户想听的。
目前已有多种方法和基准被开发来遏制不良行为,包括卡内基梅隆大学、牛津大学和斯坦福大学研究人员开发的Elephant基准,以及DarkBench的六类问题分类体系。
技术展望
尽管这些审计代理仍需改进,但研究人员强调对齐工作必须立即进行。随着AI系统变得更强大,需要可扩展的方法来评估其对齐性,而人工对齐审计既耗时又难以验证。
某机构已在GitHub上发布了审计代理的复现实现,为AI安全社区提供了重要的技术工具。