操纵攻击由未对齐AI实施:风险分析与安全案例框架
前沿AI系统在说服、欺骗和影响人类行为方面的能力正在迅速提升,当前模型已在特定情境下展现出人类水平的说服力和战略性欺骗能力。人类通常是网络安全系统中最薄弱的环节,部署在前沿公司内部的未对齐AI系统可能通过操纵员工来破坏人类监督。尽管这种威胁日益增长,操纵攻击却很少受到关注,且目前缺乏系统性的风险评估和缓解框架。
为解决这一问题,我们详细阐述了为何操纵攻击构成重大威胁并可能导致灾难性后果。此外,我们提出了针对操纵风险的安全案例框架,该框架围绕三个核心论证维度构建:能力缺失(inability)、控制措施(control)和可信度(trustworthiness)。针对每个论证维度,我们明确了证据要求、评估方法以及可供AI公司直接应用的实施考量。
本文首次提供了将操纵风险纳入AI安全治理的系统性方法论,为AI公司在部署前评估和缓解这类威胁提供了具体基础。
论文信息:24页(正文14页,参考文献4页,附录6页),含3张图表
研究领域:人工智能(cs.AI)、密码学与安全(cs.CR)、人机交互(cs.HC)
DOI:10.48550/arXiv.2507.12872