推进某机构AI模型的安全防护措施

某机构安全与隐私研究团队发布技术白皮书，阐述如何使Gemini 2.5成为迄今最安全的模型系列。当用户要求AI代理汇总最新邮件时，大语言模型可能遇到隐藏恶意指令的邮件，导致私有数据泄露或权限滥用。

间接提示注入是重要的网络安全挑战，AI模型难以区分真实用户指令与检索数据中嵌入的操纵性命令。白皮书《防御Gemini对抗间接提示注入的经验教训》提出了战略蓝图，应对由高级大语言模型支持的代理式AI工具面临的此类攻击。

评估基线防御策略

间接提示注入攻击需要持续警惕和多层防御。某机构安全团队专门保护AI模型免受恶意攻击。手动查找漏洞效率低下，因此开发了自动化系统持续探测Gemini防御机制。

自动化红队测试（ART）是安全策略核心，内部团队以现实方式持续攻击Gemini以发现安全弱点。该技术显著提升了Gemini在工具使用过程中对抗间接提示注入的攻击防护率，使Gemini 2.5成为最安全的模型系列。

测试了研究社区建议的多种防御策略及自定义方案：

在加强外部防御和系统级防护的同时，提升AI模型识别和忽略数据中恶意指令的内在能力至关重要——此过程称为“模型强化”。

基于自动化红队测试生成的大规模真实场景数据集对Gemini进行微调，这些数据包含针对敏感信息的有效间接提示注入。训练使Gemini学会忽略恶意指令并遵循原始用户请求，仅提供正确安全的响应。使模型内在地理解如何处理随时间演变的受损信息。

模型强化显著提升了Gemini识别和忽略注入指令的能力，降低攻击成功率，且不影响正常任务性能。需注意即使经过模型强化，也没有模型能完全免疫攻击，因此目标是提高攻击者的攻击难度和成本。

保护AI模型需要“深度防御”——使用多层防护包括模型强化、输入/输出检查（如分类器）和系统级防护。对抗间接提示注入是实施代理安全原则和负责任开发代理的关键方式。

确保高级AI系统安全是持续过程，需要：

通过分层防御和持续学习，使AI助手既强大又值得信赖。

详细防御方案和模型鲁棒性评估建议请参阅技术白皮书《防御Gemini对抗间接提示注入的经验教训》。