RiskRubric:安全负责任模型采用的新指南
在过去十年中,云安全联盟一直处于帮助组织应对云风险和机遇的前沿。随着我们进入生成式AI时代,挑战变得更加严峻:安全团队必须在确保开发人员选择可信模型并从一开始就实施正确防护措施的同时,推动创新。
这就是RiskRubric.ai的用武之地——这是一种系统化方法,通过六大信任支柱(透明度、可靠性、安全性、隐私、安全和声誉)来量化AI模型风险。通过结合自动化红队测试、开源情报和基于证据的评分,RiskRubric为模型生成带有字母等级的简单报告卡。这为安全团队提供了一个指南针,以自信地指导模型采用和治理。
为什么开发人员需要风险指南针
开发人员持续面临将最新大型语言模型集成到应用程序中的压力,但往往无法清晰了解相关风险。倾向于默认使用最流行或最强大的模型,但这种方法可能使组织面临从提示注入到数据泄露等各种漏洞。
通过实施RiskRubric,安全团队可以在部署前标准化模型评估。想象一下开发人员请求将新模型集成到面向客户的聊天机器人中:
- RiskRubric记分卡按支柱提供风险概览
- 安全团队可以立即识别模型是否满足可靠性和隐私的基线阈值
- 然后可以定制防护措施:例如,如果模型的透明度得分较低,则需要额外监控;如果模型显示注入敏感性,则加强输入验证
这将安全从瓶颈转变为推动者,让开发人员确信他们正在安全的基础上进行构建。
证据至关重要
我们知道我们的社区希望不仅仅停留在字母等级上。这就是CSA发布《RiskRubric方法论白皮书》作为实现完全透明度的第一步的原因。该文件阐述了如何收集证据、如何推导风险指标以及如何将它们汇总为综合得分。它为利益相关者验证结果、贡献改进并最终将RiskRubric塑造成开放的行业标准奠定了基础。
实践中的证据:三个RiskRubric指标
RiskRubric的力量在于其能够揭示等级背后的具体证据。以下是扫描仪提供可操作见解的三个示例:
1. 直接提示注入敏感性(S1)
测量内容:模型是否可以通过精心设计的输入被操纵以覆盖保护措施或揭示隐藏信息。
证据收集方式:RiskRubric运行对抗性提示并记录显示模型忽略限制或披露系统提示的转录本。
价值:安全团队可以查看确切的转录本,以设计更好的输入清理并防止利用。
2. 错误信息生成(SF2)
测量内容:模型是否产生事实不正确或误导性的响应。
证据收集方式:RiskRubric将模型输出与可信参考进行比较并突出偏差。
价值:开发人员和合规官员获得对幻觉风险的可见性,在需要时启用事实检查工作流程或人工审查。
3. 个人信息泄露(P1)
测量内容:模型是否输出敏感个人数据,无论是在交互过程中记忆的还是引出的。
证据收集方式:探针测试个人可识别信息的暴露,带有按严重性标记的注释输出。
价值:隐私团队可以及早识别合规风险,并决定是否应用隐私保护技术或限制部署范围。
这些示例展示了RiskRubric如何弥合抽象风险评分与可操作证据之间的差距,实现实用的防护设计和治理。
行动呼吁:帮助塑造RiskRubric的未来
RiskRubric是为AI模型风险评估创建开放标准的全球努力的开端。CSA致力于确保该标准:
- 社区驱动:我们希望您就未来版本的RiskRubric应优先考虑哪些功能和能力提供反馈。
- 标准对齐:我们打算让评分标准由CSA工作组管理,并与我们的AI控制矩阵和其他关键AI治理框架保持一致。这包括将RiskRubric指标直接映射到AICM控制目标,确保收集的每个证据都可以与可操作的保障措施相关联。
- 扩展到MCP:我们的路线图包括为模型上下文协议创建RiskRubric版本。利用CSA新的MCP安全控制中心,此扩展将允许我们扫描MCP交互并评估协议级风险,确保该方法不仅适用于模型,还适用于连接它们的编排框架。如果您有兴趣参与,这将帮助我们为此设定时间表。
目前,参与的最佳方式是加入CSA社区的公共Slack频道。在这里,您可以贡献想法、提出问题并帮助塑造RiskRubric的未来方向。
AI安全的共同责任
只有在我们能够在每个层面(模型、应用程序和基础设施)建立信任时,AI的承诺才能实现。RiskRubric和AICM共同提供了一个实现这一目标的路线图:赋予开发人员创新能力,同时为安全团队提供实时管理风险的工具。
我们邀请您加入我们,将RiskRubric转变为模型可信度的社区标准,确保AI采用不仅强大,而且安全、透明并与人类价值观保持一致。