生成式AI社会与伦理风险评估
引言
生成式AI系统已广泛应用于书籍创作、平面设计、医疗辅助等领域,其能力持续增强。为确保这些系统负责任地开发和部署,需谨慎评估其可能带来的潜在伦理和社会风险。
三层评估框架
提出包含以下三个层面的评估框架:
- 能力评估:衡量AI系统产生事实性错误或误导性输出的倾向性
- 人机交互评估:关注用户使用体验,包括系统是否按预期运行、不同用户群体的差异体验
- 系统影响评估:考察AI系统嵌入社会机构、劳动力市场和自然环境后的广泛影响
当前评估存在的三大差距
通过全面梳理现有生成式AI安全评估方法,发现三个主要空白:
情境缺失
大多数安全评估孤立考虑生成式AI系统能力,较少评估人机交互点和系统影响层面的潜在风险。
风险特异性不足
能力评估覆盖的风险领域有限:
- 许多风险领域缺乏评估方法
- 现有评估通常以狭隘方式定义危害
- 例如表征危害通常定义为职业与性别的刻板关联
多模态评估缺位
- 现有安全评估主要聚焦文本输出
- 图像、音频和视频模态的风险评估存在巨大空白
- 多模态模型的出现使该差距持续扩大
实践中的综合评估方法
现有评估方法的再利用
- 重新调整现有评估方法的用途
- 利用大模型自身进行评估(存在重要局限性)
案例研究:错误信息评估
整合以下发现:
- AI系统提供事实错误信息的可能性
- 人们如何使用该系统
- 使用情境的具体特征
多层评估可得出超越模型能力的结论,并指示危害(如错误信息)是否实际发生和传播。
安全评估的共同责任
确保AI安全需要多方协作:
责任分配
- AI开发者:最适合评估其系统的能力
- 应用开发者和公共机构:评估不同功能和应用的外部性
- 公共利益相关方:预测和评估新技术的社会、经济和环境影响
资源开放
通过公开存储库提供生成式AI系统安全评估的详细出版物列表,鼓励社区通过指定表格贡献评估方法。
结论
生成式AI系统正推动新应用和创新浪潮。为确保理解和缓解这些系统的潜在风险,迫切需要严格全面的AI系统安全评估,充分考虑系统如何使用以及如何嵌入社会。建立繁荣稳健的评估生态系统需要开发者、公共机构等多方合作。