迈向安全可信AI:独立基准测试
生成式AI正以前所未有的速度发展,新的大型语言模型(LLMs)频繁发布,带来性能提升、效率提高和新功能。开发者、研究人员和组织在快速利用这些模型进步时,面临着一个重大挑战:如何持续可靠地评估其性能与安全性,并确定哪个模型最适合其用例。
为帮助解决这一需求,Google DeepMind和Giskard正在发布LMEval(一个大模型评估框架)以及Phare基准测试(一个独立的多语言安全基准测试)。
相关研究
- 在Google开发安全AI工作流程的经验教训
- 网络安全中的AI:今日入门指南
- 大型语言模型如何重塑网络安全格局
- AI安全:今日入门的五大建议
- RETVec:弹性高效的文本向量化器
近期活动
- AI网络安全入门指南 - Sectember AI 2024会议
- AI安全五大建议 - DevFest 2024会议
- 使用远程深度学习的加密硬件通用功率攻击 - CHES 2024出版物
Elie Bursztein博士是Google和DeepMind的AI网络安全技术与研究负责人,也是Etteilla基金会的创始人。