RefusalBench：教会AI何时说“我不知道”

你是否曾想过，为什么友好的聊天机器人有时会给出奇怪的答案，而不是保持沉默？科学家们推出了一项名为RefusalBench的新测试，用于检查AI在看到信息不可靠时是否能明智地说“我不知道”。

想象一位图书管理员，如果目录缺页就拒绝推荐书籍——这正是我们需要AI在帮助我们写作、搜索甚至驾驶时所具备的那种谨慎。

在一项涉及30多个语言模型的大规模研究中，研究人员发现，即使是最先进的系统也会犯错，在多文档任务中正确拒绝的比例不到一半。

问题不在于模型规模，而在于识别不确定性并决定何时保持沉默的能力。

好消息是？研究表明这种能力是可以培养的，新的基准测试让开发人员能够持续改进它。

随着AI成为日常伴侣，确保它知道何时保持沉默可以使我们的对话更安全、更可信。

保持好奇心，关注这一领域，期待更智能、更负责任的机器。

阅读Paperium.net上的完整文章综述： RefusalBench：基于语言模型的选择性拒绝生成式评估

🤖 本分析和综述主要由AI生成和构建。内容仅供信息和快速查阅之用。