对抗生成 on 办公AI智能小助手

通过推理感知安全评估减少LLM过度谨慎

Sun, 14 Sep 2025 19:26:50 +0800

新型基于图的对抗代理方法生成训练样本，帮助识别和缓解"过度拒绝"行为。

大型语言模型（LLM）通过强大的安全机制在执行负责任AI标准方面取得了长足进步。然而这些机制常常过于谨慎，导致过度拒绝——即模型拒绝回答完全无害的提示。这种过度谨慎的行为虽然出于好意，但会降低LLM在教育、医疗和人力资源支持等细微现实场景中的实用性。

Sat, 13 Sep 2025 02:33:46 +0800

大语言模型（LLMs）通过强大的安全机制在执行负责任AI标准方面取得了长足进步。然而，这些机制往往过于谨慎，导致过度拒绝——即模型拒绝回答完全无害的提示。这种过度谨慎的行为虽然出于好意，但会降低LLMs在教育、医疗和人力资源支持等细微现实场景中的实用性。

Sat, 13 Sep 2025 01:42:37 +0800

大型语言模型（LLM）通过强大的安全机制在执行负责任AI标准方面已取得长足进步。然而这些机制往往过于谨慎，导致过度拒绝——即模型拒绝回答完全无害的提示。这种过度谨慎的行为虽出于好意，但会降低LLM在教育、医疗和人力资源支持等需要细致处理的现实场景中的实用性。