大语言模型在医疗建议中受非临床信息干扰

根据某机构研究人员的研究，部署用于提供治疗建议的大语言模型（LLM）可能受到患者消息中非临床信息的干扰，例如错别字、多余空格、缺失性别标记，或使用不确定、戏剧化和非正式语言。

研究发现，对消息进行文体或语法修改会增加LLM建议患者自我管理所报告健康状况的可能性，而不是预约就诊，即使该患者应该寻求医疗护理。分析还显示，这些文本中的非临床变化（模仿真实沟通方式）更可能改变模型对女性患者的治疗建议，导致更高比例的女性被错误建议不寻求医疗护理（根据人类医生的判断）。

该研究高级作者、某机构电气工程与计算机科学系（EECS）副教授Marzyeh Ghassemi表示，这项工作是“强有力的证据，表明在医疗保健环境中使用模型之前必须进行审计——而它们已经在该环境中使用”。

这些发现表明，LLM以先前未知的方式将非临床信息纳入临床决策。研究人员表示，这揭示了在将LLM部署用于高风险应用（如提供治疗建议）之前需要进行更严格的研究。

研究主要作者、EECS研究生Abinitha Gourabathina补充说：“这些模型通常是在医学考试问题上进行训练和测试，但随后用于与之相差甚远的任务，例如评估临床病例的严重性。关于LLM，我们仍然有很多不了解的地方。”

混合信息

像某中心的GPT-4这样的大语言模型正在全球医疗机构中用于起草临床记录和分诊患者消息，旨在简化一些任务以帮助负担过重的临床医生。

尽管已有大量工作从公平性角度探索了LLM的临床推理能力，但很少有研究评估非临床信息如何影响模型的判断。

Gourabathina对性别如何影响LLM推理感兴趣，进行了实验，交换了患者笔记中的性别提示。她惊讶地发现，提示中的格式错误（如多余空格）会导致LLM响应发生有意义的变化。

为了探索这个问题，研究人员设计了一项研究，通过交换或删除性别标记、添加情绪化或不确定语言，或在患者消息中插入多余空格和错别字来改变模型的输入数据。

每次扰动都旨在模拟脆弱患者群体可能编写的文本，基于人们与临床医生沟通的心理社会研究。例如，多余空格和错别字模拟英语水平有限或技术能力较差患者的写作，添加不确定语言代表有健康焦虑的患者。

Gourabathina说：“这些模型训练的医学数据集通常经过清理和结构化，不能非常真实地反映患者群体。我们想看看这些非常真实的文本变化如何影响下游用例。”

研究人员使用LLM创建了数千份患者笔记的扰动副本，同时确保文本变化最小化并保留所有临床数据，如药物和先前诊断。然后他们评估了四个LLM，包括大型商业模型GPT-4和一个专为医疗环境构建的较小LLM。

他们根据患者笔记向每个LLM提出了三个问题：患者是否应该在家自我管理、患者是否应该来诊所就诊，以及是否应该为患者分配医疗资源（如实验室测试）。研究人员将LLM的建议与真实临床响应进行了比较。

当输入扰动数据时，研究人员发现治疗建议不一致，且LLM之间存在显著分歧。总体而言，对于所有九种类型的修改后患者消息，LLM的自我管理建议增加了7%至9%。

这意味着当消息包含错别字或性别中性代词时，LLM更可能建议患者不寻求医疗护理。情绪化语言（如俚语或戏剧化表达）的影响最大。

研究人员还发现，模型对女性患者的错误率高出约7%，并且更可能建议女性患者在家自我管理，即使研究人员从临床上下文中删除了所有性别提示。

许多最糟糕的结果（如患者在有严重医疗状况时被告知自我管理）可能不会被关注模型整体临床准确性的测试所捕获。

Gourabathina说：“在研究中，我们倾向于查看汇总统计数据，但有很多东西在翻译中丢失了。我们需要查看这些错误发生的方向——在应该就诊时不建议就诊比相反的情况有害得多。”

在LLM与患者交互的对话设置中（这是面向患者的聊天机器人的常见用例），由非临床语言引起的不一致性变得更加明显。

但在后续工作中，研究人员发现患者消息中的这些相同变化不会影响人类临床医生的准确性。

Ghassemi说：“在我们正在审阅的后续工作中，我们进一步发现大语言模型对人类临床医生不受影响的变化很脆弱。这也许并不奇怪——LLM并非设计用于优先考虑患者医疗护理。LLM足够灵活且平均性能良好，我们可能认为这是一个很好的用例。但我们不希望优化一个仅对特定群体患者有效的医疗保健系统。”

研究人员希望通过设计自然语言扰动来扩展这项工作，以捕捉其他脆弱群体并更好地模拟真实消息。他们还希望探索LLM如何从临床文本中推断性别。