临床大语言模型潜在脆弱性诊断技术研究

本研究提出几何感知评估框架LAPD,通过潜在诊断翻转率(LDFR)指标系统评估临床LLMs在对抗性编辑下的潜在鲁棒性。研究涵盖症状掩码、否定表述、同义词替换和数值变异四种扰动方式,并在真实临床笔记上验证了方法的通用性。

潜在诊断翻转率:临床大语言模型在代理扰动下的潜在脆弱性

摘要

临床决策支持大语言模型(LLMs)在静态基准测试中表现优异,但在面对微小但具有临床意义的输入变化时经常失效,例如掩码症状或否定发现。这些推理失败通常无法通过标准自然语言处理指标检测,因为这些指标对驱动诊断不稳定的潜在表示变化不敏感。

方法框架

研究提出几何感知评估框架LAPD(潜在代理扰动诊断),系统性地探测临床LLMs在结构化对抗编辑下的潜在鲁棒性。在该框架中引入了潜在诊断翻转率(LDFR),这是一个模型无关的诊断信号,用于捕捉当嵌入在PCA降维的潜在空间中跨越决策边界时的表示不稳定性。

实验设计

临床笔记通过基于诊断推理的结构化提示管道生成,随后沿四个轴向进行扰动:

  • 症状掩码
  • 否定表述
  • 同义词替换
  • 数值变异

这些扰动旨在模拟常见的模糊性和遗漏情况。研究在基础模型和临床LLMs上计算LDFR,发现即使在最小表面级变化下也会出现潜在脆弱性。

实证验证

在DiReCT基准(MIMIC-IV)的90个真实临床笔记上验证了研究结果,证实了LDFR在合成环境之外的通用性。研究结果揭示了表面鲁棒性与语义稳定性之间的持续差距,强调了在安全关键的临床AI中进行几何感知审计的重要性。

结论

该研究为临床大语言模型的可靠性评估提供了新的技术框架,通过潜在空间几何分析揭示了模型在面临临床常见变异时的脆弱性,为提升临床AI系统的安全性和稳定性提供了重要技术支撑。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计