开源大语言模型在临床信息抽取中的应用

本研究评估了九种开源生成式大语言模型在荷兰语临床信息抽取任务中的表现,开发了名为llm_extractinator的公开框架,在零样本设置下测试模型性能。研究发现140亿参数模型在保持竞争力的同时,更大模型仅带来边际性能提升但计算成本显著增加。原生语言处理优于翻译后处理,证明开源模型可为资源受限环境提供高效可扩展的隐私安全解决方案。

摘要

医学报告包含丰富的临床信息,但通常是非结构化的且使用特定领域语言编写,这给信息抽取带来了挑战。虽然专有大语言模型在临床自然语言处理中显示出潜力,但其缺乏透明度及数据隐私问题限制了在医疗领域的应用。本研究因此在DRAGON基准上评估了九种开源生成式大语言模型,该基准包含28项荷兰语临床信息抽取任务。开发了公开可用的\texttt{llm_extractinator}框架用于开源生成式大语言模型的信息抽取,并以此评估零样本设置下的模型性能。

主要发现

  • 模型性能对比:多个140亿参数模型(Phi-4-14B、Qwen-2.5-14B和DeepSeek-R1-14B)取得了具有竞争力的结果,而更大的Llama-3.3-70B模型以更高计算成本实现了略优性能
  • 语言处理关键发现:推理前翻译为英语会持续降低性能,凸显了原生语言处理的必要性
  • 框架价值:研究证明开源大语言模型结合本框架可为低资源环境提供有效、可扩展且注重隐私的临床信息抽取解决方案

方法架构

研究采用零样本评估设置,使用自主研发的\texttt{llm_extractinator}框架进行系统测试。该框架专门针对开源生成式大语言模型设计,支持多模型性能对比分析。基准测试包含28项临床信息抽取任务,全部使用荷兰语原始文本进行评估。

技术意义

本研究提供了开源替代方案解决医疗领域的数据隐私和透明度问题。通过原生语言处理优化和计算效率权衡分析,为资源受限环境提供了实用的技术选择方案。开发的开源框架可直接应用于临床自然语言处理场景。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计