金融领域幻觉检测与编辑技术突破

本文提出FRED框架,通过检索增强方法检测和编辑大语言模型在金融领域产生的幻觉内容。研究基于领域特定错误分类构建合成数据集,微调多个语言模型,显著提升事实准确性检测性能,为高风险领域提供可靠解决方案。

FRED:基于检索增强的语言模型幻觉检测与编辑方法

摘要

大语言模型中的幻觉问题对需要事实可靠性的应用构成关键挑战,尤其在金融等高风险领域。本研究提出一种有效方法,基于给定上下文检测和编辑模型生成响应中的事实错误内容。

方法

给定用户定义的领域特定错误分类,通过在金融问答语料库中插入标记错误来构建合成数据集,随后微调四个语言模型(Phi-4、Phi-4-mini、Qwen3-4B和Qwen3-14B)以检测和编辑这些事实不准确内容。

实验结果

性能最佳的微调Phi-4模型在二元F1分数上实现8%的提升,整体检测性能相比OpenAI-o3提高30%。值得注意的是,微调Phi-4-mini模型仅具有40亿参数,但与OpenAI-o3相比,二元检测仅下降2%,整体检测仅下降0.1%,保持了竞争性性能。

贡献

本研究为检测和编辑金融文本生成中的事实不一致提供了实用解决方案,同时引入了可推广框架,可增强大语言模型在金融以外多样化应用中的可信度和对齐性。代码和数据可通过指定链接获取。

主题分类:计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG)

引用信息:arXiv:2507.20930 [cs.CL]

提交历史:2025年7月28日提交

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计