大型语言模型位置偏差机制揭秘

研究表明，大型语言模型(LLM)在处理文档或对话时存在过度关注开头和结尾而忽视中间内容的"位置偏差"现象。例如在法律文件检索场景中，模型在30页 affidavit 中更易识别首尾页的关键短语。

机制发现与理论框架

MIT研究人员构建了基于图论的理论框架，系统分析Transformer架构中注意力掩码和位置编码对信息流的影响：

实验显示，信息检索任务中模型准确率呈现U型曲线——首尾位置表现最佳，中间内容识别率显著下降。

研究提出的诊断框架可指导以下优化：

通过调整注意力掩码策略、精简网络层数或优化位置编码方案，可有效降低位置偏差。研究同时强调需结合特定任务数据分布进行针对性优化。

该成果为提升Transformer模型在非自然语言生成任务中的可靠性提供了理论基础，相关论文将发表于国际机器学习会议。研究获得美国海军研究办公室、国家科学基金会等机构支持。