意图感知的文献综述表格生成与编辑
摘要
学术文献数量的快速增长使得研究人员亟需有效组织、比较和对比文献集合的工具。大语言模型(LLMs)能够通过生成定义共享比较维度的模式(schemas)来支持这一过程。然而,由于以下两个原因,模式生成的研究进展缓慢:(i)基于参考评估的模糊性;(ii)缺乏编辑/优化方法。本研究首次同时解决这两个问题。
技术方法
首先提出一种通过合成意图增强未标注表格语料的方法,并据此构建用于研究基于特定信息需求生成模式的数据集,从而减少模糊性。通过该数据集证明,引入表格意图可显著提升基线模型在重建参考模式方面的性能。
随后提出多种基于LLM的模式编辑技术。研究首先全面评估了多种单次生成方法,包括提示工程LLM工作流和微调模型,结果表明较小的开放权重模型经过微调后可与最先进的提示工程LLM相竞争。进一步证明所提出的编辑技术能够优化这些方法生成的模式。
技术贡献
- 构建首个包含合成意图标注的文献表格数据集
- 验证意图感知方法对模式重建的性能提升
- 开发高效的LLM微调方案实现小模型竞争性能
- 提出多种模式编辑技术实现生成结果优化
应用价值
该技术可显著提升学术文献综述的效率,为研究人员提供智能化的表格生成与编辑工具,促进学术知识的组织与整合。