轻量级LLM实现文本到结构化数据转换

本文介绍了一种专用于生成结构化对象的轻量级语言模型SoLM,通过自监督去噪训练和置信感知子结构束搜索解码机制,在保持高精度的同时显著提升计算效率,可应用于产品属性生成和数据规范化等多种场景。

轻量级LLM实现文本到结构化数据转换

新型训练流程和解码机制使该模型在相同任务上的表现优于规模更大的基础模型。

技术背景

当今生成模型最重要的特性之一是能够将非结构化、部分结构化或结构不良的输入转换为符合特定模式的结构化对象——包括关系数据库固定模式、文档存储灵活模式、函数签名、API规范等。大型语言模型(LLM)若被提示所有模式规范和处理输入的指令,可以执行此任务。此外,当前大多数LLM都包含专用的JSON模式或结构化输出模式,为用户抽象了部分提示工程。

然而这种方法存在一些局限性:首先是扩展到包含数百万或数十亿记录的数据库时使用LLM的成本;其次是提示工程的潜在复杂性;第三是内置JSON和结构化输出模式所能支持的模式复杂性有限。

SoLM框架解决方案

在最近发表于自然语言处理实证方法会议(EMNLP)和ArXiv的两篇论文中,提出了一种原生解决方案—— specialized lightweight structured-object language model(SoLM)。与通用LLM不同,SoLM被训练为仅生成特定模式的对象。其核心创新包括:

  1. 自监督去噪训练方法:通过从现有数据库获取对象样本,引入人工噪声,并训练模型恢复原始形式
  2. 置信感知子结构束搜索(CABS)解码:在推理时使用,可减轻幻觉风险

性能表现

实验发现,SoLM的输出精度达到或超过了最先进的LLM,同时其成本效率提高了一个数量级。在产品属性生成问题上,当精度固定为90%时,CABS解码方法相比传统束搜索解码将召回率提高了16.7%。

应用场景

该研究将多个看似不相关的AI/ML问题统一在结构化输出框架下:

  1. 多面体对象生成:处理包含长描述文本和短类型约束结构化事实的多方面对象
  2. 自我再生机器:输入已结构化的对象,让模型端到端重新生成,实现清理、规范化、校正和/或补全

技术创新细节

自监督去噪训练

通过引入激进噪声(如完全移除对象结构或随机打乱标记),模型不仅学会增强现有对象质量,还能处理完全非结构化的输入。

CABS方法论

置信感知子结构束搜索在描述-值对级别应用束搜索,并使用单独训练的置信度网络来预测每个对的概率。关键值对(而非单个标记)成为束搜索的原子组件,通过中间层表示产生更准确的置信度评分。

实验结果

拥有70亿参数的SoLM模型在事实完整性、事实正确性以及描述内容质量和事实性等指标上,匹配或优于各种提示工程技术在更大基础模型上的表现。结合CABS解码,通过移除解码过程中幻觉产生的事实,进一步提高了事实的正确性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计