从结构化数据自动生成文本
数据到文本生成技术可将表格等结构化信息转换为自然语言,使设备能够显示天气预报或语音助手回答问题。基于数十亿句子训练的语言模型可学习常见语言模式,通过预测词序列生成自然语句,但数据到文本生成不仅要求流畅性,更需确保内容准确性。
传统方法采用机器学习模型流水线,但存在开发耗时且误差累积的问题。某中心AI团队开发的端到端神经网络系统DataTuner支持多数据类型和主题,能生成流畅准确的文本,相关代码已在GitHub以非商业许可开源。
语义保真度与流畅性平衡
以米歇尔·奥巴马的知识图谱数据为例:
- 高保真低流畅文本:“米歇尔·奥巴马是《成为》的作者。她出生于伊利诺伊州芝加哥市。曾就读于普林斯顿大学和哈佛大学。”
- 高流畅低保真文本:“出生于芝加哥并毕业于哈佛的米歇尔·奥巴马是《应许之地》的作者”(存在信息错漏)
DataTuner技术架构
1. 生成阶段
- 基于GPT-2预训练模型,使用
<data>
和<text>
特殊标记区分数据与文本 - 融合三种嵌入表示:
- 词嵌入(语义信息编码)
- 位置嵌入(词序关系)
- 细粒度状态嵌入(通过
<subject>
/<predicate>
/<object>
等特殊标记表示数据结构关系)
2. 重排序阶段
- 训练语义保真度分类器(基于RoBERTa模型)
- 采用规则化数据污染方法生成训练样本:
- 正样本:原始[数据,文本]对
- 负样本:通过实体替换等方式构造错误样本
- 通过分类器对生成文本进行准确性重排序
实验验证
在新闻文本、餐厅评论和游戏聊天等四类数据集测试中:
- BLEU评分提升1.2-5.9分
- 人工评估显示生成文本自然度超过人类写作样本
- 语义准确率提升5.3%-40%
- 错误检测准确率较传统方法提高4.2%-14.2%
技术优势
- 端到端训练避免流水线误差累积
- 细粒度状态嵌入提升数据结构理解
- 语义分类器确保内容准确性
- 支持多领域数据适配
该系统为结构化数据到自然语言转换提供了新的技术范式,在智能助手、自动报告生成等领域具有广泛应用前景。