约束生成框架(CGF)
在EMNLP 2022发表的论文中,提出了一种替代传统数据挖掘的生成式查询改写方案。核心组件包括:
- 编码器-解码器架构:编码器处理包含语音识别(ASR)错误的用户查询,解码器通过受限生成输出有效改写文本
- 字典树约束:采用全局/个性化字典树(trie)限制输出空间,仅允许生成已被验证成功的语句组合
- 双模型协同:当个性化模型与全局模型均产生候选时,优先采用个性化结果
实验数据显示,该方法使线上服务的用户感知缺陷率(CPDR)降低28.97%,精确度较基线提升14-21%。
基于模型解释的数据选择
针对自然语言理解(NLU)模型的持续优化,提出两阶段数据筛选策略:
- 初级过滤:剔除低ASR置信度样本,保留成功交互的第二轮请求
- 积分梯度分析:通过计算单词级影响分数,识别对错误分类贡献最大的词汇模式
仅使用0.05%的增量训练数据即实现:
- 整体语义错误率(SEMER)降低0.27%
- 长尾流量错误率降低0.45%
- 线上信息类意图识别缺陷率最高下降1.64%
技术架构图示
- CGF工作流:上下文输入→编码器→字典树约束解码→候选排序
- 数据选择流程:原始交互→ASR过滤→积分梯度评分→Top-K样本选择
该方法已部署至生产环境,为对话系统的无监督持续学习提供了可扩展的技术路径。