机器翻译正式度控制的意义
传统机器翻译模型通常为每个输入生成单一译文,无法适应不同使用场景和目标受众的需求。这种无条件翻译可能导致译文正式度不当,在客服对话等场景中显得冒犯或突兀。
两阶段微调技术方案
- 基础模型训练:基于mBART多语言模型,在大规模平行语料库上进行通用神经机器翻译(NMT)模型微调
- 正式度微调:在标注正式度标签(
/ )的数据上进一步微调,推理时通过添加标签控制输出正式度
数据稀疏性解决方案
面对仅数百条标注数据的挑战,研发团队:
- 利用语言线索自动标注目标语言(日语/印地语)文本的正式度标签
- 基于种子数据训练mBERT作为多语言文本正式度分类器
- 使用该分类器从海量平行语料中挖掘额外标注数据
后编辑技术突破
- T-V代词转换:调整传达正式度的代词使用
- 动词变位处理:例如日语中添加"-ます"后缀提升礼貌度
- 通用序列编辑:采用指针生成器网络,选择性修改文本元素
性能表现
- 英日翻译:数据增强使正式度准确率提升2.3个百分点
- 后编辑技术使日语正式译文准确率从93.9%提升至95.5%,非正式译文达100%
- 印地语翻译实现100%正式准确率,非正式准确率从84.4%提升至97.8%