仅需3%训练数据的文本归一化技术

介绍Proteno文本归一化模型,该模型通过创新的分词和分类方法,仅需3%的训练数据即可达到与传统方法相当的性能,支持多语言文本转语音系统的快速部署。

仅需3%训练数据的文本归一化技术

在文本转语音转换过程中,文本归一化(TN)通常是首要步骤。该技术将原始文本(如"6-21-21")转换为语音合成模型可用的口语化形式(“twenty first of June twenty twenty one”)。

技术挑战与创新

传统TN算法依赖硬编码规则,存在跨语言通用性差和维护困难的问题。基于机器学习的TN模型虽然有所改进,但仍面临训练数据需求大、错误率高等挑战。

Proteno模型通过以下创新解决这些问题:

分词机制

  • 采用语言无关的粒度分词方法
  • 在空格和Unicode类别转换处进行分割
  • 无需语言学家制定特定规则

分类系统

  • 预定义少量基础归一化类别(8-10个)
  • 自动生成大量细粒度类别(英语生成2658个)
  • 防止出现不可接受错误(如"$5"转换为"five pounds")

多语言性能表现

在英语、西班牙语和泰米尔语的测试中:

  • 英语:97.4%准确率,仅需3%训练数据
  • 西班牙语:99.1%准确率
  • 泰米尔语:96.7%准确率

技术实现细节

Proteno将TN处理为序列分类问题,训练流程包含四个步骤:

  1. 分词处理:基于Unicode类别的语言无关分词
  2. 标注处理:建立未归一化标记与真实归一化的映射
  3. 类别生成:结合预定义类别和自动生成类别
  4. 分类建模:使用CRF、bi-LSTM、Transformer等分类器

该模型显著降低了数据标注需求,为生产环境中的文本转语音系统提供了可扩展的解决方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计