仅需3%训练数据的文本归一化技术
在文本转语音转换过程中,文本归一化(TN)通常是首要步骤。该技术将原始文本(如"6-21-21")转换为语音合成模型可用的口语化形式(“twenty first of June twenty twenty one”)。
技术挑战与创新
传统TN算法依赖硬编码规则,存在跨语言通用性差和维护困难的问题。基于机器学习的TN模型虽然有所改进,但仍面临训练数据需求大、错误率高等挑战。
Proteno模型通过以下创新解决这些问题:
分词机制
- 采用语言无关的粒度分词方法
- 在空格和Unicode类别转换处进行分割
- 无需语言学家制定特定规则
分类系统
- 预定义少量基础归一化类别(8-10个)
- 自动生成大量细粒度类别(英语生成2658个)
- 防止出现不可接受错误(如"$5"转换为"five pounds")
多语言性能表现
在英语、西班牙语和泰米尔语的测试中:
- 英语:97.4%准确率,仅需3%训练数据
- 西班牙语:99.1%准确率
- 泰米尔语:96.7%准确率
技术实现细节
Proteno将TN处理为序列分类问题,训练流程包含四个步骤:
- 分词处理:基于Unicode类别的语言无关分词
- 标注处理:建立未归一化标记与真实归一化的映射
- 类别生成:结合预定义类别和自动生成类别
- 分类建模:使用CRF、bi-LSTM、Transformer等分类器
该模型显著降低了数据标注需求,为生产环境中的文本转语音系统提供了可扩展的解决方案。