仅需3%训练数据的文本归一化技术

在文本转语音转换过程中，文本归一化（TN）通常是首要步骤。该技术将原始文本（如"6-21-21"）转换为语音合成模型可用的口语化形式（“twenty first of June twenty twenty one”）。

技术挑战与创新

传统TN算法依赖硬编码规则，存在跨语言通用性差和维护困难的问题。基于机器学习的TN模型虽然有所改进，但仍面临训练数据需求大、错误率高等挑战。

Proteno模型通过以下创新解决这些问题：

分词机制

分类系统

在英语、西班牙语和泰米尔语的测试中：

Proteno将TN处理为序列分类问题，训练流程包含四个步骤：

该模型显著降低了数据标注需求，为生产环境中的文本转语音系统提供了可扩展的解决方案。