Interspeech:语音识别与合成的交汇点
随着今年Interspeech会议的临近,“生成式AI”已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Interspeech的重要研究领域,在某种意义上一直是“生成式”的。但据某中心Alexa AI组织的高级首席科学家解释,TTS同样被新的生成式AI范式重塑。
早期神经TTS模型以“点对点”方式训练。例如在估计声谱图(一种时间-频率能量分布图像)时,模型仅能计算单个时间片段的能量内容与目标语音的距离差异。然而,文本转语音数据存在多种有效表达方式(如调整语速、重音或停顿位置),单一“正确答案”的假设存在缺陷。
生成式AI为点对点训练提供了替代方案。以大语言模型(LLM)为例,其通过计算词序列概率分布并进行采样生成内容。这种范式下,TTS模型不再追求单一正确答案,而是估计所有可能答案的正确概率。
值得注意的是,语音技术研究具有统一性。自动语音识别(ASR)与TTS虽互为逆过程,但面临相似挑战:例如处理训练数据中未充分覆盖的词汇时,ASR难以转录未听过词汇,TTS则难以正确发音未见过词汇。因此两者的解决方案可相互迁移。某中心研究人员已使用TTS生成的音频数据训练ASR模型,并持续推动文本转语音与语音转文本技术的深度融合。
技术要点总结:
- 生成式AI推动TTS从点对点训练转向概率分布建模
- 频谱量化通过声学标记化实现语音离散表示,借鉴LLM架构优势
- ASR与TTS共享端到端处理中的共性技术问题
- 跨领域技术迁移成为语音系统优化的重要路径