语音识别与合成的技术融合前沿

本文探讨了语音技术领域的最新进展,重点分析频谱量化方法如何统一语音识别与合成架构,以及生成式AI对语音模型训练的革新影响,包括归一化流与扩散模型的应用突破。

Interspeech:语音识别与合成的融合前沿

随着本年度Interspeech会议的临近,“生成式AI”已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Interspeech的重要研究领域,在某种意义上一直是“生成式”的。但正如某机构Alexa AI组织的高级首席科学家所解释的,TTS同样被新的生成式AI范式重塑。

从点到点训练到生成式方法

早期神经TTS模型以“点到点”方式训练。例如在估计声谱图时,模型会计算特定时间片段的能量内容,并通过与目标语音的距离进行优化。然而,文本转语音数据存在多种有效表达方式(如调整语速、重音或停顿位置),单一“正确答案”的假设存在缺陷。

生成式AI提供了替代方案。大型语言模型(LLM)计算词序列的概率分布,生成时直接从分布中采样。这种范式下,模型不再追求单一正确答案,而是估计所有可能答案的正确概率。

生成式TTS的首个方法是归一化流(normalizing flows),通过可逆变换序列逼近先验分布。随后扩散模型通过逐步添加噪声并训练去噪能力,最终实现从随机输入生成数据。

频谱量化的突破性进展

最新技术频谱量化(spectrum quantization)引发了TTS研究界的兴奋。该方法通过声学标记器将声谱图片段转换为整数,将连续的图像处理问题转化为单元预测问题。模型不再关心整数来源,仅关注序列和高层结构。

这种架构与因果LLM高度相似:两者都基于标记序列进行预测。频谱量化使语音模型能以处理文本的方式处理语音,从而将LLM的代码、建模和洞察力迁移到语音建模中。

语音技术的统一视角

某机构研究不仅涵盖TTS,更涉及自动语音识别(ASR)和声学信号处理技术。从整体视角看,人类生成和理解语音的过程是统一的,理想机器也应如此。

具体而言,端到端语音识别与TTS面临相似挑战,例如处理训练数据中未充分表示的词汇。ASR系统难以转录未听过的新词,TTS系统也难以正确发音未遇见的词汇。尽管两者互为逆过程,其问题空间存在重叠,解决方案可相互迁移。

某机构已使用TTS生成的音频数据训练ASR模型,但这仅是冰山一角。更重要的使命是推动文本转语音与语音转文本技术的深度融合。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计