ProsodyLM:揭示语音语言模型中新兴的韵律处理能力
语音语言模型是指具备语音处理和理解能力的语言模型。其中一个关键理想能力是捕捉内容与韵律之间复杂相互依赖关系的能力。现有训练语音语言模型的主流范式在将语音转换为离散标记后再输入大语言模型,这种方法在学习韵律信息方面存在不足——研究发现仅通过预训练,所得的大语言模型并未展现出明显的新兴韵律处理能力。
为克服这一局限,提出ProsodyLM方案,引入适用于学习韵律的简单分词方案。每个语音语句首先被转录为文本,随后生成词级韵律标记序列。与传统语音分词方案相比,该方案保留了更完整的韵律信息,且对基于文本的大语言模型更易理解。研究发现ProsodyLM仅通过预训练就能学习到惊人的多样化新兴韵律处理能力,包括利用生成语音中的韵律细微差别(如对比焦点)、理解语句中的情感和重音,以及保持长上下文中的韵律一致性。
主题分类:计算与语言(cs.CL);音频与语音处理(eess.AS)