文本到声音生成技术突破:SoundCTM模型详解

本文介绍了SoundCTM模型如何统一基于分数和一致性的方法,实现全频段文本到声音的高质量生成。该技术解决了现有模型速度慢、质量不足及语义不一致问题,支持快速一步生成和高保真多步采样,为创作者提供高效工具。

采访背景

今年早些时候,某中心的研究团队在图像生成方面取得了进展。随后,团队将工作扩展到声音生成领域,并在ICLR 2025上发表了题为《SoundCTM:统一基于分数和一致性模型的全频段文本到声音生成》的论文。

现有技术挑战

为视频游戏和电影等多媒体创作声音需要大量实验,艺术家需将声音与不断变化的创意想法匹配。基于扩散的新文本到声音(T2S)生成模型虽能辅助这一过程,但通常速度较慢,影响创作者快速实验。现有T2S蒸馏模型通过一步生成解决速度问题,但质量常不足以满足专业需求。此外,多步采样虽提升样本质量,但因结果不一致导致语义内容变化。

模型介绍与贡献

提出的Sound一致性轨迹模型(SoundCTM)支持高质量一步声音生成与通过多步确定性采样的卓越音质间灵活转换。SoundCTM将基于分数的扩散和一致性模型结合到单一架构中,支持快速一步采样和高保真多步音频生成,使创作者能快速尝试想法、匹配预期声音,并提升音质而不改变语义。

开发方法

SoundCTM直接基于先前计算机视觉CTM研究,重新构想扩散模型如何从数据随时间转换的轨迹中学习。通过将CTM扩展到音频领域,SoundCTM能够快速、清晰且可控地生成复杂全频段声音,同时避免其他模型的训练瓶颈。

开发过程中,针对CTM框架的局限性提出了新颖的蒸馏损失特征距离、蒸馏CFG轨迹策略以及结合文本条件和无条件学生跳跃的ν采样方法。

评估与结果

研究表明,SoundCTM-DiT-1B是首个实现显著一步和多步全频段文本到声音生成的大规模蒸馏模型。评估除使用标准客观指标(如Fréchet距离、Kullback-Leibler散度和全频段设置下的CLAP分数)外,还进行了主观听力测试。独特之处在于使用CLAP音频编码器特征空间中的样本级重建误差来比较一步和16步生成的输出。

该方法能够客观验证一步和多步生成间语义内容是否保持一致。结果显示,只有独特的多步确定性采样在与一步生成比较时保持了语义一致性。这一重要成果尚未有其他基于蒸馏的声音生成器实现。

虽然这一结果在理论上是预期的,但实证验证提供了有力支持——尤其在语义保真至关重要的内容创作背景下。

音频样本可在此处获取。

关于研究者

研究者是某中心的领先研究科学家,同时担任某机构的杰出工程师和某实验室的负责人。拥有东京大学信息科学与技术博士学位,在基础音乐和声音工作(如声音分离及其他可应用于音乐、声音和多模态的生成模型)方面具有开创性贡献。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计