语音-文本交错语言模型的扩展分析

本文通过训练数十个模型分析交错语音-文本语言模型的扩展趋势,发现相比纯语音模型,该架构在计算效率上表现更优,且扩展动态显著不同,建议将更多计算预算分配给模型规模而非训练数据量。研究还探讨了合成数据和文本模型家族在释放潜力中的作用。

语音-文本交错语言模型的扩展分析

现有语音语言模型(SLM)的扩展分析描绘了一幅黯淡的图景。它预测SLM需要比文本模型更多的计算和数据,这使一些人质疑训练高质量SLM的可行性。然而,现代SLM通常使用语音-文本交错从预训练的文本语言模型(TextLM)初始化,以实现知识迁移。这就提出了一个问题——“交错SLM是否比无文本SLM扩展更高效?”在本文中,我们给出了肯定的回答!

我们通过训练数十个模型并分析扩展趋势,进行了交错SLM的扩展分析。我们发现,在这种设置下,SLM在计算上扩展更高效。此外,我们的结果表明,扩展动态与无文本SLM显著不同,表明应将更多计算预算分配给增加模型规模而非训练标记量。我们还研究了合成数据和TextLM模型家族在释放这种潜力中的作用。结果表明,我们扩展的模型在使用更少计算和数据的情况下,实现了与领先模型相当的语义语音性能。我们开源了模型、样本和数据——此https URL。

评论:
已接受于COLM 2025

主题:
计算与语言(cs.CL);声音(cs.SD);音频与语音处理(eess.AS)

引用为:
arXiv:2504.02398 [cs.CL]
(或此版本的 arXiv:2504.02398v2 [cs.CL])

提交历史:

  • 版本1:2025年4月3日 08:46:56 UTC(126 KB)
  • 版本2:2025年7月27日 17:33:45 UTC(124 KB)

全文链接:

  • 查看论文PDF
  • HTML(实验性)
  • TeX源码
  • 其他格式

浏览上下文: cs.CL

相关工具:

  • Bibliographic Explorer
  • Connected Papers
  • Litmaps
  • scite.ai Smart Citations

代码、数据、媒体:

  • alphaXiv
  • CatalyzeX Code Finder
  • DagsHub
  • GotitPub
  • Hugging Face
  • Papers with Code
  • ScienceCast

演示:

  • Replicate
  • Hugging Face Spaces
  • TXYZ.AI

相关论文推荐:

  • Influence Flower
  • CORE Recommender

关于:

  • arXivLabs:与社区合作者共同开发实验项目
  • 联系arXiv
  • 订阅arXiv邮件
  • 版权与隐私政策
  • 网站无障碍协助
  • arXiv运营状态通知
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计