语音-文本交错语言模型的扩展分析
现有语音语言模型(SLM)的扩展分析描绘了一幅黯淡的图景。它预测SLM需要比文本模型更多的计算和数据,这使一些人质疑训练高质量SLM的可行性。然而,现代SLM通常使用语音-文本交错从预训练的文本语言模型(TextLM)初始化,以实现知识迁移。这就提出了一个问题——“交错SLM是否比无文本SLM扩展更高效?”在本文中,我们给出了肯定的回答!
我们通过训练数十个模型并分析扩展趋势,进行了交错SLM的扩展分析。我们发现,在这种设置下,SLM在计算上扩展更高效。此外,我们的结果表明,扩展动态与无文本SLM显著不同,表明应将更多计算预算分配给增加模型规模而非训练标记量。我们还研究了合成数据和TextLM模型家族在释放这种潜力中的作用。结果表明,我们扩展的模型在使用更少计算和数据的情况下,实现了与领先模型相当的语义语音性能。我们开源了模型、样本和数据——此https URL。
评论:
已接受于COLM 2025
主题:
计算与语言(cs.CL);声音(cs.SD);音频与语音处理(eess.AS)
引用为:
arXiv:2504.02398 [cs.CL]
(或此版本的 arXiv:2504.02398v2 [cs.CL])
提交历史:
- 版本1:2025年4月3日 08:46:56 UTC(126 KB)
- 版本2:2025年7月27日 17:33:45 UTC(124 KB)
全文链接:
- 查看论文PDF
- HTML(实验性)
- TeX源码
- 其他格式
浏览上下文: cs.CL
相关工具:
- Bibliographic Explorer
- Connected Papers
- Litmaps
- scite.ai Smart Citations
代码、数据、媒体:
- alphaXiv
- CatalyzeX Code Finder
- DagsHub
- GotitPub
- Hugging Face
- Papers with Code
- ScienceCast
演示:
- Replicate
- Hugging Face Spaces
- TXYZ.AI
相关论文推荐:
- Influence Flower
- CORE Recommender
关于:
- arXivLabs:与社区合作者共同开发实验项目
- 联系arXiv
- 订阅arXiv邮件
- 版权与隐私政策
- 网站无障碍协助
- arXiv运营状态通知