Interspeech 2023语音技术研究精选

本文介绍了某中心在Interspeech 2023会议上发表的语音技术研究成果,涵盖自动语音识别、数据表示、对话管理、问答系统等多个领域,包括Conformer模型优化、多语言适配器、个性化语音识别等创新技术。

某中心在Interspeech 2023的论文速览

语音识别占据主导地位,但研究还涉及数据表示、对话管理、问答系统等多个领域。

自动语音识别

基于度量驱动的Conformer层剪枝方法,实现高效ASR推理
Dhanush Bekal, Karthik Gopalakrishnan等

Conmer:面向交互式语音助手的无自注意力流式Conformer
Martin Radfar, Paulina Lyskawa等

DCTX-Conformer:动态上下文传递用于低延迟统一流式与非流式Conformer
Goeric Huybrechts, Srikanth Ronanki等

判别式语音识别重评分的蒸馏策略
Prashanth Gurunath Shivakumar等

基于合成音频的注意力上下文偏置适配器训练,实现个性化ASR
Burin Naowarat等

人工转录质量改进
Jian Gao等

通过机器学习模型对齐和评分众包工人的多个转录假设

弱监督ASR中教师信任机制学习
Aakriti Agrawal等

神经转录器ASR模型中基于模型内部槽触发的偏置技术
Edie Lu等

多视图频率注意力替代CNN前端用于自动语音识别
Belen Alastruey Lasheras等

多语言上下文适配器改进低资源语言自定义词识别
Devang Kulshreshtha等

提出三阶段训练流程:多语言编码器训练、冻结编码器学习适配器、目标语言联合优化

PATCorrect:基于非自回归音素增强变换器的ASR纠错模型
Ziji Zhang等

基于BERT的判别式语音识别重评分的个性化方法
Jari Kolehmainen等

个性化预测ASR降低语音助手延迟
Andreas Schwarz等

ASR转录本中实体分布建模的记录去重方法
Tianyu Huang等

判别式语音识别重评分模型的扩展规律
Yi Gu等

基于字典树上下文适配器的选择性偏置技术
Philip Harding等

流式语音到混淆网络语音识别
Denis Filimonov等

数据表示

持续自监督:通过残差适配器实现语音表示的口音适应
Anshu Bhatia等

对话管理

基于提示调参的参数高效低资源对话状态跟踪
Mingyu Derek Ma等

使用语言模型提示进行对话状态跟踪,为每个输入段分配固定长度嵌入

字素到音素转换

通过学习语音录音发音改进字素到音素转换
Sam Ribeiro等

关键词检测

基于知识蒸馏的端侧受限自监督语音表示学习
Gene-Ping Yang等

自然语言理解

自然语言理解变换器的量化感知与张量压缩训练
Zi Yang等

NLU模型中的采样偏差:影响与缓解
Zefei Li等

使用未指定抽象意义表示理解中断句子
Angus Addlesee等

副语言学

端到端语音情感识别的纯副语言学语音表示
George Ioannides等

保留效用的隐私保护语音嵌入用于情绪检测
Chandrashekhar Lavania等

问答系统

问题-上下文对齐与答案-上下文依赖关系
Minh Van Nguyen等

使用候选答案周围句子作为额外上下文,通过最优传输实现概率分布对齐

说话人日志

词汇说话人错误校正:利用语言模型进行说话人日志错误校正
Rohit Paturi等

语音翻译

联合任务端到端语音翻译的知识蒸馏
Khandokar Md. Nayem等

文本转语音

标准化流与扩散模型在TTS韵律和声学建模中的比较
Guangyang Zhang等

表达性机器配音的跨语言韵律迁移
Jakub Swiatkowski等

采用显式建模噪声的参考编码器架构

语音合成中基于扩散的口音建模
Kamil Deja等

CAT:端到端多说话人TTS与多对多细粒度韵律迁移模型
Ammar Abbas等

基于多语言上下文发音学习的文本转语音
Giulia Comini等

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计