某中心在Interspeech 2023的论文速览
语音识别占据主导地位,但研究还涉及数据表示、对话管理、问答系统等多个领域。
自动语音识别
基于度量驱动的Conformer层剪枝方法,实现高效ASR推理
Dhanush Bekal, Karthik Gopalakrishnan等
Conmer:面向交互式语音助手的无自注意力流式Conformer
Martin Radfar, Paulina Lyskawa等
DCTX-Conformer:动态上下文传递用于低延迟统一流式与非流式Conformer
Goeric Huybrechts, Srikanth Ronanki等
判别式语音识别重评分的蒸馏策略
Prashanth Gurunath Shivakumar等
基于合成音频的注意力上下文偏置适配器训练,实现个性化ASR
Burin Naowarat等
人工转录质量改进
Jian Gao等
通过机器学习模型对齐和评分众包工人的多个转录假设
弱监督ASR中教师信任机制学习
Aakriti Agrawal等
神经转录器ASR模型中基于模型内部槽触发的偏置技术
Edie Lu等
多视图频率注意力替代CNN前端用于自动语音识别
Belen Alastruey Lasheras等
多语言上下文适配器改进低资源语言自定义词识别
Devang Kulshreshtha等
提出三阶段训练流程:多语言编码器训练、冻结编码器学习适配器、目标语言联合优化
PATCorrect:基于非自回归音素增强变换器的ASR纠错模型
Ziji Zhang等
基于BERT的判别式语音识别重评分的个性化方法
Jari Kolehmainen等
个性化预测ASR降低语音助手延迟
Andreas Schwarz等
ASR转录本中实体分布建模的记录去重方法
Tianyu Huang等
判别式语音识别重评分模型的扩展规律
Yi Gu等
基于字典树上下文适配器的选择性偏置技术
Philip Harding等
流式语音到混淆网络语音识别
Denis Filimonov等
数据表示
持续自监督:通过残差适配器实现语音表示的口音适应
Anshu Bhatia等
对话管理
基于提示调参的参数高效低资源对话状态跟踪
Mingyu Derek Ma等
使用语言模型提示进行对话状态跟踪,为每个输入段分配固定长度嵌入
字素到音素转换
通过学习语音录音发音改进字素到音素转换
Sam Ribeiro等
关键词检测
基于知识蒸馏的端侧受限自监督语音表示学习
Gene-Ping Yang等
自然语言理解
自然语言理解变换器的量化感知与张量压缩训练
Zi Yang等
NLU模型中的采样偏差:影响与缓解
Zefei Li等
使用未指定抽象意义表示理解中断句子
Angus Addlesee等
副语言学
端到端语音情感识别的纯副语言学语音表示
George Ioannides等
保留效用的隐私保护语音嵌入用于情绪检测
Chandrashekhar Lavania等
问答系统
问题-上下文对齐与答案-上下文依赖关系
Minh Van Nguyen等
使用候选答案周围句子作为额外上下文,通过最优传输实现概率分布对齐
说话人日志
词汇说话人错误校正:利用语言模型进行说话人日志错误校正
Rohit Paturi等
语音翻译
联合任务端到端语音翻译的知识蒸馏
Khandokar Md. Nayem等
文本转语音
标准化流与扩散模型在TTS韵律和声学建模中的比较
Guangyang Zhang等
表达性机器配音的跨语言韵律迁移
Jakub Swiatkowski等
采用显式建模噪声的参考编码器架构
语音合成中基于扩散的口音建模
Kamil Deja等
CAT:端到端多说话人TTS与多对多细粒度韵律迁移模型
Ammar Abbas等
基于多语言上下文发音学习的文本转语音
Giulia Comini等