某中心在Interspeech 2023的论文速览

语音识别占据主导地位，但研究还涉及数据表示、对话管理、问答系统等多个领域。

自动语音识别

基于度量驱动的Conformer层剪枝方法，实现高效ASR推理
Dhanush Bekal, Karthik Gopalakrishnan等

Conmer：面向交互式语音助手的无自注意力流式Conformer
Martin Radfar, Paulina Lyskawa等

DCTX-Conformer：动态上下文传递用于低延迟统一流式与非流式Conformer
Goeric Huybrechts, Srikanth Ronanki等

判别式语音识别重评分的蒸馏策略
Prashanth Gurunath Shivakumar等

基于合成音频的注意力上下文偏置适配器训练，实现个性化ASR
Burin Naowarat等

人工转录质量改进
Jian Gao等

通过机器学习模型对齐和评分众包工人的多个转录假设

弱监督ASR中教师信任机制学习
Aakriti Agrawal等

神经转录器ASR模型中基于模型内部槽触发的偏置技术
Edie Lu等

多视图频率注意力替代CNN前端用于自动语音识别
Belen Alastruey Lasheras等

多语言上下文适配器改进低资源语言自定义词识别
Devang Kulshreshtha等

提出三阶段训练流程：多语言编码器训练、冻结编码器学习适配器、目标语言联合优化

PATCorrect：基于非自回归音素增强变换器的ASR纠错模型
Ziji Zhang等

基于BERT的判别式语音识别重评分的个性化方法
Jari Kolehmainen等

个性化预测ASR降低语音助手延迟
Andreas Schwarz等

ASR转录本中实体分布建模的记录去重方法
Tianyu Huang等

判别式语音识别重评分模型的扩展规律
Yi Gu等

基于字典树上下文适配器的选择性偏置技术
Philip Harding等

流式语音到混淆网络语音识别
Denis Filimonov等

数据表示

持续自监督：通过残差适配器实现语音表示的口音适应
Anshu Bhatia等

对话管理

基于提示调参的参数高效低资源对话状态跟踪
Mingyu Derek Ma等

使用语言模型提示进行对话状态跟踪，为每个输入段分配固定长度嵌入

字素到音素转换

通过学习语音录音发音改进字素到音素转换
Sam Ribeiro等

关键词检测

基于知识蒸馏的端侧受限自监督语音表示学习
Gene-Ping Yang等

自然语言理解

自然语言理解变换器的量化感知与张量压缩训练
Zi Yang等

NLU模型中的采样偏差：影响与缓解
Zefei Li等

使用未指定抽象意义表示理解中断句子
Angus Addlesee等

副语言学

端到端语音情感识别的纯副语言学语音表示
George Ioannides等

保留效用的隐私保护语音嵌入用于情绪检测
Chandrashekhar Lavania等

问答系统

问题-上下文对齐与答案-上下文依赖关系
Minh Van Nguyen等

使用候选答案周围句子作为额外上下文，通过最优传输实现概率分布对齐

说话人日志

词汇说话人错误校正：利用语言模型进行说话人日志错误校正
Rohit Paturi等

语音翻译

联合任务端到端语音翻译的知识蒸馏
Khandokar Md. Nayem等

文本转语音

标准化流与扩散模型在TTS韵律和声学建模中的比较
Guangyang Zhang等

表达性机器配音的跨语言韵律迁移
Jakub Swiatkowski等

采用显式建模噪声的参考编码器架构

语音合成中基于扩散的口音建模
Kamil Deja等

CAT：端到端多说话人TTS与多对多细粒度韵律迁移模型
Ammar Abbas等

基于多语言上下文发音学习的文本转语音
Giulia Comini等

Interspeech 2023语音技术研究精选

本文介绍了某中心在Interspeech 2023会议上发表的语音技术研究成果，涵盖自动语音识别、数据表示、对话管理、问答系统等多个领域，包括Conformer模型优化、多语言适配器、个性化语音识别等创新技术。