本文汇总了某机构在ICASSP 2023会议上发表的40余篇论文,涵盖自动语音识别、声学事件分类、代码生成、常识推理等前沿技术,重点介绍了个性化语音识别、自学习算法和多语言理解等创新研究成果。
声学事件分类
- FedRPO: 基于联邦松弛帕累托优化的声学事件分类方法
- 多尺度音频频谱变换器实现高效音频分类
- 基于Transformer的少样本生物声学事件检测
- 权重共享超网络实现设备约束下的专用声学事件分类网络搜索
自动语音识别
- 基于图标签传播的跨语句ASR重评分技术
- 动态分块卷积实现流式与非流式Conformer ASR统一架构
- 利用外部策略声学目录进行领域自适应
- 门控上下文适配器实现神经转换器中的选择性上下文偏置
- 通过内部语言模型估计提升CTC-based ASR的领域自适应泛化能力
代码生成
- 对话式文本转SQL技术现状与挑战分析
- 多任务离散提示学习
- 约束解码技术
- 基于查询计划模型的N-best列表重排序
常识推理
持续学习
端点检测
- 基于深度上下文多臂赌博机的自适应端点检测
- 精准实时语音结束点估计技术
关键词检测
- 双注意力神经转换器实现高效唤醒词检测
- 定点量化感知训练用于设备端关键词识别
- 轻量级Transformer的自监督语音表示学习
- 小规模可瘦身网络的关键词识别架构
语言学习
机器学习
- 重要性采样驱动的数据集蒸馏技术
- 点积注意力中偏置项的作用分析
自然语言理解
- 蒸馏-量化-调优框架实现边缘设备多语言NLU
- 金字塔动态推理通过早期退出提升推理速度
个性化语音识别
- 对话行为引导的上下文适配器
- 发音感知的上下文适配器PROCTER
- 基于槽触发的上下文偏置技术
查询重写
自学习
- 弱监督联邦自学习语音识别
- 通过错误检测、归因和重训练实现自我修复
信号处理
- 统一实时个性化与非个性化语音增强框架
- 基于生成建模的流形学习自适应滤波指导
- 自监督声学解纠缠预训练SPADE
口语理解
- 联合CTC损失与自监督声学编码器的端到端口语理解
- 端到端语音模型的子组性能探索
- 超低功耗多语言端到端口语理解
文本转语音
- 帧级WaveGAN实现低计算复杂度时域对抗声码器
- 无口音特定TTS前端的低资源口音建模
视频处理
- 基于Transformer的音频视频同步模态保持嵌入
语音通信