ICASSP会议40余篇语音技术论文速览

ICASSP会议40余篇语音技术论文速览

本文汇总了某机构在ICASSP 2023会议上发表的40余篇论文，涵盖自动语音识别、声学事件分类、代码生成、常识推理等前沿技术，重点介绍了个性化语音识别、自学习算法和多语言理解等创新研究成果。

声学事件分类

FedRPO: 基于联邦松弛帕累托优化的声学事件分类方法
多尺度音频频谱变换器实现高效音频分类
基于Transformer的少样本生物声学事件检测
权重共享超网络实现设备约束下的专用声学事件分类网络搜索

自动语音识别

基于图标签传播的跨语句ASR重评分技术
动态分块卷积实现流式与非流式Conformer ASR统一架构
利用外部策略声学目录进行领域自适应
门控上下文适配器实现神经转换器中的选择性上下文偏置
通过内部语言模型估计提升CTC-based ASR的领域自适应泛化能力

代码生成

对话式文本转SQL技术现状与挑战分析
- 多任务离散提示学习
- 约束解码技术
- 基于查询计划模型的N-best列表重排序

常识推理

基于注意力的跨语言常识知识迁移框架CLICKER

持续学习

联邦持续学习中的灾难性遗忘量化研究

端点检测

基于深度上下文多臂赌博机的自适应端点检测
精准实时语音结束点估计技术

关键词检测

双注意力神经转换器实现高效唤醒词检测
定点量化感知训练用于设备端关键词识别
轻量级Transformer的自监督语音表示学习
小规模可瘦身网络的关键词识别架构

语言学习

基于RNN转换器的发音错误诊断系统

机器学习

重要性采样驱动的数据集蒸馏技术
点积注意力中偏置项的作用分析

自然语言理解

蒸馏-量化-调优框架实现边缘设备多语言NLU
金字塔动态推理通过早期退出提升推理速度

个性化语音识别

对话行为引导的上下文适配器
发音感知的上下文适配器PROCTER
基于槽触发的上下文偏置技术

查询重写

知识图谱增强的实体校正框架KG-ECO

自学习

弱监督联邦自学习语音识别
通过错误检测、归因和重训练实现自我修复

信号处理

统一实时个性化与非个性化语音增强框架
基于生成建模的流形学习自适应滤波指导
自监督声学解纠缠预训练SPADE

口语理解

联合CTC损失与自监督声学编码器的端到端口语理解
端到端语音模型的子组性能探索
超低功耗多语言端到端口语理解

文本转语音

帧级WaveGAN实现低计算复杂度时域对抗声码器
无口音特定TTS前端的低资源口音建模

视频处理

基于Transformer的音频视频同步模态保持嵌入

语音通信

率失真优化变分自编码器的低比特率语音冗余编码

comments powered by Disqus