ICASSP会议40余篇论文技术亮点解析

本文系统梳理了某机构在ICASSP 2023会议上发表的40余篇技术论文，涵盖语音识别、音频分类、代码生成、常识推理等多个前沿领域，重点介绍了个性化语音识别、联邦学习等创新技术方案。

某机构ICASSP会议论文技术综述

在国际声学、语音与信号处理会议（ICASSP）上，某机构发表的论文一如既往地聚焦自动语音识别领域，其中特别强调个性化语音识别技术。声学事件检测、关键词识别和信号处理等主题同样得到充分体现。与此同时，部分论文还涉足更广泛的领域，包括常识推理、自学习、查询重写和通用机器学习技术。

音频事件分类

FedRPO：基于联邦松弛帕累托优化的音频事件分类系统
多尺度音频频谱变换器：实现高效音频分类
基于Transformer的生物声音事件检测：针对少样本学习任务
权重共享超网络：跨设备约束搜索专用音频事件分类网络

自动语音识别

跨语句ASR重评分：基于图的标签传播技术
动态分块卷积：统一流式与非流式Conformer ASR架构
域适应技术：利用外部策略声学目录实现可扩展上下文端到端语音识别
门控上下文适配器：在神经转导器中实现选择性上下文偏置

代码生成

对话式文本到SQL转换：探索最新技术进展与未来挑战提出的文本到SQL系统包含三个核心组件：(a) 基于离散提示的相干任务多任务处理；(b) 约束解码；(c) 使用查询计划模型和模式链接算法的N最佳列表重排序

常识推理

CLICKER：基于注意力的跨语言常识知识迁移框架

持续学习

量化持续联邦学习中的灾难性遗忘：提出评估指标与方法

端点检测

基于深度上下文多臂赌博机的自适应端点检测
精准实时语音结束估计：改进端点检测精度

关键词识别

双注意力神经转导器：实现语音识别中高效唤醒词检测
定点量化感知训练：面向设备端关键词识别系统的优化
自监督语音表示学习：结合轻量级Transformer的关键词识别

语言学习

语音RNN转导器：用于发音错误诊断的系统

机器学习

剪枝后蒸馏：基于重要性采样的数据集蒸馏技术
偏置项在点积注意力中的作用：机理分析与优化

自然语言理解

蒸馏-量化-调优：利用大型教师模型实现边缘设备多语言NLU
金字塔动态推理：通过早期退出机制加速推理过程

个性化语音识别

对话行为引导的上下文适配器：实现个性化语音识别
PROCTER：神经转导器中发音感知的上下文适配器
槽触发上下文偏置：基于神经转导器的个性化识别方案

查询重写

KG-ECO：基于知识图的查询重写实体校正系统

自学习

联邦自学习：结合弱监督的语音识别训练框架
自我修复机制：通过错误检测、归因和重新训练实现系统优化

信号处理

统一实时个性化与非个性化语音增强框架
增强鲁棒自监督学习：用于人类活动识别的新方法
基于生成建模的流形学习：为自适应滤波提供指导
SPADE：声学解纠缠的自监督预训练技术

口语理解

端到端口语理解：联合CTC损失与自监督预训练声学编码器
端到端语音模型的子组性能探索：多维度性能分析
超低资源多语言端到端口语理解：资源受限场景优化

文本到语音

帧级WaveGAN：低计算复杂度时域对抗声码器
低资源口音建模：无需特定口音TTS前端的技术方案

视频处理

ModEFormer：基于Transformer的音频-视频同步模态保持嵌入
多尺度组合约束：视频表示学习的创新方法

语音通信

低比特率冗余编码：使用率失真优化变分自编码器的语音编码技术

comments powered by Disqus