某机构ICASSP会议论文技术综述
在国际声学、语音与信号处理会议(ICASSP)上,某机构发表的论文一如既往地聚焦自动语音识别领域,其中特别强调个性化语音识别技术。声学事件检测、关键词识别和信号处理等主题同样得到充分体现。与此同时,部分论文还涉足更广泛的领域,包括常识推理、自学习、查询重写和通用机器学习技术。
音频事件分类
- FedRPO:基于联邦松弛帕累托优化的音频事件分类系统
- 多尺度音频频谱变换器:实现高效音频分类
- 基于Transformer的生物声音事件检测:针对少样本学习任务
- 权重共享超网络:跨设备约束搜索专用音频事件分类网络
自动语音识别
- 跨语句ASR重评分:基于图的标签传播技术
- 动态分块卷积:统一流式与非流式Conformer ASR架构
- 域适应技术:利用外部策略声学目录实现可扩展上下文端到端语音识别
- 门控上下文适配器:在神经转导器中实现选择性上下文偏置
代码生成
- 对话式文本到SQL转换:探索最新技术进展与未来挑战 提出的文本到SQL系统包含三个核心组件:(a) 基于离散提示的相干任务多任务处理;(b) 约束解码;(c) 使用查询计划模型和模式链接算法的N最佳列表重排序
常识推理
- CLICKER:基于注意力的跨语言常识知识迁移框架
持续学习
- 量化持续联邦学习中的灾难性遗忘:提出评估指标与方法
端点检测
- 基于深度上下文多臂赌博机的自适应端点检测
- 精准实时语音结束估计:改进端点检测精度
关键词识别
- 双注意力神经转导器:实现语音识别中高效唤醒词检测
- 定点量化感知训练:面向设备端关键词识别系统的优化
- 自监督语音表示学习:结合轻量级Transformer的关键词识别
语言学习
- 语音RNN转导器:用于发音错误诊断的系统
机器学习
- 剪枝后蒸馏:基于重要性采样的数据集蒸馏技术
- 偏置项在点积注意力中的作用:机理分析与优化
自然语言理解
- 蒸馏-量化-调优:利用大型教师模型实现边缘设备多语言NLU
- 金字塔动态推理:通过早期退出机制加速推理过程
个性化语音识别
- 对话行为引导的上下文适配器:实现个性化语音识别
- PROCTER:神经转导器中发音感知的上下文适配器
- 槽触发上下文偏置:基于神经转导器的个性化识别方案
查询重写
- KG-ECO:基于知识图的查询重写实体校正系统
自学习
- 联邦自学习:结合弱监督的语音识别训练框架
- 自我修复机制:通过错误检测、归因和重新训练实现系统优化
信号处理
- 统一实时个性化与非个性化语音增强框架
- 增强鲁棒自监督学习:用于人类活动识别的新方法
- 基于生成建模的流形学习:为自适应滤波提供指导
- SPADE:声学解纠缠的自监督预训练技术
口语理解
- 端到端口语理解:联合CTC损失与自监督预训练声学编码器
- 端到端语音模型的子组性能探索:多维度性能分析
- 超低资源多语言端到端口语理解:资源受限场景优化
文本到语音
- 帧级WaveGAN:低计算复杂度时域对抗声码器
- 低资源口音建模:无需特定口音TTS前端的技术方案
视频处理
- ModEFormer:基于Transformer的音频-视频同步模态保持嵌入
- 多尺度组合约束:视频表示学习的创新方法
语音通信
- 低比特率冗余编码:使用率失真优化变分自编码器的语音编码技术