ICASSP会议40余篇论文技术亮点解析

本文系统梳理了某机构在ICASSP 2023会议上发表的40余篇技术论文,涵盖语音识别、音频分类、代码生成、常识推理等多个前沿领域,重点介绍了个性化语音识别、联邦学习等创新技术方案。

某机构ICASSP会议论文技术综述

在国际声学、语音与信号处理会议(ICASSP)上,某机构发表的论文一如既往地聚焦自动语音识别领域,其中特别强调个性化语音识别技术。声学事件检测、关键词识别和信号处理等主题同样得到充分体现。与此同时,部分论文还涉足更广泛的领域,包括常识推理、自学习、查询重写和通用机器学习技术。

音频事件分类

  • FedRPO:基于联邦松弛帕累托优化的音频事件分类系统
  • 多尺度音频频谱变换器:实现高效音频分类
  • 基于Transformer的生物声音事件检测:针对少样本学习任务
  • 权重共享超网络:跨设备约束搜索专用音频事件分类网络

自动语音识别

  • 跨语句ASR重评分:基于图的标签传播技术
  • 动态分块卷积:统一流式与非流式Conformer ASR架构
  • 域适应技术:利用外部策略声学目录实现可扩展上下文端到端语音识别
  • 门控上下文适配器:在神经转导器中实现选择性上下文偏置

代码生成

  • 对话式文本到SQL转换:探索最新技术进展与未来挑战 提出的文本到SQL系统包含三个核心组件:(a) 基于离散提示的相干任务多任务处理;(b) 约束解码;(c) 使用查询计划模型和模式链接算法的N最佳列表重排序

常识推理

  • CLICKER:基于注意力的跨语言常识知识迁移框架

持续学习

  • 量化持续联邦学习中的灾难性遗忘:提出评估指标与方法

端点检测

  • 基于深度上下文多臂赌博机的自适应端点检测
  • 精准实时语音结束估计:改进端点检测精度

关键词识别

  • 双注意力神经转导器:实现语音识别中高效唤醒词检测
  • 定点量化感知训练:面向设备端关键词识别系统的优化
  • 自监督语音表示学习:结合轻量级Transformer的关键词识别

语言学习

  • 语音RNN转导器:用于发音错误诊断的系统

机器学习

  • 剪枝后蒸馏:基于重要性采样的数据集蒸馏技术
  • 偏置项在点积注意力中的作用:机理分析与优化

自然语言理解

  • 蒸馏-量化-调优:利用大型教师模型实现边缘设备多语言NLU
  • 金字塔动态推理:通过早期退出机制加速推理过程

个性化语音识别

  • 对话行为引导的上下文适配器:实现个性化语音识别
  • PROCTER:神经转导器中发音感知的上下文适配器
  • 槽触发上下文偏置:基于神经转导器的个性化识别方案

查询重写

  • KG-ECO:基于知识图的查询重写实体校正系统

自学习

  • 联邦自学习:结合弱监督的语音识别训练框架
  • 自我修复机制:通过错误检测、归因和重新训练实现系统优化

信号处理

  • 统一实时个性化与非个性化语音增强框架
  • 增强鲁棒自监督学习:用于人类活动识别的新方法
  • 基于生成建模的流形学习:为自适应滤波提供指导
  • SPADE:声学解纠缠的自监督预训练技术

口语理解

  • 端到端口语理解:联合CTC损失与自监督预训练声学编码器
  • 端到端语音模型的子组性能探索:多维度性能分析
  • 超低资源多语言端到端口语理解:资源受限场景优化

文本到语音

  • 帧级WaveGAN:低计算复杂度时域对抗声码器
  • 低资源口音建模:无需特定口音TTS前端的技术方案

视频处理

  • ModEFormer:基于Transformer的音频-视频同步模态保持嵌入
  • 多尺度组合约束:视频表示学习的创新方法

语音通信

  • 低比特率冗余编码:使用率失真优化变分自编码器的语音编码技术
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计