ICASSP会议40余篇语音技术论文速览

本文汇总了某机构在ICASSP 2023会议上发表的40余篇论文,涵盖自动语音识别、声学事件分类、代码生成、常识推理等前沿技术,重点介绍了个性化语音识别、自学习算法和多语言理解等创新研究成果。

声学事件分类

  • FedRPO: 基于联邦松弛帕累托优化的声学事件分类方法
  • 多尺度音频频谱变换器实现高效音频分类
  • 基于Transformer的少样本生物声学事件检测
  • 权重共享超网络实现设备约束下的专用声学事件分类网络搜索

自动语音识别

  • 基于图标签传播的跨语句ASR重评分技术
  • 动态分块卷积实现流式与非流式Conformer ASR统一架构
  • 利用外部策略声学目录进行领域自适应
  • 门控上下文适配器实现神经转换器中的选择性上下文偏置
  • 通过内部语言模型估计提升CTC-based ASR的领域自适应泛化能力

代码生成

  • 对话式文本转SQL技术现状与挑战分析
    • 多任务离散提示学习
    • 约束解码技术
    • 基于查询计划模型的N-best列表重排序

常识推理

  • 基于注意力的跨语言常识知识迁移框架CLICKER

持续学习

  • 联邦持续学习中的灾难性遗忘量化研究

端点检测

  • 基于深度上下文多臂赌博机的自适应端点检测
  • 精准实时语音结束点估计技术

关键词检测

  • 双注意力神经转换器实现高效唤醒词检测
  • 定点量化感知训练用于设备端关键词识别
  • 轻量级Transformer的自监督语音表示学习
  • 小规模可瘦身网络的关键词识别架构

语言学习

  • 基于RNN转换器的发音错误诊断系统

机器学习

  • 重要性采样驱动的数据集蒸馏技术
  • 点积注意力中偏置项的作用分析

自然语言理解

  • 蒸馏-量化-调优框架实现边缘设备多语言NLU
  • 金字塔动态推理通过早期退出提升推理速度

个性化语音识别

  • 对话行为引导的上下文适配器
  • 发音感知的上下文适配器PROCTER
  • 基于槽触发的上下文偏置技术

查询重写

  • 知识图谱增强的实体校正框架KG-ECO

自学习

  • 弱监督联邦自学习语音识别
  • 通过错误检测、归因和重训练实现自我修复

信号处理

  • 统一实时个性化与非个性化语音增强框架
  • 基于生成建模的流形学习自适应滤波指导
  • 自监督声学解纠缠预训练SPADE

口语理解

  • 联合CTC损失与自监督声学编码器的端到端口语理解
  • 端到端语音模型的子组性能探索
  • 超低功耗多语言端到端口语理解

文本转语音

  • 帧级WaveGAN实现低计算复杂度时域对抗声码器
  • 无口音特定TTS前端的低资源口音建模

视频处理

  • 基于Transformer的音频视频同步模态保持嵌入

语音通信

  • 率失真优化变分自编码器的低比特率语音冗余编码
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计