音频事件分类
FedRPO:基于联邦松弛帕累托优化的音频事件分类
Meng Feng, Chieh-Chi Kao等人提出联邦学习框架,通过松弛帕累托优化解决设备间数据分布差异问题。
多尺度音频频谱变换器
Wentao Zhu等人设计高效音频分类架构,利用多尺度频谱特征提升分类精度。
基于Transformer的生物音频事件检测
Liwen You团队针对少样本学习任务,采用Transformer架构实现生物声音事件检测。
权重共享超网络搜索架构
Guan-Ting Lin等人开发跨设备约束的专用音频事件分类网络搜索方案。
自动语音识别(ASR)
跨语句图神经网络重评分
Srinath Tankasala团队通过图标签传播技术提升多语句语音识别准确率。
动态分块卷积统一架构
Xilai Li等人提出适用于流式与非流式场景的Conformer ASR模型。
外部目录域适应技术
David M. Chan利用离线策略声学目录实现可扩展的上下文端到端ASR。
门控上下文适配器
Anastasios Alexandridis设计选择性上下文偏置机制,提升神经转录器性能。
代码生成
对话式文本到SQL转换系统
Sree Hari Krishnan Parthasarathi团队提出三阶段架构:离散提示多任务处理、约束解码、查询计划重排序。
常识推理
CLICKER:基于注意力的跨语言常识知识迁移
Ruolin Su等人通过注意力机制实现跨语言常识知识转移。
持续学习
联邦持续学习中的灾难性遗忘量化
Christophe Dupuy团队提出量化指标评估联邦持续学习中的知识遗忘问题。
端点检测
基于深度上下文多臂赌博机的自适应端点检测
Do June Min团队将强化学习应用于语音端点检测优化。
关键词唤醒
双注意力神经转录器
Saumya Sahai等人设计高效唤醒词检测架构,在语音识别中实现实时响应。
自监督学习
联邦弱监督自学习框架
Milind Rao团队结合联邦学习与弱监督技术提升语音识别鲁棒性。
信号处理
统一实时个性化语音增强框架
Zhepei Wang等人提出同时支持个性化与非个性化处理的实时语音增强方案。
多语言理解
端到端多语言口语理解系统
Markus Mueller团队针对超低功耗设备设计多语言SLU解决方案。
文本到语音
帧级WaveGAN时域对抗声码器
Ahmed Mustafa等人开发低计算复杂度的实时对抗声码器架构。