某中心ICASSP论文涵盖全方位音频技术研究
在国际声学、语音与信号处理会议(ICASSP 2021)上,某中心展示了36篇研究论文,主题从经典的语音识别和降噪,到歌声分离和自动视频配音等广泛领域。
自动语音识别(ASR)核心技术创新
多数论文聚焦于自动语音识别核心技术,即将声音信号转换为文本:
- ASR n-best融合网络:提出多候选结果融合方法
- 双焦点神经ASR:通过关键词检测优化推理过程
- 领域感知神经语言模型:提升语音识别准确性
- 端到端多通道变换器:改进多通道语音识别性能
- RNN转录器抗干扰增强:提升对不流畅语音的鲁棒性
- 端到端系统个性化策略:使用词级偏置有限状态转换器
- reDAT技术:通过领域对抗训练实现口音不变表示
- 压缩感知稀疏化:优化自动语音识别效率
- 流式多说话人ASR:基于RNN-T实现实时处理
- 合成音频改进OOV识别:增强生僻词识别能力
多语言与副语言信息处理
两篇论文处理语言切换问题,这是ASR的更复杂版本,需要识别多种语言:
- 联合ASR与语言识别:使用RNN-T实现动态语言切换
- 变换器转录器:处理代码切换语音识别
声学信号包含超出词语本身的副语言信息,两篇论文专注于此类信号:
- 对比无监督学习:用于语音情感识别
- 多任务解耦:实现视听情感识别
语音处理扩展应用
多篇论文涉及ASR的扩展应用:
- 说话人日志:跟踪多个说话人的语音片段
- 逆文本规范化:将ASR输出转换为下游应用可用格式
- 声学事件分类:识别非人声的其他声音
深度学习语音增强
语音增强(去除噪声和回声)一直是ICASSP的重要主题,新研究采用深度学习方法:
- 编解码器内增强:基于矢量量化自编码器的噪声鲁棒语音编码
- 低复杂度实时联合处理:基于PercepNet的神经回声控制和语音增强
关键词检测与自然语言理解
每项与语音服务的交互都始于唤醒词检测(关键词检测):
- 合成音频训练:探索在关键词检测器训练中的应用
ASR后的下一步是自然语言理解(NLU):
- 深度强化学习:引入NLU排序任务
- 语言模型即所需:将自然语言理解视为问答任务
某些情况下可通过单一模型同时执行ASR和NLU,即口语理解:
- 序列损失训练:实现更准确的口语理解
- 图增强查询重写:改进口语理解系统
- 自上而下注意力机制:端到端口语理解中的创新
文本到语音合成
语音交互通常以合成语音回应结束:
- CAMP模型:上下文韵律建模的两阶段方法
- 低资源表达性TTS:使用数据增强技术
- 韵律表示学习:神经文本到语音的上下文采样
- 通用神经声码器:基于Parallel WaveNet实现
音视频同步与创新应用
三篇论文涉及音视频同步技术:
- 音视频同步错误检测:通过事件检测实现
- 自动配音韵律对齐改进:提升配音质量
- 机器翻译冗余控制:用于自动配音
计算机辅助发音训练研究:
- 非母语发音错误检测:采用不确定性建模
歌声分离技术:
- 半监督歌声分离:使用噪声自训练方法
通用机器学习方法
两篇论文提出可应用于多种问题的通用机器学习方法:
- 跨孤岛联邦学习:云端分布式训练与半监督学习
- 一致性学习增强:改进音频增强方法
这些研究不仅对语音服务有重要意义,也为音频信号处理的多个应用领域提供了技术创新和方法论突破。