多麦克风多模态混响环境情感识别技术

本文提出一种多模态情感识别系统,通过改进的分层令牌语义音频变换器和三维卷积神经网络,在混响环境中实现音频与视频模态的融合,显著提升情感识别准确率。系统在合成与真实房间脉冲响应数据集上验证有效,多麦克风多模态方法优于单麦克风方案。

多麦克风与多模态混响环境情感识别

本文提出了一种多模态情感识别(MER)系统,旨在提升在复杂声学条件下的情感识别准确率。该方法结合了改进扩展的分层令牌语义音频变换器(HTS-AT)用于多通道音频处理,以及R(2+1)D卷积神经网络(CNN)模型用于视频分析。

在混响版本的Ryerson情感语音与歌曲音视频数据库(RAVDESS)上,使用合成和真实房间脉冲响应(RIRs)进行了评估。结果表明,融合音频和视频模态的方法相比单模态方法表现更优,尤其在挑战性声学条件下。此外,采用多麦克风的多模态(音视频)方法优于单麦克风方案。

关键特性

  • 改进的HTS-AT模型处理多通道音频
  • R(2+1)D CNN进行视频分析
  • 在混响环境中验证多模态融合的有效性
  • 多麦克风配置提升系统性能

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计