多麦克风与多模态混响环境情感识别
本文提出了一种多模态情感识别(MER)系统,旨在提升在复杂声学条件下的情感识别准确率。该方法结合了改进扩展的分层令牌语义音频变换器(HTS-AT)用于多通道音频处理,以及R(2+1)D卷积神经网络(CNN)模型用于视频分析。
在混响版本的Ryerson情感语音与歌曲音视频数据库(RAVDESS)上,使用合成和真实房间脉冲响应(RIRs)进行了评估。结果表明,融合音频和视频模态的方法相比单模态方法表现更优,尤其在挑战性声学条件下。此外,采用多麦克风的多模态(音视频)方法优于单麦克风方案。
关键特性:
- 改进的HTS-AT模型处理多通道音频
- R(2+1)D CNN进行视频分析
- 在混响环境中验证多模态融合的有效性
- 多麦克风配置提升系统性能