技术架构与训练方法
语音信号通过深度神经网络架构同时分析声学特征(音高、频谱能量波动)和语义信息。系统采用自动语音识别(ASR)模型的编码器-解码器架构,通过两阶段训练:
- ASR训练阶段:前端固定,编码器和解码器参数使用带情感标签的转录文本训练(如"Positive 我很开心"),损失函数同时评估情感标签和文本转录的匹配度
- 分类器训练阶段:冻结预训练前端和ASR编码器,连接轻量级分类器,使用情感标注语音数据训练分类器输出积极/中性/消极概率
异构数据集处理
为解决自然对话分析的数据瓶颈:
- 对无情感标签数据集使用某机构文本理解服务生成伪标签
- 对无转录文本数据集使用某机构转录服务生成文本
- 采用数据增强策略:频谱增强、语速变化(95%-105%)、混响、加性噪声(0dB-15dB SNR)
实时推理优化
生产环境部署时:
- 每2.5秒处理5秒语音片段
- 计算过去30秒及全程语音的情感概率
- 分类器计算成本显著低于ASR解码器,实现低成本实时推理
偏见消除技术
针对训练数据标签分布不均:
- ASR训练阶段均匀采样情感标签
- 分类器训练阶段按标签频率反向加权损失函数
- 特别优化中性情感(数据集中更常见)的检测准确率