Whilter:基于Whisper的语音数据过滤系统
近年来,由于对从未标注数据中学习有用特征的模型需求增长,大规模野外语音数据集变得越来越普遍。这些数据集通常包含不良特征,如多说话人、非目标语言和音乐等,可能影响模型学习。
Whilter模型被提出作为多任务解决方案,用于识别这些不良样本。该系统采用Whisper编码器结合基于注意力的分类器,同时解决五个不同的分类问题。此外,研究还发布了两个流行野外语料库子集的标注数据集。
在五项子任务中,Whilter在三项任务上实现了85%以上的F1分数和6.5%至7.8%的等错误率,在语音特定类别上优于最先进的BEATs分类器,且与单任务方案组合相比显著减少了处理时间。
该研究已被Interspeech 2025会议接收。