Whilter：基于Whisper的语音数据过滤系统

近年来，由于对从未标注数据中学习有用特征的模型需求增长，大规模野外语音数据集变得越来越普遍。这些数据集通常包含不良特征，如多说话人、非目标语言和音乐等，可能影响模型学习。

Whilter模型被提出作为多任务解决方案，用于识别这些不良样本。该系统采用Whisper编码器结合基于注意力的分类器，同时解决五个不同的分类问题。此外，研究还发布了两个流行野外语料库子集的标注数据集。

在五项子任务中，Whilter在三项任务上实现了85%以上的F1分数和6.5%至7.8%的等错误率，在语音特定类别上优于最先进的BEATs分类器，且与单任务方案组合相比显著减少了处理时间。