基于Whisper的语音数据过滤技术解析

本文介绍Whilter模型,一种基于Whisper编码器的多任务分类系统,用于过滤野外语音数据中的非目标内容,如多说话人、非目标语言和音乐等,在五项分类任务中三项达到85%以上F1分数,显著提升处理效率。

Whilter:基于Whisper的语音数据过滤系统

近年来,由于对从未标注数据中学习有用特征的模型需求增长,大规模野外语音数据集变得越来越普遍。这些数据集通常包含不良特征,如多说话人、非目标语言和音乐等,可能影响模型学习。

Whilter模型被提出作为多任务解决方案,用于识别这些不良样本。该系统采用Whisper编码器结合基于注意力的分类器,同时解决五个不同的分类问题。此外,研究还发布了两个流行野外语料库子集的标注数据集。

在五项子任务中,Whilter在三项任务上实现了85%以上的F1分数和6.5%至7.8%的等错误率,在语音特定类别上优于最先进的BEATs分类器,且与单任务方案组合相比显著减少了处理时间。

该研究已被Interspeech 2025会议接收。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计