视频分类器学会识别未见过的动作
零样本学习是一种训练深度学习模型泛化到未见类别的方法。典型做法是模型学习将输入(如视频)映射到语义空间,其中词语根据含义聚类。若训练成功,模型可通过将视频映射到语义空间并选择最接近的词语,对未训练过的视频进行分类。该技术在训练时无法获取特定类别的情况下极具潜力。
零样本学习系统将输入(此处为视频)映射到语义空间,词语按含义聚类。上图显示了与六个词语映射最接近的视频。词语来自训练数据(如“windsurfing”、“snowboarding”)和从训练数据中移除的类别(绿色边框)。模型能够将皮划艇视频(蓝色边框)映射到未见标签“kayaking”附近。
零样本图像识别研究通过端到端训练取得巨大成功,即单个深度学习模型直接从未加工输入映射到输出。但据我们所知,该方法从未应用于视频分类问题。相反,零样本视频分类器通常从标准视频分类器(仅训练识别有限动作)开始,并将其输出通过多个专用子网络映射到语义空间。这被视为对视频处理计算复杂性的必要妥协。
在一篇于IEEE计算机视觉与模式识别会议(线上)发表的论文中,我们将端到端训练应用于零样本视频分类问题,发现其大幅优于先前方法。当比较相同容量和深度的网络时,在约50万个训练样本下,我们的模型将最佳先前方法的错误率降低了29%。
我们的模型也比先前模型更简单——因此更易复现。创建强大且易复现的基线是我们的研究关键:目标不仅是开发新模型,还要激励其他研究团队的未来工作,加速进展,或许能赶上限定类别的零样本学习系统。
在评估模型时,我们采用了新的数据划分方法,将训练集和测试集分为不同数据集,更好地近似真实场景。通常,研究人员简单将单一数据集分为两部分,一部分训练模型,另一部分测试。而我们首先计算训练集中类别与测试集中最近邻在语义空间中的距离,然后丢弃所有距离低于某阈值的训练集类别。
该项目源于认识到现有零样本视频分类方法优先处理长输入视频的能力,因此需使用预训练分类器和专用模块降低计算复杂性。但许多传统视频分类中最成功的方法(非零样本系统但处理预定类别子集)恰恰相反,提取输入视频的小快照,同时端到端训练完整网络。我们将相同概念适配到零样本学习。除其他优势外,这使得能够在大数据上训练模型。
希望我们的贡献能激励其他研究团队推动零样本学习视频分类的边界,并很快在商业产品中看到该技术。
研究领域
计算机视觉
机器学习
标签
人工智能(AI)
视频分类
动作识别
零样本学习
CVPR
会议
CVPR 2020
相关出版物
《重新思考零样本视频分类:面向实际应用的端到端训练》