视频分类器学会识别从未见过的动作
零样本学习是一种训练深度学习模型泛化到未见类别的方法。典型做法是让模型学习将输入(如视频)映射到语义空间,其中词汇根据含义进行聚类。如果训练成功,模型可以通过将视频映射到语义空间并选择最接近的词汇,对未在训练中出现的视频进行分类。该技术在目标类别无法于训练时获取的场景中具有巨大潜力。
端到端训练的优势
零样本图像识别研究已通过端到端训练取得重大成功,即使用单一深度学习模型直接将原始输入映射到输出。但据我们所知,该方法从未应用于视频分类这一相关问题。传统零样本视频分类器通常从标准视频分类器(仅能识别有限动作)起步,并将其输出传递给多个专用子网络,这些网络学习将其映射到语义空间。这被视为对视频处理计算复杂性的必要妥协。
在一篇发表于IEEE计算机视觉与模式识别会议的论文中,我们将端到端训练应用于零样本视频分类问题,发现其性能大幅超越先前方法。当比较相同容量和深度的模型时,在约50万个训练样本下,新模型将最佳前驱模型的错误率降低了29%。
简化模型结构
新模型结构比前驱模型更简洁,因而更易复现。建立强大且易于复现的基线是我们的研究关键:目标不仅是开发新模型,更是促进其他研究团队的后续工作,加速进展并可能赶超静态图像零样本学习系统。
在模型评估中,我们采用新方法划分训练集和测试集,以更好模拟真实场景。传统做法是简单将单一数据集分为两部分,分别用于训练和测试。而我们使用不同数据集进行训练和测试,但首先计算训练集类别与测试集最近邻在语义空间中的距离,然后剔除距离低于阈值的所有训练集类别。
技术实现路径
该项目源于认识到现有零样本视频分类方法优先考虑处理长输入视频的能力,因此需要通过预训练分类器和专用模块降低计算复杂度。但传统视频分类(非零样本系统)中许多最成功的方法恰恰相反,它们提取输入视频的简短快照,同时端到端训练完整网络。我们将相同概念适配到零样本学习,其中优势包括能够基于大量数据训练模型。
我们期望此项贡献能激励其他研究团队推动零样本视频分类的边界,并尽快在商业产品中看到该技术。
研究领域:计算机视觉、机器学习
技术标签:人工智能、视频分类、动作识别、零样本学习、CVPR