集成分类器评估中的标注减少技术

本文提出了一种通过利用集成分类器组件间一致性的新方法,在评估AI系统时可将数据标注需求降低高达89%,同时保持评估准确性,适用于需要频繁重新评估的商业机器学习系统。

如何减少评估AI系统时的标注工作

商业机器学习系统基于代表现实世界的示例进行训练。但世界在不断变化,已部署的机器学习系统需要定期重新评估,以确保其性能没有下降。

评估已部署的AI系统意味着手动标注系统已分类的数据,以确定这些分类是否准确。但标注工作密集,因此需要最小化评估系统性能所需的样本数量。

许多商业机器学习系统实际上是二元分类器的集成;每个分类器对输入是否属于特定类别进行“投票”,投票结果被汇总以产生最终决策。

在一篇提交至欧洲机器学习会议的论文中,展示了一种通过利用用于评估单个组件的样本集之间的重叠来减少评估二元分类器集成所需随机样本数量的方法。

例如,假设一个集成有三个分类器,每个分类器需要10个样本来评估性能。评估集成需要40个样本——每个分类器10个,整个集成10个。如果40个样本中有10个是重复的,则可以用30个标注完成。论文基于这一直觉展开。

在使用真实数据的实验中,该方法将评估集成所需的样本数量减少了89%以上,同时保持了评估的准确性。

还使用模拟数据进行了实验,改变了单个分类器样本集之间的重叠程度。在这些实验中,平均节省了33%的样本。

最后,在论文中表明,采样过程不会相对于随机采样引入任何偏差到结果样本集中。

共同基础

直观上,随机选择的集成单独组件的样本不可避免地包括一些重复。因此,大多数用于评估一个模型有用的样本也应该对评估其他模型有用。目标是添加足够多的额外样本来评估所有模型。

从为整个集成选择一个样本集开始,称之为“父”;集成的单个模型相应地称为“子”。在找到足够评估父的样本集后,扩展它以包括第一个子,然后重复该过程直到样本集覆盖所有子。

通用方法适用于任何评估集成性能的标准,但在论文中,使用精确度——或分类器正确识别的真阳性百分比——作为运行示例。

在此图中,父分类为阳性的输入集(右圆,AP)与子分类为阳性的输入集(左圆,AC)相交。AP的随机样本(橙色曲线,SP)与AC之间的交集(橙色阴影区域)代表S+,来自父阳性集且被子分类为阳性的样本。绿色阴影区域代表S-,来自被子分类为阳性但父未分类为阳性的输入集的样本。散布的x代表Sremain,被子分类为阳性的输入的额外样本,需要提供足够样本以获得高度准确的精确度估计。

从父判断属于目标类别的总输入集和子的总输入集开始。两个集合之间通常有相当大的重叠;例如,在由三个分类器组成的多数投票集成中,只要两个组件(子)分类为阳性,集成(父)就将输入分类为阳性。

从父集中,选择足够多的随机样本来评估父。然后找到该样本集与子的总阳性分类集之间的交集(上图中的S+)。这成为子的基线样本集。

接下来,从子分类为阳性但父未分类为阳性的输入中随机抽取样本(上图中的S-)。该样本大小与基线样本集大小之间的比率应与子——但非父——标记为阳性的输入数量与两者都标记为阳性的输入数量之间的比率相同。

当将这些样本添加到基线样本集时,得到的组合样本集可能不够大以准确估计精确度。如果需要,从子分类为阳性的输入中选择更多样本。这些样本也可能被父分类为阳性(上图中的Sremain)。

回想一下,首先从子和父一致的集合中选择样本,然后从子和父不一致的集合中选择。这意味着构建的样本集不是真正随机的,因此下一步是混合组合集中的样本。

重新洗牌或重新采样?

尝试了两种不同的混合方式。一种简单地将组合集中的所有样本重新洗牌。另一种从组合集中随机抽取样本并将它们添加到新的混合集中,直到混合集大小与组合集相同。两种方法中,最终结果是当从样本中挑选任何元素时,不会知道它来自父和子一致的集合还是不一致的集合。

改变父和子判断之间重叠量时方法提供的平均样本节省可视化。

在实验中,发现当使用重新洗牌产生混合样本集和使用重新采样时,算法结果之间存在轻微权衡。因为重新采样在混合集中引入了一些冗余,它比重新洗牌需要更少的样本,从而增加了相对于随机采样的样本大小节省。

但同时,它略微降低了精确度估计的准确性。使用重新洗牌时,算法在三个测试数据集上平均略微优于随机采样,而使用重新采样时,则略逊于随机采样。

总体而言,开发的采样程序减少了样本大小。当然,节省量取决于父和子判断之间的重叠。重叠越大,样本节省越多。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计