如何减少评估AI系统时的标注工作
商业机器学习系统在代表现实世界的示例上进行训练。但世界在不断变化,已部署的机器学习系统需要定期重新评估,以确保其性能没有下降。
评估已部署的AI系统意味着手动标注系统分类的数据,以确定这些分类是否准确。但标注工作劳动密集,因此需要尽量减少评估系统性能所需的样本数量。
许多商业机器学习系统实际上是二元分类器的集成;每个分类器对输入是否属于特定类别进行"投票",然后汇总投票以产生最终决策。
在一篇提交至欧洲机器学习会议的论文中,展示了一种通过利用用于评估单个组件的样本集之间的重叠来减少评估二元分类器集成所需随机样本数量的方法。
例如,假设一个集成有三个分类器,我们需要各10个样本来评估三个分类器的性能。评估集成需要40个样本——每个单独分类器10个,完整集成10个。如果40个样本中有10个是重复的,我们可以只用30个标注。本文基于这种直觉展开。
在使用真实数据的实验中,该方法将评估集成所需的样本数量减少了超过89%,同时保持了评估的准确性。
还使用模拟数据进行了实验,改变了单个分类器样本集之间的重叠程度。在这些实验中,平均节省了33%。
最后,在论文中展示了采样过程不会相对于随机采样在结果样本集中引入任何偏差。
共同基础
直观地说,为集成的单独组件随机选择的样本不可避免地会包含一些重复。因此,用于评估一个模型的大多数样本应该对评估其他模型也有用。目标是仅添加足够多的额外样本来能够评估所有模型。
首先为整个集成选择一个样本集,称之为"父"集;集成的单个模型相应地是"子"集。在找到足够评估父集的样本集后,扩展它以包含第一个子集,然后重复该过程,直到样本集覆盖所有子集。
通用方法适用于评估集成性能的任何标准,但在论文中,使用精确度——或分类器正确识别的真阳性百分比——作为运行示例。
采样策略
从父集判断属于目标类别的总输入集和子集判断为阳性的总输入集开始。两个集合之间通常有相当大的重叠;例如,在由三个分类器组成的多数投票集成中,只要有两个组件(子集)将输入判断为阳性,集成(父集)就将其分类为阳性。
从父集中,选择足够多的随机样本来评估父集。然后找到该样本集与子集阳性分类总集的交集。这成为子集的基线样本集。
接下来,从子集分类为阳性但父集未分类为阳性的输入中随机抽取样本。该样本大小与基线样本集大小之间的比率应与子集标记为阳性但父集未标记为阳性的输入数量与两者都标记为阳性的输入数量之间的比率相同。
当将这些样本添加到基线样本集时,得到的组合样本集可能不够大以准确估计精确度。如果需要,从子集分类为阳性的输入中选择更多样本。这些样本也可能已被父集分类为阳性。
回想一下,首先从子集和父集一致的集合中选择样本,然后从子集和父集不一致的集合中选择样本。这意味着构建的样本集不是真正随机的,因此下一步是混合组合集中的样本。
重新洗牌或重新采样?
实验了两种执行这种混合的不同方式。一种中,简单地重新洗牌组合集中的所有样本。另一种中,从组合集中随机抽取样本并将它们添加到新的混合集中,直到混合集与组合集大小相同。在两种方法中,最终结果是当从样本中挑选任何元素时,不会知道它来自父集和子集一致的集合还是不一致的集合。
在实验中,发现了当使用重新洗牌产生混合样本集和使用重新采样时算法结果之间的轻微权衡。由于重新采样在混合集中引入了一些冗余,它比重新洗牌需要更少的样本,从而增加了相对于随机采样的样本大小节省。
然而,与此同时,它略微降低了精确度估计的准确性。使用重新洗牌时,算法在三个测试数据集上平均略优于随机采样,而使用重新采样时,准确性略低于随机采样。
总体而言,开发的采样程序减少了样本大小。当然,节省量取决于父集和子集判断之间的重叠。重叠越大,样本节省越多。