评估分类模型:指标、技术与最佳实践
分类模型概述
分类模型(或称分类器)是一种机器学习算法,用于为数据点分配类别或标签。例如,模型可以分析电子邮件并判断其是否属于垃圾邮件。为了做出此类决策,模型将使用从训练数据集中的示例学到的模式。
虽然简单的分类器示例可能风险较低,但分类模型几乎应用于所有行业,用于各种通常关键的任务。以下示例说明了为何正确评估这些模型至关重要:
- 所有电子邮件帐户都依赖分类模型来过滤垃圾邮件。评估不当可能导致重要邮件被标记为垃圾邮件,或潜在恶意垃圾信息进入收件箱
- 在医疗保健领域,分类器用于诊断疾病。误诊可能导致错误治疗或严重健康风险
- 在招聘中,评估不当的模型可能对某些人口统计群体存在偏见,从而导致不公平的招聘实践
- 在金融服务中,信用评分模型用于评估申请人的信用度。没有有效评估,这些模型可能拒绝合格的申请人或批准高风险申请人
- 在自动驾驶中,分类模型作为更复杂物体识别系统的组成部分
基础评估指标
在垃圾邮件分类的示例中,正标签为"垃圾邮件"。我们处理真实标签(即给定电子邮件是否是垃圾邮件)和分类模型的预测(模型预测电子邮件是否是垃圾邮件)。由此产生四种情况:
- 真阳性(TP):模型预测为垃圾邮件,且电子邮件确实是垃圾邮件
- 假阳性(FP):模型预测为垃圾邮件,但电子邮件不是垃圾邮件
- 真阴性(TN):模型预测电子邮件不是垃圾邮件,且确实不是
- 假阴性(FN):模型预测电子邮件不是垃圾邮件,但实际上是
混淆矩阵总结了预测值与真实标签的所有可能组合。
从这四种情况可以推导出多个评估指标:
准确率:衡量模型正确预测观察类别的能力
精确率:衡量正类别(本例中为垃圾邮件)所有预测中正确的比例。回答的问题是:在所有垃圾邮件预测中,有多少实际上是垃圾邮件?
召回率:衡量所有正例中被正确预测的比例。召回率也称为灵敏度或真阳性率
特异性:衡量负例(非垃圾邮件)被正确识别的比例。特异性可视为负类别的召回率
F1分数:精确率和召回率的调和平均值。使用调和平均而非算术平均是因为它考虑了两个分数之间的平衡,惩罚极端结果并阻止高度不等的值
可能的陷阱
如果不彻底理解这些基本指标,就无法正确评估模型的性能。同样重要的是要意识到使用这些指标时的潜在陷阱。
例如,在处理类别不平衡时,准确率可能极具误导性。考虑99%的数据不是垃圾邮件,只有1%是垃圾邮件的情况。一个将所有观察分类为非垃圾邮件的简单模型将达到99%的准确率,但在实践中基本上毫无价值。
在这种情况下,我们可以从其他指标获得更有用的见解,优化这些指标可能比优化准确率更有意义。然而,指标的选择取决于上下文(即业务案例),因为假阳性和假阴性的成本通常不相等。
另一个挑战出现在使用将多个评估标准合并为单个值的复合指标时,例如F1分数。虽然它们对于总结模型的整体性能非常有用和有吸引力,但复合指标可能掩盖基础指标之间的个体权衡。
另外两个陷阱与聚合性能指标相关。第一个是,如果我们只关注整体指标而忽略数据切片(数据的特定子集),可能会错过关键细节。第二个潜在问题出现在我们联合评估所有类别时。
最后,由于评估指标通常设计时只考虑纯数学目标,将它们转化为业务利益相关者相关且易于理解的实际结果可能相当具有挑战性。
更多评估指标
ROC曲线以图形方式表示分类器在所有可能阈值下的性能。在y轴上绘制真阳性率(TPR,与召回率相同),在x轴上显示假阳性率(FPR)。ROC曲线说明了这些值随着阈值变化而变化的权衡关系。
**曲线下面积(AUC)**测量ROC曲线下的总面积,总结了分类器区分正类和负类的能力。AUC为1表示完美分类器,AUC为0.5表示随机分类器。
精确率-召回率(PR)曲线绘制了不同分类阈值下精确率和召回率之间的权衡关系。当类别不平衡时特别有用,因为它只关注正类别而忽略真阴性。
与ROC曲线类似,PR曲线也有"无技能线",代表无法真正区分类别(随机预测)或为所有预测分配恒定类别的分类器。
**马修斯相关系数(MCC)**通过考虑混淆矩阵的所有元素来解决精确率、召回率或F1分数等指标的不对称性问题。其值范围在-1(完全反向预测)和1(完美分类器)之间。
Cohen’s Kappa衡量两个系统之间的一致性。与准确率等指标相比,其附加价值在于它还考虑了偶然达成一致的可能性。
对数损失(也称为对数损失或交叉熵损失)用于评估输出概率的分类器的性能。它提供了一种量化模型预测概率与真实结果(标签)对齐程度的方法。
Brier分数是用于评估概率预测准确性的指标。虽然它量化相同的内容,但它在计算方式和惩罚错误的方式上有所不同。
评估分类模型时考虑公平性
在评估机器学习模型的背景下,公平性指的是这些模型做出的预测不应基于某些敏感属性系统性地偏向(正面或负面)特定群体或个人。这些可能是种族、性别、年龄、宗教或残疾等属性。
当公平性不是评估过程的一部分时,可能出现问题:
- 某中心的招聘工具对女性存在偏见。这种偏见来自训练数据,反映了过去的不平等
- 当某机构推出其信用卡产品时,客户注意到信用额度偏向男性而非女性,即使女性的信用评分更高
- 多项研究显示,面部识别系统对女性和肤色较深的人错误率显著更高
促进公平性的几种方法:
- 修改输入数据以减少或消除训练任何模型前的偏见
- 将公平性约束或目标直接纳入模型训练过程
- 调整模型的输出或决策以确保训练后的公平性
- 使用专用指标和工具定期评估模型的公平性
公平性感知指标
统计奇偶性(或人口统计奇偶性)评估分类模型的结果在不同群体之间是否平等分布。这些群体将由某些敏感属性定义,例如种族或性别。
差异影响评估分类器是否对不同群体(再次由某些敏感属性定义)产生不成比例的影响。它通常定义为两个群体的正预测率之比。
均等几率分析模型在所有群体中是否具有相等的真阳性率和假阳性率。换句话说,模型的预测不应不成比例地使任何特定群体受益或受害。
人口统计奇偶性差距评估跨群体的正预测差异。差距定义为两个群体之间正预测率的绝对差异。较小的差距表明模型至少在正预测方面更平等地对待群体。
检测机器学习模型中偏见的方法
偏见可能来自各种来源:有偏见的训练数据、有缺陷的模型假设,甚至是模型应用的现实世界系统中固有的不平等。
检测偏见的一种可能方法是使用Shapley值。它们作为评估机器学习模型特征重要性的方法获得了令人印象深刻的普及。但我们也可以使用它们来检测偏见。
另一种方法可能是反事实测试。该框架涉及通过更改敏感属性来创建输入的修改版本(称为反事实)。然后,观察模型的预测如何变化。
评估分类模型的最佳实践
- 使用上下文感知指标:选择与组织业务目标一致的指标
- 使用现实数据集进行评估:确保模型在反映当前现实世界分布的数据上进行测试
- 注意复合指标:使用复合指标时,始终额外检查各个组件以完全理解模型的行为
- 使用多个指标:始终跨多个目标评估模型的性能并使用各种指标
- 纳入公平性和偏见检测:不要忘记也使用公平性感知指标和偏见检测方法评估模型
- 使用可解释性工具:可以使用Shapley值等方法来解释分类器的预测