从树集成中提取可解释模型:计算与统计视角
树集成是非参数方法,以其准确性和捕捉复杂交互的能力而广受认可。虽然这些模型在预测方面表现出色,但难以解释,且可能无法揭示数据中有用的关系。提出一种估计器,用于从树集成中提取紧凑的决策规则集。提取的模型准确且可手动检查,以揭示预测变量与响应之间的关系。
该估计器的一个关键新颖之处在于能够灵活地联合控制提取的规则数量和每条规则的交互深度,从而提高准确性。开发了一种定制的精确算法,以高效解决估计器背后的优化问题,以及一种用于计算正则化路径的近似算法,该路径对应于不同模型大小的解序列。
还为新提出的方法建立了新颖的非渐近预测误差界,将其与在相同复杂度约束下选择集成中规则的最佳数据依赖线性组合的预言机进行比较。误差界表明,该估计器的大样本预测性能与预言机相当。通过实验证明,该估计器在规则提取方面优于现有算法。