某中心在首届AutoML会议上获最佳论文奖

论文提出了一种停止超参数优化过程的新准则。

在首届自动机器学习大会（AutoML Conference 2022）上，研究人员凭借一种决定何时终止贝叶斯优化的新方法获得了最佳论文奖。贝叶斯优化是一种广泛使用的超参数优化方法。

超参数配置机器学习模型，关键影响其性能。决策树模型中决策树的深度和数量，或神经网络中层的数量和宽度都是超参数的例子。优化超参数需要使用不同的超参数配置多次重新训练模型，以确定最佳配置。

超参数优化的收敛准则

机器学习模型的目标是为未见数据生成良好预测。这意味着好的模型将最小化某些泛化误差f。例如，群体风险衡量模型对给定输入的预测与真实值之间的预期距离。

超参数优化算法总是在某种预算下运行——限制其可以考虑的配置数量、挂钟时间、相对于当前找到的最佳配置的改进幅度等。算法的目标是最小化理想配置γ与预算用完前能找到的最佳配置γt之间的距离。该距离称为遗憾值rt： rt = f(γt*) - f(γ*) 遗憾值量化了超参数优化算法的收敛性。

新停止准则基于这样的观察：特定超参数配置评估的准确性取决于经验估计f-hat的统计误差。如果统计误差大于遗憾值，就没有必要进一步优化配置。虽然仍可能提高验证集上的性能，但考虑到分布不匹配，实际上可能会损害在整个数据集上的性能。

该方法的核心难点在于我们既不知道真实的遗憾值（因为不知道理想超参数配置下的模型性能），也不知道统计误差（因为不知道验证集分布与完整数据集的差异）。

研究工作的核心是在既不知道遗憾值也不知道统计误差的情况下建立停止准则。该方法适用于贝叶斯优化，这是一种样本高效的超参数优化方法，意味着它需要相对较少的超参数评估次数。

首先，基于超参数配置与性能关系函数的输出值服从正态分布的假设，证明了遗憾值的上下界。这实际上是超参数优化中的标准假设。

然后基于交叉验证期间观察到的统计方差来估计经验估计的统计误差。交叉验证是将数据集划分为固定数量的相等子集的过程，每个子集依次作为验证集，其余子集作为训练数据。交叉验证也是超参数优化中的常见程序。

停止准则是：统计误差超过遗憾值上下界之间的距离。

在两种不同的决策树模型和深度神经网络上，使用两个不同数据集，将方法与五个基线进行了测试。结果各不相同，但平均而言，该方法最好地优化了模型准确性与超参数优化时间消耗之间的权衡。

论文提供了验证终止准则的技术细节和进行的实验。