处理分布外数据的综述

在机器学习（ML）和数据驱动应用领域，一个重大挑战是训练阶段与部署阶段之间数据分布的变化，通常称为分布偏移。本文概述了处理两种主要类型分布偏移的不同机制：（i）协变量偏移：特征或协变量的值在训练和测试数据之间发生变化；（ii）概念/语义偏移：由于测试阶段出现新类别，模型经历训练期间学习到的概念偏移。

贡献总结为三个方面。首先，形式化分布偏移问题，阐述传统方法为何无法充分处理这些问题，并呼吁需要能够同时在所有类型分布偏移中表现更好的模型。其次，讨论处理分布偏移的重要性，并全面回顾已开发用于检测、测量和缓解这些偏移影响的方法与技术。第三，讨论当前分布偏移处理机制的现状，并提出该领域的未来研究方向。

总体而言，本文提供了分布偏移文献的回顾性概要，重点关注现有综述中被忽视的分布外（OOD）数据。

评论
20页，6张图，6个表格。已被IEEE Transactions on Knowledge and Data Engineering接受。

主题
机器学习（cs.LG）；人工智能（cs.AI）

MSC分类
68T07（主要），68T45，68T10（次要）

ACM分类
I.5.1

引用为
arXiv:2507.21160 [cs.LG]
（或此版本的 arXiv:2507.21160v1 [cs.LG]）

机器学习分布偏移处理技术综述

本文系统综述了机器学习中分布偏移问题的处理方法，包括协变量偏移和概念偏移的检测与缓解技术，总结了现有方法的局限性并提出了未来研究方向，为构建鲁棒机器学习系统提供重要参考。

处理分布外数据的综述