处理分布外数据的综述
在机器学习(ML)和数据驱动应用领域,一个重大挑战是训练阶段与部署阶段之间数据分布的变化,通常称为分布偏移。本文概述了处理两种主要类型分布偏移的不同机制:(i)协变量偏移:特征或协变量的值在训练和测试数据之间发生变化;(ii)概念/语义偏移:由于测试阶段出现新类别,模型经历训练期间学习到的概念偏移。
贡献总结为三个方面。首先,形式化分布偏移问题,阐述传统方法为何无法充分处理这些问题,并呼吁需要能够同时在所有类型分布偏移中表现更好的模型。其次,讨论处理分布偏移的重要性,并全面回顾已开发用于检测、测量和缓解这些偏移影响的方法与技术。第三,讨论当前分布偏移处理机制的现状,并提出该领域的未来研究方向。
总体而言,本文提供了分布偏移文献的回顾性概要,重点关注现有综述中被忽视的分布外(OOD)数据。
评论
20页,6张图,6个表格。已被IEEE Transactions on Knowledge and Data Engineering接受。
主题
机器学习(cs.LG);人工智能(cs.AI)
MSC分类
68T07(主要),68T45,68T10(次要)
ACM分类
I.5.1
引用为
arXiv:2507.21160 [cs.LG]
(或此版本的 arXiv:2507.21160v1 [cs.LG])