机器学习分布偏移处理技术综述

本文系统综述了机器学习中分布偏移问题的处理方法,包括协变量偏移和概念偏移的检测与缓解技术,总结了现有方法的局限性并提出了未来研究方向,为构建鲁棒机器学习系统提供重要参考。

处理分布外数据的综述

在机器学习(ML)和数据驱动应用领域,一个重大挑战是训练阶段与部署阶段之间数据分布的变化,通常称为分布偏移。本文概述了处理两种主要类型分布偏移的不同机制:(i)协变量偏移:特征或协变量的值在训练和测试数据之间发生变化;(ii)概念/语义偏移:由于测试阶段出现新类别,模型经历训练期间学习到的概念偏移。

贡献总结为三个方面。首先,形式化分布偏移问题,阐述传统方法为何无法充分处理这些问题,并呼吁需要能够同时在所有类型分布偏移中表现更好的模型。其次,讨论处理分布偏移的重要性,并全面回顾已开发用于检测、测量和缓解这些偏移影响的方法与技术。第三,讨论当前分布偏移处理机制的现状,并提出该领域的未来研究方向。

总体而言,本文提供了分布偏移文献的回顾性概要,重点关注现有综述中被忽视的分布外(OOD)数据。


评论
20页,6张图,6个表格。已被IEEE Transactions on Knowledge and Data Engineering接受。

主题
机器学习(cs.LG);人工智能(cs.AI)

MSC分类
68T07(主要),68T45,68T10(次要)

ACM分类
I.5.1

引用为
arXiv:2507.21160 [cs.LG]
(或此版本的 arXiv:2507.21160v1 [cs.LG])

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计