混合合成先验增强表格基础模型技术解析

本文介绍Mitra框架,一种通过混合合成先验分布训练的表格基础模型,实现在医疗、金融等领域的跨任务泛化能力,性能超越传统方法如XGBoost和随机森林。

技术背景

表格数据支撑着医疗、金融、电商等领域的核心决策。传统方法(如随机森林、XGBoost)需为每个数据集单独训练模型,跨分布迁移能力有限。受大语言模型启发,表格基础模型(TFM)通过上下文学习(ICL)实现单模型多任务泛化。

Mitra框架设计

作为某机构AutoGluon框架的新组件,Mitra采用基于ICL的预训练范式:

  1. 合成数据先验:不依赖真实数据,而是通过混合先验分布生成多样化合成数据集,覆盖广泛数据模式。关键先验包括:
    • 结构因果模型:结合变量间因果依赖图与概率方程
    • 树模型方法:梯度提升、随机森林等
  2. 训练机制:模型通过数百万个合成任务(含支持集和查询集)学习通用推理模式,采用二维注意力机制处理行列交互。

性能验证

在TabRepo、TabZilla等基准测试中,Mitra表现优于TabPFNv2、CatBoost等模型:

  • 分类/回归任务:平均准确率提升显著(置信区间95%)
  • 决策边界分析:在二维正弦棋盘数据上展现更规则、低碎片化的边界

开源与应用

Mitra已随AutoGluon 1.4开源,支持研究者探索更丰富的先验空间和自适应混合策略。


comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计