混合合成先验增强表格基础模型技术解析

混合合成先验增强表格基础模型技术解析

本文介绍Mitra框架，一种通过混合合成先验分布训练的表格基础模型，实现在医疗、金融等领域的跨任务泛化能力，性能超越传统方法如XGBoost和随机森林。

技术背景

表格数据支撑着医疗、金融、电商等领域的核心决策。传统方法（如随机森林、XGBoost）需为每个数据集单独训练模型，跨分布迁移能力有限。受大语言模型启发，表格基础模型（TFM）通过上下文学习（ICL）实现单模型多任务泛化。

Mitra框架设计

作为某机构AutoGluon框架的新组件，Mitra采用基于ICL的预训练范式：

合成数据先验：不依赖真实数据，而是通过混合先验分布生成多样化合成数据集，覆盖广泛数据模式。关键先验包括：
- 结构因果模型：结合变量间因果依赖图与概率方程
- 树模型方法：梯度提升、随机森林等
训练机制：模型通过数百万个合成任务（含支持集和查询集）学习通用推理模式，采用二维注意力机制处理行列交互。

性能验证

在TabRepo、TabZilla等基准测试中，Mitra表现优于TabPFNv2、CatBoost等模型：

分类/回归任务：平均准确率提升显著（置信区间95%）
决策边界分析：在二维正弦棋盘数据上展现更规则、低碎片化的边界

开源与应用

Mitra已随AutoGluon 1.4开源，支持研究者探索更丰富的先验空间和自适应混合策略。

comments powered by Disqus