技术背景
表格数据支撑着医疗、金融、电商等领域的核心决策。传统方法(如随机森林、XGBoost)需为每个数据集单独训练模型,跨分布迁移能力有限。受大语言模型启发,表格基础模型(TFM)通过上下文学习(ICL)实现单模型多任务泛化。
Mitra框架设计
作为某机构AutoGluon框架的新组件,Mitra采用基于ICL的预训练范式:
- 合成数据先验:不依赖真实数据,而是通过混合先验分布生成多样化合成数据集,覆盖广泛数据模式。关键先验包括:
- 结构因果模型:结合变量间因果依赖图与概率方程
- 树模型方法:梯度提升、随机森林等
- 训练机制:模型通过数百万个合成任务(含支持集和查询集)学习通用推理模式,采用二维注意力机制处理行列交互。
性能验证
在TabRepo、TabZilla等基准测试中,Mitra表现优于TabPFNv2、CatBoost等模型:
- 分类/回归任务:平均准确率提升显著(置信区间95%)
- 决策边界分析:在二维正弦棋盘数据上展现更规则、低碎片化的边界
开源与应用
Mitra已随AutoGluon 1.4开源,支持研究者探索更丰富的先验空间和自适应混合策略。