关系型数据库(RDB)通过多张互相关联的表格存储海量结构化数据。这些丰富的关联信息在预测性机器学习方面具有巨大潜力。然而,目前针对关系型数据库的预测模型发展滞后于计算机视觉或自然语言处理等领域。一个重要原因是缺乏公开可用的标准化RDB基准数据集用于模型训练和评估。
现有的RDB预测模型通常采用单表数据集或经过预处理的关系数据衍生的图数据集。但这些方法未能完整捕捉原生多表结构及其特性,可能限制模型性能。为填补这一空白,某机构上海实验室开发了4DBInfer——一个面向RDB图中心化预测建模的综合开源基准测试工具。
4DBInfer支持从四个关键维度系统化比较不同基线模型:(1)RDB数据集;(2)预测任务;(3)RDB到图的提取方法;(4)基于图的预测架构。这种四维设计有助于全面探索RDB预测分析的模型设计空间。
核心组件深度解析:
RDB数据集与任务
精选覆盖电子商务、广告和社交网络等实际应用领域的RDB基准套件。这些数据集在规模(高达数十亿行)、模式复杂性和时间演化方面呈现多样化特性。为每个数据集定义了实际相关的预测任务,例如缺失单元格值估算。
RDB到图提取
支持多种将RDB转换为图表示的策略,同时保留丰富的表格信息。Row2Node方法将每个表格行视为图节点,外键关系构成边;Row2N/E方法选择性将部分行转换为边以捕捉更细微的关系结构;还引入"虚拟表"来增强图连接性。
基于图的预测模型
实现了涵盖早期和晚期特征融合范式的多种强基线架构。包括基于关系消息传递学习节点嵌入的图神经网络(GNN),以及先通过深度特征合成(DFS)等技术从图中提取表格特征,再应用传统机器学习预测器的模型。
实验关键发现:
- 利用完整多表结构的图模型普遍优于单表或简单表连接模型
- RDB到图的提取策略选择显著影响模型性能
- 早期特征融合的图模型(如GNN)总体优于晚期融合方法
- 模型性能存在数据集和任务特异性差异
通过提供统一的全开源框架,该工具旨在加速RDB图中心化预测建模的研究。实验表明,最成功的解决方案可能出现在表格与图机器学习范式的交叉领域——这仍是待探索的富矿区。