图中心数据库预测建模基准测试工具解析

本文介绍4DBInfer开源基准测试工具,支持在多维度的关系型数据库上进行图中心预测建模的系统性评估,涵盖数据集、预测任务、图提取方法和图神经网络架构等技术内容。

图中心数据库预测建模基准测试工具

关系型数据库(RDB)在多个互连表中存储大量结构化数据。这些丰富的关联信息对预测性机器学习具有巨大潜力。然而,目前关系型数据库预测模型的进展落后于计算机视觉或自然语言处理等其他领域。一个关键原因是缺乏用于模型训练和评估的成熟公开关系型数据库基准。

现有的关系型数据库预测模型通常使用单表数据集或从预处理关系数据导出的图数据集。然而,这些方法不能完全捕捉关系型数据库的原生多表结构和特征,可能限制模型性能。

为解决这一差距,某中心上海实验室开发了4DBInfer——一个全面的开源基准测试工具,用于关系型数据库上的图中心预测建模。4DBInfer支持在四个关键维度上对多样化基线模型进行系统性比较:(1)关系型数据库数据集;(2)预测任务;(3)关系型数据库到图的提取方法;(4)基于图的预测架构。这种四维设计促进了对关系型数据库预测分析模型设计空间的全面探索。

4DBInfer核心组件

关系型数据库数据集和任务:我们策划了一套涵盖现实世界应用领域的关系型数据库基准,包括电子商务、广告和社交网络。这些数据集在规模(高达数十亿行)、模式复杂性和时间演化方面展现出多样化特征。为每个数据集定义了实际相关的预测任务,例如估计缺失的单元格值。

关系型数据库到图的提取:4DBInfer支持多种将关系型数据库转换为图表示同时保留丰富表格信息的策略。Row2Node方法将每个表行视为图节点,外键关系形成边。Row2N/E方法选择性地将某些行转换为边以捕捉更细致的关系结构。4DBInfer还引入了"虚拟表"来丰富图连接性。

基于图的预测模型:我们实现了一系列基于图学习的强基线架构,涵盖早期和晚期特征融合范式。包括基于关系消息传递学习节点嵌入的图神经网络(GNN),以及首先使用深度特征合成(DFS)等技术从图中提取表格特征,然后应用经典机器学习预测器的模型。

实验发现

使用4DBInfer进行的广泛实验得出几个关键见解:

  • 使用基于图的模型利用完整的多表关系型数据库结构通常比使用单表或简单表连接模型产生更好结果,突显了关系信息的价值
  • 关系型数据库到图提取策略的选择显著影响模型性能,强调了灵活探索此设计空间的重要性
  • 具有早期特征融合的图模型(如图神经网络)总体倾向于优于晚期融合方法,但后者在某些场景下仍具有竞争力,特别是在计算约束下
  • 模型性能表现出数据集和任务特定的变化,强调了需要多样化基准以确保可靠结论

通过4DBInfer,我们旨在通过提供统一、完全开源的框架,加速关系型数据库上图中心预测建模的研究。我们相信这项工作将使社区能够开发有效利用关系数据进行预测任务的新方法。令人兴奋的是,我们的实验表明最成功的解决方案可能出现在表格和图机器学习范式的交叉点——这是一个有待进一步探索的成熟领域。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计