谷歌云Dataplex推出BigQuery列级数据血缘追踪,为AI构建可信数据基础

谷歌云宣布Dataplex Universal Catalog现已支持BigQuery列级数据血缘追踪功能,帮助数据专业人员精确追踪单个数据列的流转路径,确保AI模型使用的数据来源可信,同时提供可视化界面展示列级血缘关系,增强数据治理能力。

Dataplex支持BigQuery列级数据血缘 | 谷歌云博客

有效的AI系统建立在上下文和持续信任的基础上。当您使用谷歌云统一数据治理平台Dataplex Universal Catalog时,描述数据的元数据不再是静态的——这里是您的AI应用程序可以找到数据并确定可信度的地方。

但在复杂的数据管道中,数据的流转路径很容易变得模糊,难以从源头追踪到最终影响。为此,我们将Dataplex的血缘能力从对象级扩展到列级,首先支持BigQuery。

“为了推动我们的AI战略,我们需要对数据有绝对的信任。列级血缘提供了这种信任。它是我们负责任且自信地治理数据的基础。” - Latheef Syed - Verizon数据与AI治理工程助理副总裁

对象级血缘追踪整个表之间的顶层连接,而列级血缘则绘制单个数据列在移动和转换过程中的具体、细粒度路径。通过这一功能,我们现在提供了一个动态且细粒度的地图来治理您的数据到AI生态系统,使您能够将代理AI应用程序建立在上下文基础上。血缘功能升级到列级,无需额外费用。

回答关于数据的关键问题

数据专业人员经常需要关于其BigQuery数据集中复杂关系的精确答案。列级血缘提供了一个数据流图,您可以追踪以快速找到这些答案。现在您可以:

  • 确认AI模型中使用的列源自权威来源
  • 在修改前了解对一个列的更改如何影响下游其他列
  • 通过检查上游转换来追踪列问题的根本原因
  • 验证列级敏感数据在整个组织中的正确使用

“列级血缘将我们数据生态系统的可信地图提升到了新水平。这是我们充分理解变更影响、追踪问题源头并确保最细粒度合规性所需的精确工具。” - Arvind Rajagopalan - Verizon数据/AI与产品工程助理副总裁

可视化探索血缘

Dataplex现在提供列级血缘关系的交互式可视化表示。您可以选择表中的单个列来查看其所有上游和下游连接的图表。当您在资产级别导航图表时,可以向下钻取到列级别以验证哪些特定列受到流程影响。您还可以可视化两个不同资产列之间的直接血缘路径,从而获得它们关系的聚焦视图。

AI模型的列级追踪

用于AI和ML模型训练的表通常包含来自不同来源并采取不同路径的数据,对数据旅程具有细粒度的可见性非常重要。例如,在复杂的AI/ML特征表中,用于模型训练的单个表可能包含许多列。列级血缘可以验证某一列源自受信任的、经过审计的财务系统,而另一列来自临时Web日志。表级血缘会模糊这一关键区别,以相同的信任级别对待所有特征。

支持上下文感知的AI代理

越来越多的公司正在开发AI代理来自动化任务并回答关于其数据的复杂问题,这些代理需要深入了解业务和组织上下文才能有效工作。列级血缘提供的细粒度元数据提供了这种必要的上下文。例如,它可以让代理区分名称相似的指标。通过追踪每个列的路径,包括其使用频率和新鲜度,它为代理提供了关于列重要性(如果受到变更影响)或故障排除时影响严重性的上下文。通过将AI代理建立在数据资产及其关系的丰富、事实地图上,您可以构建更准确可靠的代理工作流。

开始使用

您现在就可以在Dataplex中开始使用BigQuery的列级血缘功能。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计