数据管理服务如何从海量数据中挖掘价值

本文介绍了一项数据管理服务如何通过机器学习技术帮助用户快速编目、发现、共享和治理跨平台数据,解决数据孤岛问题,并实现自动化元数据生成,降低非技术用户的数据使用门槛。

数据管理服务如何从海量数据中挖掘价值

该服务现已全面推出,利用机器学习技术使数据的编目、发现、共享和治理变得更加快速和简便。

根据Statista的数据,全球每年创建、捕获、复制和消费的数据总量正在迅速加速增长,预计2023年将达到120泽字节(zettabytes)。而2013年这一数字仅为9泽字节(作为参考,1泽字节大约相当于5000亿部电影)。全球各组织都希望利用这一数据洪流带来的机遇:构建数据基础,将其用于人工智能(AI)模型,并从中获取洞察。Forrester的研究显示,经验丰富的数据驱动型企业在2021年实现20%收入增长的可能性是初学者的8.5倍。然而,根据《哈佛商业评论》,只有26.5%的企业成功将数据视为战略资产。

为了帮助用户应对数据管理挑战,某中心推出了数据管理服务,使跨某中心、用户本地或第三方来源存储的数据的编目、发现、共享和治理变得更加快速和简便。某中心最近宣布该服务现已全面推出。

“用户希望有一种简单的方法将所有数据整合在一起,无论数据存储在何处以及以何种格式存储,并希望他们的分析师、数据科学家和工程师能够尽快从中获取价值,”某中心数据管理服务的高级经理兼产品负责人表示,“这就是我们正在解决的问题。”

数据管理的多重挑战

大约三年前,某中心的团队认识到需要一种新的数据管理解决方案。当时,某中心内的多个团队都遇到了相同的数据管理问题的类似版本:如何发现、共享和管理位于孤岛数据库中的数据。他们也深知这个问题并非某中心独有。

“如果无法发现正确的数据,一切都会停滞不前,”某中心的首席技术产品经理表示,他正在通过机器学习功能改进数据管理服务。

另一个持续存在的挑战是数据及其描述性元数据以技术格式存储,并针对某Redshift等强大分析工具的处理进行了优化。这两个现实使得非技术用户难以发现、组织数据并从中获取有价值的洞察。

此外,应用科学高级经理指出,用户可能会花费数小时筛选难以解析的数据,冒着忽略关键数据片段的风险。

“这就是数据管理服务的用武之地,”该经理表示。该服务连接了孤岛数据资产,使用户能够快速发现组织内的数据集。

自动化元数据生成

数据管理服务的一个关键特性是自动化元数据生成。通常,用户会手动添加元数据,以使数据可发现和可理解。

“这是一项繁琐、容易出错且无法扩展的工作,”某中心经理表示。“这些元数据也常常是隐晦的,使用大量行话和缩写。”

例如,当数据添加到数据库时,一些相关的元数据可能以缩写形式出现,例如“C_Name”——而不是“Customer Name”——作为表列的标题。

“我们使用机器学习技术从数据集中的这些隐晦名称自动生成可理解的业务名称,以帮助用户更好地理解他们的数据,”某中心的应用科学家表示。

为了实现这一目标,她和同事创建了一个包含缩写列名和相应扩展标签的训练数据集,并用它来微调一个大语言模型。在数据管理服务中点击激活后,模型会自动生成非技术用户可以理解的列名扩展。

添加这种自动生成且易于理解的元数据使数据集更易于搜索,并使非技术用户更容易发现特定数据。这种可发现性还降低了数据分析可能因不完整和难以理解的数据而受到破坏的风险。

实现企业范围内的协作

在数据管理服务的预览期间,团队收到反馈称,虽然一些用户希望为单个业务单元或业务线使用工具,但其他用户则寻求一种企业范围的解决方案,以更好地全面治理数据。

“从那时到现在,我们支持了这两种类型的采用周期,”经理表示。“例如,销售团队希望开始使用数据管理服务:他们可以设置一个域,创建自己的项目,开始共享他们的数据。然后,一个月后,营销人员查看销售团队所做的工作,现在他们也想开始。他们可以按照自己的时间表开始。”

团队面临的另一个挑战是创建一个接口,桥接用户存储数据的不同位置以及他们用于组织和分析数据的工具。目标是使不同的人能够使用他们偏好的工具,即使在同一数据上协同工作。为了实现这一目标,团队引入了一个新概念:一个数据项目,将人员、工具和数据聚集在一个统一的保护伞下,协调安全和访问策略。

“您可以授权一个项目使用特定数据集,然后与该项目相关的所有人员在进入他们选择的工具时都携带相同的授权和上下文,”经理表示。

“数据项目的构建是我们通过数据管理服务引入的最大简化之一,”经理补充道。“它将帮助用户不仅在某中心生态系统中整合正确的工具集,还包括合作伙伴系统和解决方案。我们将提供一整套API,使合作伙伴能够与我们为某中心提供的相同构建集成。”

异构环境中的简化

虽然数据管理服务仍处于早期阶段,但预览期间来自用户的反馈已经表明,它正在产生预期的效果,成为数据科学家、分析师、工程师和其他与数据交互的人员寻找所需信息的单一场所。

此外,她补充道,虽然某中心一直意识到数据管理是一个异构环境,但数据管理服务团队已经看到了使数据管理服务与用户熟悉和信任的工具和数据源协同工作的好处。

“异构环境中的简化对用户来说是一个巨大的好处,”经理表示。

未来,团队将继续扩展数据管理服务与第三方数据工具和源的集成。此外,团队将继续专注于通过自动化引入额外的简化,使数据更易于发现、更易于理解,并促进洞察的提取。

“我们真正希望降低非技术数据用户和数据人员进入数据分析的门槛,”经理表示。“我们将使他们编目数据、查找数据和使用数据变得越来越容易。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计