某中心数据管理服务如何帮助客户从海量数据中发现价值
该服务现已全面上市,通过机器学习技术使数据的编目、发现、共享和管理变得更加快速和简便。
全球每年创建、捕获、复制和消费的数据总量正在快速增长,据Statista预测,2023年将达到120泽字节(ZB)。相比2013年的9泽字节大幅增长(作为参考,1泽字节约相当于5000亿部电影)。全球各组织都希望利用这一数据洪流带来的机遇:构建数据基础,将其用于人工智能(AI)模型,并从中获得洞察。Forrester的研究显示,经验丰富的数据驱动型企业在2021年实现20%收入增长的可能性是初学者的8.5倍。然而根据《哈佛商业评论》,仅有26.5%的企业成功将数据视为战略资产。
为帮助客户应对数据管理挑战,某中心推出了数据管理服务,使跨某中心、客户本地或第三方源存储的数据编目、发现、共享和管理变得更加快速和简便。该服务现已宣布全面上市。
数据管理的多重挑战
约三年前,技术团队认识到需要新的数据管理解决方案。当时多个团队都遇到了相同的数据管理问题:如何发现、共享和管理位于孤岛数据库中的数据。另一个持续存在的挑战是数据及其描述元数据以技术格式存储,并针对强大分析工具进行了优化。这两个现实使得非技术用户难以发现、组织数据并从中获取有价值洞察。
此外,客户可能会花费数小时筛选难以解析的数据,面临忽略关键数据片段的风险。这正是数据管理服务的用武之地——该服务连接孤岛数据资产,使客户能够快速发现组织内的数据集。
自动化元数据生成
自动化元数据生成是该服务的核心功能。通常客户需要手动添加元数据以使数据可发现和可理解。这种工作繁琐、容易出错且难以扩展。这些元数据通常使用大量行话和缩写,显得晦涩难懂。
技术团队采用机器学习技术,自动从数据集中这些晦涩名称生成可理解的业务名称。为实现这一目标,研究团队创建了包含缩写列名和相应扩展标签的训练数据集,并用其微调大型语言模型。在服务中点击激活后,模型会自动生成非技术用户能够理解的列名扩展。
这种自动生成且易于理解的元数据使数据集更易于搜索,使特定数据对非技术用户更易发现。这种可发现性还降低了数据分析可能因不完整和难以理解的数据而受到损害的风险。
实现企业级协作
在服务预览期间,技术团队收到反馈:有些客户需要针对单个业务部门或业务线的工具,而其他客户则寻求企业级解决方案以实现更好的全局数据治理。
团队面临的另一个挑战是创建连接客户存储数据的不同位置与他们用于组织和分析数据的工具的接口。目标是让不同人员能够使用他们偏好的工具,即使在同一数据上协同工作。为实现这一目标,团队引入了新概念:数据项目,将人员、工具和数据聚集在一个协调安全性和访问策略的统一框架下。
数据项目的构建是服务引入的最大简化之一,不仅帮助客户在某中心生态中整合合适的工具集,还支持合作伙伴系统和解决方案。将提供完整的API套件,供合作伙伴能够与为某中心提供的相同构建集成。
异构环境中的简化
虽然服务仍处于早期阶段,但预览期间的客户反馈已经显示它正发挥预期效果:成为数据科学家、分析师、工程师和其他与数据交互人员寻找所需信息的单一场所。
技术团队认识到数据管理是异构环境,并看到让服务与客户熟悉和信任的工具及数据源协同工作的好处。这种跨异构环境的简化对客户来说是巨大优势。
未来,团队将继续扩展服务与第三方数据工具和源的集成。此外,团队将继续专注于通过自动化引入更多简化,使数据更易发现、更易理解,并促进洞察提取。
真正希望降低非技术数据用户和分析人员进入数据分析的门槛,使他们能够越来越轻松地编目数据、查找数据和使用数据。