数据管理服务助力企业从海量数据中挖掘价值
全球每年创建、捕获、复制和消费的数据总量正在快速增长,预计2023年将达到120泽字节。世界各地的组织都希望利用这些数据带来的机遇:构建数据基础,将其用于人工智能模型,并从中获得洞察。
为了帮助客户应对数据管理挑战,某中心推出了数据管理服务,使跨平台存储的数据编目、发现、共享和管理变得更加快速和简便。该服务现已全面可用。
数据管理的多重挑战
三年前,技术团队认识到需要新的数据管理解决方案。当时多个团队都遇到了相同的数据管理问题:如何发现、共享和管理位于孤立数据库中的数据。
另一个持续存在的挑战是数据及其元数据以技术格式存储,并针对强大分析工具进行了优化。这使得非技术用户难以发现、组织数据并从中获取有价值的洞察。
自动化元数据生成
该服务的核心功能是自动化元数据生成。传统上,客户需要手动添加元数据以使数据可发现和可理解。
技术团队使用机器学习技术,从数据集中这些隐晦的名称自动生成易于理解的业务名称。为了实现这一目标,研究团队创建了一个包含缩写列名和相应扩展标签的训练数据集,并用它来微调大型语言模型。
在服务中点击激活后,模型会自动生成非技术用户可以理解的列名扩展。这种自动生成且易于理解的元数据的添加,使数据集更易于搜索,并使特定数据对非技术用户更具可发现性。
实现企业级协作
在服务预览期间,团队收到了反馈:有些客户需要适用于单个业务部门或业务线的工具,而其他客户则需要能够全面更好地管理数据的全企业解决方案。
团队面临的另一个挑战是创建一个接口,桥接客户存储数据的不同位置以及他们用于组织和分析数据的工具。目标是让不同的人能够使用他们偏好的工具,即使是在处理相同的数据时也是如此。
为了实现这一目标,团队引入了一个新概念:数据项目,将人员、工具和数据聚集在一个统一的保护伞下,协调安全和访问策略。
异构环境中的简化
虽然该服务仍处于早期阶段,但预览期间来自客户的反馈已经表明,它正在产生预期的效果:作为数据科学家、分析师、工程师和其他与数据交互的人员寻找所需信息的单一场所。
团队已经看到了让该服务与客户熟悉和信任的工具及数据源协同工作的好处。跨异构环境的简化对客户来说是一个巨大的好处。
展望未来,团队将继续扩展该服务与第三方数据工具和源的集成。此外,团队将继续专注于通过自动化引入额外的简化,使数据更易于发现、更易于理解,并促进洞察的提取。