数据织物架构解析:打通数据源与工作负载的桥梁

本文深入解析数据织物架构的概念与实现,探讨其在网络层、基础设施层和应用层的不同应用场景,分析如何通过统一数据层整合异构数据源,并讨论数据织物在AI工作负载中的关键作用及实施策略。

数据织物概念解析

“数据织物"这一术语在科技行业中被广泛使用,但其定义和实施方式各不相同。从各大厂商的实践来看:

  • 英国电信(BT)在分析师会议上讨论了他们的数据织物
  • NetApp在存储领域将品牌重新定位为智能基础设施,此前也使用过这一术语
  • 应用平台供应商Appian拥有数据织物产品
  • 数据库提供商MongoDB也在讨论数据织物及相关概念

核心架构原理

数据织物的核心是一个统一架构,通过抽象和集成不同的数据源来创建无缝的数据层。其原理是在不同的数据源与需要访问数据的工作负载(应用程序、工作负载,以及日益增多的AI算法或学习引擎)之间创建统一的同步层。

实施挑战与差异

理想很美好,但现实是数据织物的原则与实际实施之间存在差距。不同厂商对数据织物的理解各不相同:

  • BT:将数据织物定义为网络级覆盖层,旨在优化长距离数据传输
  • NetApp:(即使使用智能数据基础设施术语)强调存储效率和集中管理
  • Appian:将其数据织物产品定位为应用层数据统一工具,加速面向用户工具的开发和定制
  • MongoDB:在数据管理基础设施背景下考虑数据织物原则

历史技术对比

回顾过去几十年,我们可以看到与服务导向架构原则的相似之处,后者旨在将服务提供与数据库系统解耦。当时我们讨论了服务、流程和数据之间的区别,这些概念在今天同样适用。

网络加速的起源也值得借鉴,它通过缓存技术在本地保存数据版本来加速数据传输,而不是重复访问源数据。Akamai就是基于如何高效长距离传输非结构化内容(如音乐和电影)构建了其业务。

现代数据织物的新特性

在技术层面,我们处于一个不同的(基于云的)世界,数据织物带来了新的方面,特别是在元数据管理、血缘追踪、合规性和安全功能方面。这些对于AI工作负载尤其关键,因为数据治理、质量和来源直接影响模型的性能和可信度。

实施建议

如果您考虑部署数据织物,最佳起点是思考数据的用途。这不仅有助于确定最适合的数据织物类型,还能避免试图管理世界上所有数据的陷阱。

可以根据需求选择不同层级的数据织物:

  • 网络层:集成多云、本地和边缘环境中的数据
  • 基础设施层:如果数据集中在一个存储供应商,专注于存储层以提供一致的数据池
  • 应用层:为特定应用或平台整合不同的数据集

实践案例

以BT为例,他们发现使用数据织物整合来自多个来源的数据具有内部价值。这减少了重复,有助于简化操作,使数据管理更加高效。这显然是整合数据孤岛和改进应用合理化的有用工具。

结论

数据织物不是单一的一体化解决方案,而是一个战略概念层,由产品和功能支持,可以在最有意义的地方应用以增加灵活性和改进数据交付。部署数据织物不是"设置即忘记"的练习:它需要持续的努力来规划范围、部署和维护——不仅是软件本身,还包括数据源的配置和集成。

虽然数据织物在概念上可以存在于多个地方,但重要的是不要不必要地重复交付工作。因此,无论您是在网络、基础设施还是应用层整合数据,原则都是相同的:在最适合需求的地方使用它,并使其能够随着所服务的数据而演进。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计