数据织物概念解析
“数据织物"这一术语在科技行业中被广泛使用,但其定义和实施方式各不相同。从各大厂商的实践来看:
- 英国电信(BT)在分析师会议上讨论了他们的数据织物
- NetApp在存储领域将品牌重新定位为智能基础设施,此前也使用过这一术语
- 应用平台供应商Appian拥有数据织物产品
- 数据库提供商MongoDB也在讨论数据织物及相关概念
核心架构原理
数据织物的核心是一个统一架构,通过抽象和集成不同的数据源来创建无缝的数据层。其原理是在不同的数据源与需要访问数据的工作负载(应用程序、工作负载,以及日益增多的AI算法或学习引擎)之间创建统一的同步层。
实施挑战与差异
理想很美好,但现实是数据织物的原则与实际实施之间存在差距。不同厂商对数据织物的理解各不相同:
- BT:将数据织物定义为网络级覆盖层,旨在优化长距离数据传输
- NetApp:(即使使用智能数据基础设施术语)强调存储效率和集中管理
- Appian:将其数据织物产品定位为应用层数据统一工具,加速面向用户工具的开发和定制
- MongoDB:在数据管理基础设施背景下考虑数据织物原则
历史技术对比
回顾过去几十年,我们可以看到与服务导向架构原则的相似之处,后者旨在将服务提供与数据库系统解耦。当时我们讨论了服务、流程和数据之间的区别,这些概念在今天同样适用。
网络加速的起源也值得借鉴,它通过缓存技术在本地保存数据版本来加速数据传输,而不是重复访问源数据。Akamai就是基于如何高效长距离传输非结构化内容(如音乐和电影)构建了其业务。
现代数据织物的新特性
在技术层面,我们处于一个不同的(基于云的)世界,数据织物带来了新的方面,特别是在元数据管理、血缘追踪、合规性和安全功能方面。这些对于AI工作负载尤其关键,因为数据治理、质量和来源直接影响模型的性能和可信度。
实施建议
如果您考虑部署数据织物,最佳起点是思考数据的用途。这不仅有助于确定最适合的数据织物类型,还能避免试图管理世界上所有数据的陷阱。
可以根据需求选择不同层级的数据织物:
- 网络层:集成多云、本地和边缘环境中的数据
- 基础设施层:如果数据集中在一个存储供应商,专注于存储层以提供一致的数据池
- 应用层:为特定应用或平台整合不同的数据集
实践案例
以BT为例,他们发现使用数据织物整合来自多个来源的数据具有内部价值。这减少了重复,有助于简化操作,使数据管理更加高效。这显然是整合数据孤岛和改进应用合理化的有用工具。
结论
数据织物不是单一的一体化解决方案,而是一个战略概念层,由产品和功能支持,可以在最有意义的地方应用以增加灵活性和改进数据交付。部署数据织物不是"设置即忘记"的练习:它需要持续的努力来规划范围、部署和维护——不仅是软件本身,还包括数据源的配置和集成。
虽然数据织物在概念上可以存在于多个地方,但重要的是不要不必要地重复交付工作。因此,无论您是在网络、基础设施还是应用层整合数据,原则都是相同的:在最适合需求的地方使用它,并使其能够随着所服务的数据而演进。