存储是AI项目成功的关键:技术架构与优化策略

本文深入探讨AI项目对存储系统的技术要求,包括训练与推理阶段的存储需求、向量数据库带来的数据膨胀问题、检查点机制以及RAG技术,并分析QLC闪存如何通过高密度和低延迟特性满足AI工作负载的存储需求。

根据市场研究机构Dell’Oro的数据,超大规模云服务提供商计划到2028年在针对人工智能优化的硬件上投入1万亿美元。

与此同时,企业正在人工智能领域投入巨资,2024年AI项目推动数据中心硬件支出创下纪录。IDC发现,亚洲前100大企业计划将50%的IT预算用于AI。

尽管如此,成功不仅仅取决于资金投入。许多AI项目最终失败。例如,Gartner报告称近三分之一的AI项目因未能实现任何商业价值而被放弃,并对代理式AI做出更悲观的预测。

AI处理对存储的需求

AI处理大致分为两类:训练(从模型数据集生成识别,具有不同程度的人工监督)和推理(将训练好的模型应用于现实世界数据集)。成功的AI项目在训练之前就开始了数据收集和准备工作,数据集可能包括备份、非结构化数据、结构化数据以及数据仓库中的整理数据。

AI处理资源消耗极大。当Meta训练其开源Llama 3.1大语言模型时,据报道在16,000个GPU上花费了约4,000万GPU小时。这主要是因为AI使用向量化数据,训练过程中数据集的属性被转换为高维向量数据,导致向量数据库的规模可能达到源数据的10倍。

此外,频繁的检查点机制允许从故障中恢复、回滚到模型先前版本,并为了合规目的展示训练透明度。检查点大小因模型大小和所需检查点数量而异,但会显著增加存储容量需求。

检索增强生成技术使用组织内部数据增强模型,这同样需要将数据集向量化以集成到整体架构中。

AI需要何种存储

AI中数据存储的任务是维持向GPU的数据供应,确保其得到最佳利用。存储还必须具备保留大量数据并能快速访问的能力。快速访问不仅是供给GPU的需求,也是确保组织能够快速查询新数据集的要求。

这很可能意味着需要闪存存储以实现快速访问和低延迟。容量显然会根据工作负载规模而变化,但可能达到数百TB甚至PB级别。

高密度四层单元闪存已成为通用存储的有力竞争者,在某些情况下甚至用于可能被视为“次要”的数据集,如备份数据。使用QLC意味着客户可以以较低成本在闪存上存储数据,虽然不如机械硬盘低廉,但QLC能够为AI工作负载提供更快速的数据访问。

某些存储供应商提供经认证可与Nvidia计算协同工作的AI基础设施套件,这些套件包含针对AI工作负载优化的存储以及使用Nvidia微服务的RAG流水线。

云也常被用于AI工作负载,因此还应评估存储供应商与云存储的集成。将数据保留在云端还带来了一定的可移植性,数据可以移动到更接近其处理位置的地方。

AI项目通常从云开始,因为可以利用按需提供的处理资源。随后,本地启动的项目可能需要扩展到云端,因此应寻找能够提供无缝连接以及数据中心与云存储环境一致性的提供商。

AI成功需要正确的基础设施

我们可以得出结论,在企业级成功实施AI不仅仅需要正确的技能和数据中心资源。AI在数据存储和能源消耗方面极为贪婪。因此,为了最大化成功机会,组织需要确保他们有能力存储AI训练所需的数据及其输出结果,同时还要优化存储以便将能源节约用于数据处理而非保留在存储阵列中。

正如我们所看到的,通常是闪存存储——尤其是QLC闪存——提供了快速访问、高密度和能源效率,为成功提供了最佳机会。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计