AI项目成功的关键:存储基础设施深度解析

本文深入探讨人工智能项目对存储系统的特殊需求,包括训练与推理阶段的存储挑战、向量数据带来的容量激增、检查点机制以及RAG技术对存储架构的影响,并分析QLC闪存在AI工作负载中的性能与能效优势。

根据市场研究机构Dell’Oro的数据,超大规模云服务提供商计划在2028年前投入1万亿美元用于优化人工智能硬件。与此同时,企业正在AI领域投入巨资,2024年数据中心硬件支出因AI项目计划创下历史新高。IDC研究发现,亚洲百强企业计划将50%的IT预算用于AI。

然而,单纯投入资金并不能保证成功。高德纳报告显示,近三分之一的AI项目因未能实现商业价值而被放弃,其对代理式AI的预测更为悲观。

AI处理对存储的需求 AI处理主要分为两类:训练(从模型数据集生成识别能力)和推理(将训练好的模型应用于实际数据集)。成功的AI项目始于数据收集与准备阶段,数据集可能包含备份数据、非结构化数据、结构化数据及数据仓库中的精选数据。

AI处理极度消耗资源。以Meta训练开源大语言模型Llama 3.1为例,据报道消耗了约4000万GPU小时。这主要源于AI使用向量化数据——将数据集特征转换为高维向量数据,可能导致数据集规模扩大至原始数据的10倍。

此外,频繁的检查点机制(用于故障恢复、模型回滚和合规透明性)会显著增加存储容量需求。检索增强生成技术也需要对数据集进行向量化以集成到整体架构中。

AI需要何种存储 AI数据存储的核心任务是持续向GPU供应数据,确保其最优利用率。存储系统需具备大容量和快速访问能力,这意味着需要采用闪存存储以实现低延迟访问。容量可能达到数百TB甚至PB级别。

高密度QLC闪存已成为通用存储的有力竞争者,即使对于备份等“次要”数据集也是如此。QLC能够在保持快速数据访问的同时,以低于传统硬盘的成本存储数据。

部分存储供应商提供经Nvidia认证的AI基础设施套件,包含针对AI工作负载优化的存储和采用Nvidia微服务的RAG流水线。云存储也常被用于AI工作负载,其数据可移植性允许将数据转移到更接近处理位置的地方。

成功AI需要正确基础设施 企业级AI成功不仅需要专业技能和数据中心资源。AI在数据存储和能源消耗方面需求极大。为确保成功,组织既需要足够容量存储训练数据及输出结果,也需优化存储以节省能源用于数据处理而非存储阵列运行。

正如我们所看到的,闪存存储——特别是QLC闪存——能够通过快速访问、高密度和能源效率为AI项目提供最佳成功机会。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计