AI项目成功的关键:存储技术深度解析

本文深入探讨人工智能项目对数据存储的关键需求,包括训练与推理阶段的存储挑战、向量数据库的容量膨胀问题、QLC闪存的技术优势,以及如何通过优化存储架构提升AI项目成功率并降低能耗。

根据市场研究机构Dell’Oro的数据,超大规模云服务提供商计划到2028年在针对人工智能优化的硬件上投入1万亿美元。

与此同时,企业正在人工智能领域投入巨资,2024年数据中心硬件支出因AI项目计划创下历史新高。IDC发现,亚洲百强企业计划将50%的IT预算用于AI。 尽管如此,成功并非仅靠资金投入就能实现。 许多AI项目最终失败。 例如,Gartner报告称近三分之一的AI项目因未能实现任何商业价值而被放弃——其对代理式AI的预测甚至更为悲观。

那么,组织如何确保AI项目获得最大成功机会?又如何评估支持AI所需的存储?

AI处理对存储的需求是什么?

首先来看AI及其对计算和存储的需求。 广义上,AI处理分为两类:

  • 训练:从模型数据集生成识别能力,具有不同程度的人工监督
  • 推理:将训练好的模型应用于真实世界数据集

然而,成功AI项目的组成部分早在训练之前就已开始。 这里我们讨论数据收集和准备,数据集性质可能差异巨大,包括备份数据、非结构化数据、结构化数据以及整理到数据仓库中的数据。数据可能长期保存,并通过漫长而周密的过程为AI训练做准备,也可能因意外需求而需要快速获取。

换句话说,AI数据形式多样,在访问方面产生不可预测的需求。 AI在资源消耗方面非常"饥饿"。

图形处理器(GPU)的贪婪性众所周知。例如,据报道Meta训练其开源Llama 3.1大语言模型时,在16,000个GPU上花费了约4,000万GPU小时。我们将在下文讨论这对存储的影响。

这很大程度上是因为AI使用向量化数据。简单来说,在训练模型时,被训练数据集的属性被转换为向量化——高维度——数据。 这意味着数据(如图像数据集的众多特征)被转换为多轴上有序的数据点集,以便进行比较、计算彼此接近度并确定相似性。

结果是向量数据库的数据集大小相比源数据显著增长,可能高达10倍。所有这些都必须存储在某个地方。

此外还有频繁的检查点保存,以便从故障中恢复、在需要调整结果时回滚到模型先前版本,以及为合规目的展示训练透明度。检查点大小因模型大小和所需检查点数量而异,但很可能为存储容量需求增加显著的数据量。

还有检索增强生成(RAG),它用组织内部数据增强模型,这些数据与特定行业垂直领域或学术专业相关。这里再次依赖数据集的向量化,以便将其集成到整体架构中。

为最大化AI成功机会,组织需要确保有能力存储AI训练所需数据及其输出结果,同时优化存储以便将能量 conserved 用于数据处理而非保留在存储阵列中

所有这些都发生在AI模型投入生产之前。

接下来是推理,这是AI的生产端,模型使用未见过的数据得出结论或提供洞察。 推理的资源需求要少得多,特别是在处理方面,但结果仍必须存储。

同时,虽然必须为训练和推理保留数据,但我们还必须考虑AI用例的功耗特征。 这个特征很显著。有来源称AI处理的能耗比传统任务型软件高出30倍以上,到2030年数据中心能源需求预计将增加一倍以上。

在机架层面,报告显示每机架千瓦(kW)使用量已从个位数或十几千瓦跃升至100kW。这是巨大的跃升,归因于训练期间GPU的高耗电特性。 这里的含义是:分配给存储的每瓦特电力都会减少AI集群中可供电的GPU数量。

AI需要哪种存储?

AI中数据存储的任务是维持向GPU的数据供应,确保其得到最佳利用。存储还必须具备保留大量数据的能力,并能快速访问。快速访问是喂养GPU的要求,也是确保组织能够快速查询新数据集的要求。

这很可能意味着需要闪存存储以实现快速访问和低延迟。容量显然随工作负载规模而异,但数百TB甚至PB都是可能的。

高密度四层单元(QLC)闪存已成为通用存储的有力竞争者,在某些情况下甚至用于可能被视为"次要"的数据集,如备份数据。使用QLC意味着客户可以以更低成本在闪存上存储数据。虽然不及机械硬盘低,但QLC具备为AI工作负载更快访问数据的能力。

在某些情况下,存储供应商提供经认证可与Nvidia计算协同工作的AI基础设施捆绑包,这些包包含针对AI工作负载优化的存储以及使用Nvidia微服务的RAG管道。

云也常被用于AI工作负载,因此还应评估存储供应商与云存储的集成。将数据保存在云中也带来了可移植性,数据能够被移动到更接近处理位置的地方。

AI项目通常从云开始,因为能够利用按需处理资源。之后,本地启动的项目可能需要突发到云,因此寻找能够提供无缝连接以及数据中心与云存储环境同质化的提供商。

AI成功需要正确的基础设施

我们可以得出结论:在企业级成功实现AI不仅仅需要正确的技能和数据中心资源。 AI在数据存储和能源使用方面极其"饥饿"。因此,为最大化成功机会,组织需要确保有能力存储AI训练所需数据及其输出结果,同时优化存储以便将能量 conserved 用于数据处理而非保留在存储阵列中。

正如我们所看到的,通常是闪存存储——尤其是QLC闪存——提供了快速访问、高密度和能源效率,为成功提供了最佳机会。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计