AI存储：NAS vs SAN vs 对象存储用于训练与推理

人工智能（AI）依赖海量数据。承担AI项目的企业，尤其是针对大语言模型（LLM）和生成式AI（GenAI），需要捕获大量数据进行模型训练，并存储AI赋能系统的输出。

然而，这些数据不太可能位于单一系统或位置。客户将利用多个数据源，包括数据库中的结构化数据以及通常的非结构化数据。其中一些信息源位于本地，另一些则在云中。

为了应对AI对数据的渴求，系统架构师需要审视跨存储区域网络（SAN）、网络附加存储（NAS）以及可能包括对象存储的解决方案。本文探讨块存储、文件存储和对象存储在AI项目中的优缺点，以及为企业找到合适组合的挑战。

AI的数据山

当前一代AI项目很少（如果有的话）以单一数据源为特征。相反，生成式AI模型利用广泛的数据，其中许多是非结构化的。这包括文档、图像、音频、视频和计算机代码等。

Pure Storage的EMEA现场首席技术官Patrick Smith表示：“生成式AI的一切都是关于理解关系。您的源数据仍然在非结构化数据中，无论是文件还是对象，而您的向量化数据则位于块存储中。”

在训练LLM时，数据源越多越好。但同时，企业将LLM链接到自己的数据源，要么直接链接，要么通过检索增强生成（RAG）来提高结果的准确性和相关性。这些数据可能是文档，但也可以包括在关系数据库中保存数据的企业应用程序。

Smith补充说，这包括向数据库添加向量化，这通常由主要的关系数据库供应商（如Oracle）支持。

对于支持AI项目的系统架构师来说，这提出了在哪里最佳存储数据的问题。最简单的选择是保持数据源不变，但这并不总是可行。

这可能是因为数据需要进一步处理，AI应用程序需要与生产系统隔离，或者当前存储系统缺乏AI应用程序所需的吞吐量。

此外，向量化通常导致数据量大幅增加——增加10倍并不罕见——这对生产存储提出了更高要求。

这意味着存储需要灵活且能够扩展，并且AI项目的数据处理需求在每个阶段都不同。训练需要大量原始数据，推理——在生产中运行模型——可能不需要那么多数据，但需要更高的吞吐量和最小的延迟。

企业倾向于将大部分非结构化数据存储在文件访问NAS存储上。NAS具有相对低成本、易于管理和扩展的优点，优于直接附加存储（DAS）或块访问SAN存储等替代方案。

结构化数据更可能是块存储。通常这将在SAN上，尽管直接附加存储可能足以满足较小的AI项目。

在这里，实现最佳性能——就存储阵列的IOPS和吞吐量而言——抵消了NAS的更大复杂性。企业生产系统，如企业资源规划（ERP）和客户关系管理（CRM），将使用SAN或DAS将其数据存储在数据库文件中。因此，在实践中，AI的数据很可能来自SAN和NAS环境。

StorMagic的首席产品官Bruce Kornfeld说：“AI数据可以存储在NAS或SAN中。这完全取决于AI工具希望或需要访问数据的方式。您可以将AI数据存储在SAN上，但AI工具通常不会读取块。它们将使用一种文件访问协议来获取块数据。”

不一定一种协议比另一种更好。这在很大程度上取决于数据源的性质和AI系统的输出。

对于主要基于文档或图像的AI系统，NAS可能足够快。对于自动驾驶或监控等应用程序，系统可能使用SAN甚至高速本地存储。

同样，数据架构师还需要区分项目的训练和推理阶段，并考虑在存储系统之间移动数据的开销是否超过性能优势，尤其是在训练中。

这导致一些组织考虑使用对象存储作为统一AI数据源的方式。对象存储在企业中的使用日益增多，不仅限于云存储——本地对象存储也在获得市场份额。

对象存储对AI有一些优势，尤其是其扁平结构和全局命名空间、（相对）低管理开销、易于扩展和低成本。

然而，性能并不是对象存储的强项。这往往使其更适合归档等任务，而不是需要低延迟和高数据吞吐量的应用程序。

供应商正在努力缩小性能差距。Pure Storage和NetApp销售可以处理文件和对象存储的存储系统，在某些情况下还包括块存储。这些包括Pure的FlashBlade和运行NetApp OnTap存储操作系统的硬件。这些技术使存储管理人员能够灵活使用最佳数据格式，而不会创建与特定硬件绑定的孤岛。

其他公司，如Hammerspace及其超大规模NAS，旨在从运行网络文件系统（NFS）的设备中挤出额外性能。他们认为，这可以防止存储无法跟上数据饥渴的图形处理单元（GPU）的瓶颈。

但在性能更好的对象存储系统更广泛可用或更多企业转向通用存储平台之前，AI可能会结合使用NAS、SAN、对象甚至DAS。

也就是说，元素之间的平衡可能会在AI项目的生命周期中发生变化，并随着AI工具及其应用程序的发展而变化。

在Pure，Smith看到对非结构化数据新硬件的需求，而块和向量数据库的需求对大多数客户来说可以通过现有硬件满足。

他说：“生成式AI的一切都是关于理解关系。您的源数据仍然在非结构化数据中，无论是文件还是对象，而您的向量化数据则位于块存储中。”