智能体AI:存储与“IT史上最大的技术革新”
随着智能体人工智能(AI)的发展,我们可能正面临历史上最大的技术更新事件,每个组织可能为每位员工部署多达2,000个AI代理。
为了满足这一需求,整个IT基础设施——尤其是存储——将受到影响。 这些是Vast Data联合创始人Jeff Denworth的观点,他在本期播客中讨论了智能体AI基础设施对IT部门带来的挑战,智能体AI对存储的挑战,以及客户如何开始在其数据中心和云中应对这些挑战。 这包括在不过度采购的情况下非常谨慎地明确规划和配置基础设施,以及确保存储和计算与应用程序架构及数据库团队紧密协作。
智能体AI对IT基础设施带来了哪些额外挑战?
这是一个非常广泛的问题。但首先,我认为重要的是要指出,这在某些方面是一种全新的业务逻辑形式和新的计算形式。
因此,第一个问题就变成了:如果智能体系统是推理模型与执行任务的代理相结合,这些代理利用推理模型以及分配给它们帮助完成任务的不同工具……这些模型需要在非常高性能的机器上运行。
当今的AI基础设施通常在GPU(图形处理单元)和其他类型的AI加速器上运行效果最佳。因此,第一个问题就变成了:如何为这种新的计算形式准备计算基础设施?
在这里,客户谈论部署AI工厂和RAG(检索增强生成),而AI代理部署往往是人们开始部署这些AI工厂时考虑的初始用例。
这些是紧密耦合的系统,需要高速网络来互连非常、非常快速的AI处理器和GPU,然后将它们连接到您可能希望用来“喂养”这些代理的不同数据存储库和存储资源。
智能体基础设施的有趣之处在于,代理最终可以在许多不同的数据集上工作,甚至可以在不同的领域工作。您有两种类型的代理——工作代理,以及其他作为监督者或监督代理的代理。
例如,也许我想做一些简单的事情,比如在审查所有客户对话以及可能为我的预测提供信息的不同数据库或数据集时,为我的产品制定销售预测。
那么,这将使我拥有在一些不同的独立数据集上工作和处理的代理,这些数据集甚至可能不在我的数据中心内。一个很好的例子是,如果您想让某个东西去处理Salesforce中的数据,监督代理可能会使用一个已部署在Salesforce.com内的代理,去处理它想要处理数据的业务系统的那部分。
所以,第一个问题就变成了:如何定义这个流水线?如何确定您可能想要处理的所有各种数据源的范围?如何为所谓的名义工作负载确定规模,以便为稳定状态提供足够的计算资源?
然后,关于计算的讨论会将您引向数据中心和电力基础设施准备情况的道路,这完全是另一回事,因为一些新系统——例如,Nvidia的GB200和L72系统——是非常紧密耦合的GPU机架,它们之间具有非常高速的网络。这些系统每个数据中心机架需要大约120kW的功率,这是大多数客户所不具备的。
然后您开始仔细考虑我的GPU需求以及我可以在哪里部署它们?在托管机房?在我拥有的数据中心里?是否可能托管在某个云或新云环境中?新云是这些在AI时代诞生的新型AI云。当人们考虑开始部署智能体工作负载时,决策的方方面面都会发挥作用。
智能体AI中,存储基础设施面临的关键挑战是什么?
嗯,就像第一个问题一样,这确实是多方面的。
我认为首先要评估的是智能体AI中的存储是什么?自从人们开始训练AI模型以来,这一点已经发生了根本性的变化。大多数人通常认为,如果你有一个良好且快速的文件系统,那就足够了。因此,这里的区别在于,当人们在AI意义上进行训练甚至微调时,这些通常是非常精心策划的数据集,被输入到AI机器中,你等待几个小时或几天,然后就会产生一个新模型。
这就是你与底层存储系统的交互水平,除此之外,存储系统还需要能够捕获间歇性检查点,以确保如果集群发生故障,你可以从作业的某个时间点恢复并重新开始。
如果你考虑代理,用户登录系统并发出提示,该提示随后将派遣代理执行某种几乎不可预测的计算,AI模型随后会去查找并处理不同的辅助数据集。
客户需要的不仅仅是传统存储,如文件系统和对象存储。他们还需要数据库。如果你看到Databricks的一些公告,他们谈到AI系统现在创建的数据库比人类创建的还要多。当AI代理试图对大规模数据仓库进行推理时,数据仓库显得尤为重要。
因此,任何需要分析的东西都需要数据仓库。任何需要理解非结构化数据的东西不仅需要文件系统或对象存储系统,还需要向量数据库来帮助AI代理通过称为检索增强生成式AI的过程来理解那些文件系统中的内容。
首先需要解决的是调和这样一个观念:存在各种不同的数据源,所有这些数据源都需要现代化或准备好迎接即将冲击这些数据源的AI计算。
我喜欢审视市场中哪些发生了变化,哪些没有变化。确实,以使用推理代理的新应用程序的形式部署了各种新的应用程序,它们将推理模型作为其业务逻辑的一部分。但也有许多传统应用程序现在正在升级以支持这种新型的AI计算。
因此,我们的一般结论是,未来的每一个商业应用程序都将嵌入某种AI组件。并且还会出现一大批我们尚未计划或尚不存在的、同样以AI为中心的新应用程序。
共同的线索是,在应用程序级别上,一种新风格的计算正在一种新型处理器上发生,这种处理器历史上在企业中并不流行,那就是GPU或AI处理器。但我认为人们没有意识到的是,他们将在其上处理的数据集是大量的历史数据。
因此,尽管现代化数据中心的机会在应用程序级别和处理器级别或计算级别上是“绿地”机会,但[也存在]现代化传统数据基础设施的“棕地”机会,这些基础设施如今承载着价值和信息,而这些AI代理和推理模型将寻求围绕其进行处理。
然后问题就变成了,我为什么要进行现代化改造?这对我为什么重要?这就是规模重新回到等式中的地方。
我认为重要的是要审视我们在智能体工作流程方面的现状,以及这将如何影响企业。可以公平地说,几乎任何常规的或流程导向的业务方法都将尽可能实现自动化。
现在有很多组织的例子,它们考虑的不是在整个企业部署几个代理,而是数十万个,在某些情况下是数亿个代理。
例如,Nvidia曾公开声明,他们将在未来几年内部署1亿个代理。而那是在他们组织拥有5万名员工的时候。现在,如果我把这两个说法放在一起,你得到的是大约2000比1的AI代理与员工比率,你可能需要为此进行规划。
如果这是真的,一家拥有1万名员工的公司将需要大规模超级计算基础设施来处理这种级别的代理活动。因此,我从驱动基础设施现代化的因素来思考这个问题。如果仅仅一半或一小部分这种级别的AI代理规模开始冲击一个标准企业,那么每一个承载其数据的传统系统都将无法支持来自这种级别机器所带来的计算强度。
正是这一点让我们认为,我们可能正在开启历史上可能是世界上最大的技术更新事件。可能在AI进入市场之前,最近的一次是虚拟化,它在存储和数据库级别创造了新的需求。对于AI来说,同样的情况似乎也是真实的,因为我们合作的不同客户开始为大规模智能体部署重新思考数据和存储基础设施。
客户如何确保其基础设施能够胜任智能体AI的工作?
这肯定需要一定程度的专注和对客户工作负载的理解。
但我看到市场上发生的另一件事是过度调整,即基础设施从业者不一定理解来自新业务逻辑或AI研究的需求。
因此,他们往往会对未知因素进行过度补偿。这也相当危险,因为当组织意识到“好吧,我们在这里买多了,在这里买错了东西”时,这会给开始推进不同AI计划的组织留下不好的印象。
我要说的第一点是,市场上存在最佳实践,绝对应该遵守。例如,Nvidia在帮助阐明客户需求并根据不同的GPU定义进行规模规划方面做得非常出色,这样客户就可以构建通用、优化但不一定过度设计的的基础设施。
我要说的第二点是,混合云策略绝对需要协调,不仅仅是为了基础设施即服务——我是在自己的数据中心部署东西,还是在不同的AI云或公有云中部署一些东西?——还包括不同的SaaS(软件即服务)服务。
原因是很多智能体工作将在那里发生。例如,现在Slack拥有自己的AI服务。几乎任何主要的SaaS产品也都包含一个AI子组件,其中包含一定数量的代理。最好的做法是与应用程序架构师团队坐下来讨论,我们的许多存储客户并不一定都与他们有密切联系。
第二件事是与数据库团队坐下来讨论。为什么?因为在这个智能体计算的世界里,企业数据仓库需要被重新思考和构想,而且还需要新型的数据库,即向量数据库。这些在基础设施和计算以及存储级别都有不同的要求。
最后,需要围绕数据中心和跨不同云将发生的事情进行一些协调。您需要与您合作的不同供应商交谈。这一点以及帮助人们应对这一切的整个实践。
我们大约在全球支持着120万个GPU,并且在规模确定以及通过了解如何持续扩展来使数据系统面向未来方面,存在着各种有趣的方法,前提是不同的AI项目能够坚持下去并被证明是成功的。