智能体AI:存储与“IT史上最大的技术革新”
我们与Vast Data的Jeff Denworth进行了对话,探讨了一个员工数量将被人工智能代理超越的未来,即使是小型企业也可能需要超级计算级别的资源。
随着智能体人工智能(AI)的发展,我们可能正面临历史上最大的技术更新事件,每个组织可能为每位员工部署多达2,000个代理。
为了满足这一需求,整个IT基础设施——尤其是存储——将受到影响。
这些是Vast Data联合创始人Jeff Denworth的观点,他在本期播客中讨论了智能体AI基础设施对IT部门的挑战、智能体AI对存储的挑战,以及客户如何开始在其数据中心和云中应对这些挑战。
这包括在不过度采购的情况下非常谨慎地明确指定和配置基础设施,以及确保存储和计算与应用程序架构及数据库团队紧密配合。
智能体AI对IT基础设施带来了哪些额外挑战?
这是一个非常广泛的问题。但首先,我认为重要的是要指出,这在某些方面是一种全新的业务逻辑形式和新的计算形式。
因此,第一个问题是,如果智能体系统是推理模型与代理的结合,这些代理通过利用推理模型以及分配给它们帮助完成任务的不同工具来执行任务……这些模型需要在非常高性能的机器上运行。
当今的AI基础设施通常在GPU(图形处理单元)和其他类型的AI加速器上运行得最好。因此,第一个问题就变成了:如何为这种新的计算形式准备计算基础设施?
在这里,客户谈论部署AI工厂和RAG(检索增强生成),而AI代理部署往往是人们开始部署这些AI工厂时想到的初始用例。
这些是紧密耦合的系统,需要高速网络来互连非常快的AI处理器和GPU,然后将它们连接到您可能想要用来喂养这些代理的不同数据存储库和存储资源。
智能体基础设施的有趣之处在于,代理最终可以在许多不同的数据集上工作,甚至可以在不同的领域工作。您有两种类型的代理——工作代理和其他作为主管或监督代理的代理。
例如,也许我想做一些简单的事情,比如在审查所有客户对话以及可能为我的预测提供信息的不同数据库或数据集时,为我的产品制定销售预测。
那么,这将需要我让代理在多个不同的独立数据集上工作和处理,这些数据集甚至可能不在我的数据中心内。一个很好的例子是,如果您想让某个东西去处理Salesforce中的数据,监督代理可能会使用一个已在Salesforce.com内部部署的代理,去处理它想要处理数据的业务系统的那部分。
因此,第一个问题就变成了:如何定义这个流水线?如何确定您可能想要处理的所有各种数据源的范围?如何为所谓的标称工作负载进行规模规划,以便您有足够的计算资源来应对稳定状态?
当人们认为他们想要开始部署智能体工作负载时,有许多不同的决策层面会发挥作用。
Jeff Denworth, Vast Data
然后,关于计算的讨论会将您引向数据中心和电力基础设施准备情况的路径,这完全是另一回事,因为一些新系统——例如,Nvidia的GB200和L72系统——是非常紧密耦合的GPU机架,它们之间具有非常高速的网络。这些系统每个数据中心机架需要大约120kW的电力,而大多数客户并不具备这样的条件。
然后您开始仔细考虑我的GPU需求以及我可以在哪里部署它们?在托管机房?在我拥有的数据中心里?是否可能托管在某个云或新云环境中?新云是这些在AI时代诞生的新型AI云。当人们认为他们想要开始部署智能体工作负载时,有许多不同的决策层面会发挥作用。
智能体AI中,存储基础设施面临的关键挑战是什么?
嗯,就像第一个问题一样,这确实是多方面的。
我认为首先要评估的是,在智能体AI中,存储是什么?自从人们开始训练AI模型以来,这一点已经发生了根本性的变化。大多数人通常认为,如果你有一个好的、快速的文件系统,那就足够了。因此,这里的区别在于,当人们在AI意义上进行训练甚至微调时,这些通常是非常精心策划的数据集,被输入到AI机器中,你等待几个小时或几天,就会产生一个新模型。
这就是你与底层存储系统的交互水平,除此之外,存储系统还需要能够捕获间歇性检查点,以确保如果集群发生故障,你可以从作业的某个时间点恢复并重新开始。
如果你考虑代理,用户登录系统并发出提示,该提示随后将派遣代理执行某种几乎不可预测的计算,AI模型随后会去寻找并处理不同的辅助数据集。
客户需要的不仅仅是传统存储,如文件系统和对象存储。他们还需要数据库。如果你看到Databricks的一些公告,他们谈论的是AI系统现在创建的数据库比人类创建的还要多。当AI代理寻求跨大规模数据仓库进行推理时,数据仓库尤其重要。
因此,任何需要分析的东西都需要数据仓库。任何需要理解非结构化数据的东西不仅需要文件系统或对象存储系统,还需要向量数据库来帮助AI代理通过称为检索增强生成AI的过程来理解那些文件系统中的内容。
需要解决的第一个问题是调和这样一种观念:存在各种不同的数据源,所有这些数据源都需要现代化或准备好迎接即将冲击这些数据源的AI计算。
我喜欢审视市场上哪些东西变了,哪些没变。确实,有各种新的应用程序正在以使用推理代理的新应用程序的形式部署,它们使用推理模型作为其业务逻辑的一部分。但也有许多传统应用程序现在正在升级以支持这种新型的AI计算。
因此,我们的一般结论是,未来每一个业务应用程序都将嵌入某种AI组件。并且还会出现一大批我们尚未计划或尚不存在的、同样以AI为中心的新应用程序。
共同的线索是,在应用程序层面上,一种新风格的计算正在一种新型处理器上发生,这种处理器历史上在企业内部并不流行,那就是GPU或AI处理器。但我认为人们没有意识到的是,他们将要处理的数据集是大量的历史数据。
因此,虽然在应用程序层面和处理器层面或计算层面,现代化数据中心的机会是绿地机会,但[存在]现代化传统数据基础设施的棕地机会,这些基础设施目前承载着这些AI代理和推理模型将要处理的价值和信息。
我们可能正在开启历史上可能是世界上最大的技术更新事件。
Jeff Denworth, Vast Data
那么问题就变成了,我为什么要进行现代化改造,这对我为什么重要?这就是规模因素重新发挥作用的地方。
我认为重要的是要审视我们在智能体工作流程方面的现状,以及这将如何影响企业。可以公平地说,几乎所有常规的或流程导向的业务方法都将尽可能地被自动化。
现在有很多组织的例子,它们考虑的不是在整个企业部署几个代理,而是数十万个,在某些情况下是数亿个代理。
例如,Nvidia曾公开声明,他们将在未来几年内部署1亿个代理。而那时他们的组织将有5万名员工。现在,如果我把这两个声明放在一起,你得到的大致是2000个AI代理对1名员工的比例,你可能需要为此进行规划。
如果这是真的,一家拥有1万名员工的公司将需要大规模超级计算基础设施来处理这种级别的代理活动。因此,我从驱动基础设施现代化的因素来思考这个问题。如果仅仅是一半或一小部分这种级别的AI代理规模开始冲击一个标准企业,那么每一个承载其数据的传统系统都将无法支持来自这种级别机器所产生的计算强度。
这正是让我们认为我们可能正在开启历史上可能是世界上最大的技术更新事件的原因。可能直到AI进入市场之前,最近的一次是虚拟化,它在存储和数据库层面创造了新的需求。对于AI来说,同样的情况似乎也是真实的,因为我们合作的不同客户开始为大规模智能体部署重新思考数据和存储基础设施。
客户如何确保其基础设施能够胜任智能体AI的工作?
这肯定需要一定程度的专注和对客户工作负载的理解。
但我看到市场上发生的另一件事是过度调整,即基础设施从业者不一定理解来自新业务逻辑或AI研究的需求。
因此,他们倾向于对未知情况进行过度补偿。这也相当危险,因为当组织意识到,好吧,我们在这里买多了,我们在这里买错了东西时,这会给开始启动不同AI计划的组织留下不好的印象。
我要说的第一点是,市场上存在最佳实践,绝对应该遵守。例如,Nvidia在帮助阐明客户需求并根据不同的GPU定义进行规模规划方面做得非常出色,这样他们就可以构建通用、优化但不一定过度设计的的基础设施。
我要说的第二点是,混合云策略绝对需要协调,不仅仅是为了基础设施即服务——我是在自己的数据中心部署东西?还是在不同的AI云或公共云中部署一些东西?——还包括不同的SaaS(软件即服务)服务。
原因是很多智能体工作将在那里发生。例如,你现在有Slack,它内部有自己的AI服务。几乎任何主要的SaaS产品也都有一个包含一定数量代理的AI子组件。最好的做法是与应用程序架构师团队坐下来讨论,我们的许多存储客户并不一定都与他们有密切联系。
第二件事是与数据库团队坐下来。为什么?因为在这个智能体计算的世界里,企业数据仓库需要被重新思考和构想,而且还需要新型的数据库,即向量数据库。这些在基础设施、计算以及存储层面都有不同的要求。
最后,需要就数据中心和跨不同云将发生的情况进行一些协调。你需要与你合作的不同供应商交谈。这一点以及帮助人们应对此事的整个实践。
我们已经在全球范围内为大约120万个GPU提供支持,并且有各种有趣的方法,不仅涉及规模规划,还涉及通过理解如何持续扩展来使数据系统面向未来,如果不同的AI项目站稳脚跟并被证明是成功的。