智能体AI:存储与“IT史上最大技术革新”
随着智能体人工智能(AI)的发展,我们可能正面临历史上最大规模的技术更新事件——每个组织可能为每位员工部署高达2,000个AI代理。
为满足这一需求,整个IT基础设施(尤其是存储系统)将受到深远影响。这些观点来自Vast Data联合创始人Jeff Denworth,他在本期播客中探讨了智能体AI基础设施对IT部门的挑战、智能体AI对存储的特殊要求,以及客户如何开始应对这些跨数据中心和云的挑战。
这包括在不过度采购的前提下精确规划和配置基础设施,同时确保存储与计算能够与应用架构及数据库团队紧密协作。
智能体AI对IT基础设施带来哪些额外挑战?
这是一个非常广泛的问题。但首先需要指出的是,从某些方面来看,这完全是一种全新的业务逻辑形式和计算形式。
第一个问题就变成了:如果智能体系统是由推理模型与执行任务的代理组成,这些代理利用推理模型以及分配给它们的各种工具来完成任务……那么这些模型就需要在非常高性能的机器上运行。
当今的AI基础设施通常在GPU(图形处理单元)和其他类型的AI加速器上运行效果最佳。因此,首要问题就变成了:如何为这种新计算形式准备计算基础设施?
在这里,客户讨论部署AI工厂和RAG(检索增强生成),而AI代理部署往往是人们开始部署这些AI工厂时最初考虑的使用场景。
这些是紧密耦合的系统,需要高速网络来互连非常快速的AI处理器和GPU,然后将它们连接到不同的数据存储库和存储资源,以便为这些代理提供数据。
智能体基础设施的有趣之处在于,代理最终可以在多个不同的数据集上工作,甚至可以在不同的领域工作。代理大致分为两种类型——工作代理和其他作为监督者或监督代理的代理。
例如,我可能想做些简单的事情,比如在审查所有客户对话和可能为我预测提供信息的不同数据库或数据集时,为我的产品制定销售预测。
这将需要让代理在多个不同的独立数据集上工作和处理,这些数据集甚至可能不在我的数据中心内。一个很好的例子是,如果你想让某个代理去处理Salesforce中的数据,监督代理可能会使用一个已在Salesforce.com内部部署的代理,去处理它想要处理数据的业务系统的那部分。
所以,第一个问题就变成了:如何定义这个流水线?如何确定所有可能想要处理的各种数据源的范围?如何为所谓的常规运营工作负载确定规模,以便为稳定状态提供足够的计算资源?
然后,关于计算的讨论会将你引向数据中心和电力基础设施准备情况的路径,这完全是另一回事,因为一些新系统——例如Nvidia的GB200和L72系统——是非常紧密耦合的GPU机架,它们之间具有非常高速的网络。这些系统每个数据中心机架需要大约120kW的电力,而大多数客户并不具备这样的条件。
然后你开始仔细考虑我的GPU需求以及我可以在哪里部署它们?在托管机房?在我拥有的数据中心里?还是可能托管在某个云或新云环境中?新云是这些在AI时代诞生的新型AI云。当人们考虑开始部署智能体工作负载时,决策的方方面面都会发挥作用。
智能体AI中,存储基础设施面临的关键挑战是什么?
和第一个问题一样,这确实是多维度的。
我认为首先要评估的是智能体AI中的存储是什么?自从人们开始训练AI模型以来,这一点已经发生了根本性的改变。大多数人通常认为,如果你有一个良好且快速的文件系统,那就足够了。这里的区别在于,当人们在AI意义上进行训练甚至微调时,这些通常是经过精心整理的数据集,被输入到AI机器中,你等待几小时或几天,就会产生一个新模型。
这就是你与底层存储系统的交互水平,除此之外,存储系统还需要能够捕获间歇性检查点,以确保如果集群发生故障,你可以从作业的某个时间点恢复并重新开始。
如果你考虑代理,用户登录系统并发出提示,该提示随后将派遣代理执行某种几乎不可预测的计算,AI模型随后会去查找并处理不同的辅助数据集。
客户需要的不仅仅是传统存储,如文件系统和对象存储。他们还需要数据库。如果你看到Databricks的一些公告,他们谈到AI系统现在创建的数据库比人类创建的还要多。当AI代理寻求跨大规模数据仓库进行推理时,数据仓库显得尤为重要。
因此,任何需要分析的东西都需要数据仓库。任何需要理解非结构化数据的东西不仅需要文件系统或对象存储系统,还需要向量数据库来帮助AI代理通过称为检索增强生成式AI的过程来理解那些文件系统中的内容。
首先需要解决的是调和这样一种观念:存在各种不同的数据源,所有这些数据源都需要现代化或为即将冲击这些数据源的AI计算做好准备。
我喜欢审视市场中哪些发生了变化,哪些没有发生变化。确实,以使用推理代理的新应用程序形式部署了各种新的应用程序,它们将推理模型作为其业务逻辑的一部分。但也有许多传统应用程序现在正在升级以支持这种新型的AI计算。
因此,我们的一般结论是,未来每一个商业应用程序都将嵌入某种AI组件。还会出现一大批我们尚未规划或尚不存在的、以AI为中心的新应用程序。
共同的思路是,在应用程序层面,一种新风格的计算正在一种新型处理器上发生,这种处理器历史上在企业中并不流行,那就是GPU或AI处理器。但我认为人们没有意识到的是,他们将要处理的数据集是大量的历史数据。
因此,尽管现代化数据中心的机会在应用程序层面和处理器层面或计算层面是绿地机会,但现代化传统数据基础设施则存在棕地机会,这些基础设施如今承载着价值和信息,而这些AI代理和推理模型将寻求处理这些数据。
然后问题就变成了:我为什么要进行现代化改造?这对我为什么重要?这就是规模问题重新回到等式中的地方。
我认为重要的是要审视我们在智能体工作流程方面所处的位置,以及这将如何影响企业。可以公平地说,几乎任何常规的或流程导向的业务方法都将尽可能实现自动化。
现在有很多组织的例子,它们考虑的不是在整个企业部署几个代理,而是数十万个,在某些情况下甚至是数亿个代理。
例如,Nvidia曾公开声明,他们将在未来几年内部署1亿个代理。而那时他们的组织将有5万名员工。现在,如果我把这两个声明放在一起,你得到的大致是2000个AI代理对1名员工的比例,你可能需要按这个比例进行规划。
如果这是真的,一家拥有1万名员工的公司将需要大规模超级计算基础设施来处理这种级别的代理活动。因此,我从驱动基础设施现代化的因素来思考这个问题。如果仅仅一半或一小部分这种级别的AI代理规模开始冲击一个标准企业,那么每一个承载其数据的传统系统都将无法支持来自这种级别机器所带来的计算强度。
这让我们认为,我们可能正在开始一场可能是世界上有史以来最大规模的技术更新事件。可能直到AI进入市场之前,最近的一次是虚拟化,它在存储和数据库层面创造了新的需求。对于AI来说,同样的情况似乎也是真实的,因为我们合作的不同客户开始重新思考用于大规模智能体部署的数据和存储基础设施。
客户如何确保其基础设施能够胜任智能体AI的工作?
这肯定需要一定程度的专注和对客户工作负载的理解。
但我看到市场上发生的另一件事是过度调整,即基础设施从业者不一定理解来自新业务逻辑或AI研究的需求。
因此,他们往往对未知因素过度补偿。这也相当危险,因为当组织意识到他们在这里过度采购,或者买错了东西时,这会给开始推进不同AI计划的组织留下不好的印象。
我要说的第一点是,市场上存在最佳实践,绝对应该遵守。例如,Nvidia在帮助阐明客户需求并根据不同的GPU定义进行规模规划方面做得非常出色,这样客户就可以构建通用且优化、但不一定过度架构的基础设施。
我要说的第二点是,混合云策略绝对需要协调,不仅仅是为了基础设施即服务——我是在自己的数据中心部署一些东西?还是在不同的AI云或公有云中部署一些东西?——还包括不同的SaaS(软件即服务)服务。
原因是很多智能体工作将在那里进行。例如,你现在有Slack,它内部有自己的AI服务。几乎任何主要的SaaS产品也都有一个AI子组件,其中包括一定数量的代理。最好的做法是与应用程序架构师团队坐下来讨论,而我们很多存储客户并不一定都与他们有密切联系。
第二件事是与数据库团队坐下来讨论。为什么?因为在这个智能体计算的世界里,企业数据仓库需要被重新思考和构想,而且还需要新型的数据库,即向量数据库。这些在基础设施和计算层面以及存储层面都有不同的要求。
最后,需要围绕数据中心和跨不同云将发生的情况进行一些协调。你需要与你合作的不同供应商交谈。这一点以及帮助人们应对这一切的整个实践。
我们大约在全球支持着120万个GPU,并且在规模规划以及通过理解如何持续扩展来使数据系统面向未来方面,存在着各种有趣的方法,如果不同的AI项目站稳脚跟并被证明是成功的。