采访:Pure Storage谈超越硬件的AI数据挑战
成功应对人工智能(AI)工作负载不仅仅是投入计算和存储资源。当然,您需要足够的处理能力以及以正确速率提供数据的存储,但在任何此类操作取得成功之前,确保用于AI训练的数据质量至关重要。
这是Pure Storage AI基础设施副总裁Par Botes的核心信息,我们在上周于拉斯维加斯举行的公司Accelerate活动上与他进行了交流。Botes强调,企业应对AI时需要捕获、组织、准备和对齐数据。这是因为数据通常可能不完整或不适合AI试图回答的问题。
我们与Botes讨论了数据工程、数据管理、数据湖屋的使用,以及确保数据集符合AI所解决问题的需求。
Pure Storage如何看待AI中即将出现的关键存储挑战?
我认为,如果没有一种非常好的方式来组织数据、捕获数据,然后准备数据并将其与处理元素(如图形处理单元GPU)对齐,以使它们能够足够快地访问数据,就很难创建使用AI解决问题的系统。
这些挑战的特别困难之处是什么?
我从最明显的一个开始:如何让GPU消费数据?GPU非常强大,它们驱动了大量的带宽。很难以我们消费数据的速度向GPU提供数据。这开始逐渐得到解决,尤其是在高端领域。但对于普通的企业类型公司来说,这些是他们必须实施的新型系统和新技能。
“随着数据的改进和洞察的变化,您的数据必须随之变化。因此,您的模型必须随之演进。这成为一个持续的过程。” — Par Botes, Pure Storage
这在科学方面不是一个难题,但在操作上是一个难题,因为这些在企业中并不长期存在的肌肉。
问题的下一部分是:如何准备我的数据?如何收集它?如何知道我有正确的数据?如何评估它?如何跟踪它?如何应用血统来查看这个模型是用这组数据训练的?如何知道它有一个完整的数据集?这是一个非常困难的问题。
这个问题是否因客户和工作负载而异?因为我可以想象,通过组织内的专业知识,您可能知道您拥有所有需要的数据。或者,在另一种情况下,可能不清楚您是否拥有。
在没有推理的情况下很难知道您是否拥有所有需要的数据。我给您一个例子。我花了多年时间构建自动驾驶汽车——感知网络、驾驶系统——但经常发现汽车在某些条件下表现不佳。道路向左转并略微上坡,周围有其他车辆。然后我们意识到我们没有足够的训练数据。因此,拥有一种原则性的方式来推理数据、推理完备性、推理数据范围,并拥有所有这些数据,并对其进行数学分析,这并不是高端培训公司之外超级常见的学科。
在研究了AI工作负载中容易出现的问题和困难之后,您认为客户如何开始缓解这些问题?
我推荐的一般方法是考虑您的数据工程流程。因此,我们与数据工程公司合作,例如那些做数据湖屋的公司。思考:如何将数据湖屋应用于我的传入数据?如何使用我的数据湖屋来清理和准备它?在某些情况下,甚至可能转换它并使其为培训系统做好准备。我将从思考我公司中的数据工程学科以及如何准备它以适应AI开始。
如果您深入挖掘,数据工程包括什么?
数据工程通常包括如何访问可能存在于企业数据库、结构化系统或其他系统中的其他数据集,以及如何访问它们?如何将其摄取到中间形式中,然后我数据湖屋?然后如何转换并从这些可能跨不同存储库的集合中选择数据,以创建一个代表我想要训练的数据的数据集。这就是我们通常称为数据工程的学科。它正在成为一个非常独特的技能和非常独特的学科。
在存储方面,客户如何用存储支持数据湖屋?以什么形式?
今天,常见的是云公司提供数据湖屋,而对于本地部署,我们有系统公司。我们与其中几家合作。我们提供包括数据湖屋供应商在内的完整解决方案。我们与它们合作。当然,还有使其性能快速和运行良好的底层存储。因此,关键组件,我认为是流行的数据湖屋数据库和其下的基础设施,然后将这些连接到其他存储系统用于培训侧。
看数据工程,它真的是一次性、一次性的挑战,还是组织应对AI时持续进行的事情?
数据工程有点难以与存储分离。它们不完全相同,但密切相关。一旦开始使用AI,您希望记录所有新数据。您希望转换它并使其成为您AI系统的一部分,无论您是将其与RAG(检索增强生成)或微调一起使用,还是如果您是高级的,构建自己的模型。您将不断增加并使其更好。随着数据的改进和洞察的变化,您的数据必须随之变化。因此,您的模型必须随之演进。这成为一个持续的过程。
您必须考虑一些事情,例如血统。这些数据的历史是什么?起源于哪里?在哪里消费?您希望思考,当人们使用您的模型或当您内部使用您的模型时。被问的问题是什么?随之出现的问题是什么?您希望存储并将其用于质量保证,以及用于未来的进一步培训。这成为我们称之为数据的AI飞轮。数据不断被摄取、消费、计算、摄取、消费、计算。这个循环不会停止。
您认为客户还应该看什么?
您还应该思考,这些数据真正是什么,数据代表什么?如果这些数据代表您观察到的东西或您做的事情,如果数据中有空白,AI将填补这些空白。当它错误地填补这些空白时,我们称之为幻觉。诀窍是足够了解您的数据,以至于您知道哪里有空白。如果您有空白,您能找到填补这些空白的方法吗?当您达到那种复杂程度时,您开始拥有一个真正令人印象深刻的系统使用。
即使您从使用云服务的基础开始,也要开始记录您发送的内容和您得到的内容。因为那形成了您数据管理学科的基础。当我使用数据工程这个术语时,在数据工程和存储之间是称为数据管理的学科。这是数据的组织,您希望尽可能早地开始。因为当您准备好做除了使用服务之外的事情时,您现在有了数据工程师和存储的第一个数据体。这是一个巨大的洞察,我希望每个人都能尽快考虑这样做。
阅读更多关于存储和AI的内容
存储技术解释 – AI和数据存储:在本指南中,我们研究了人工智能的数据存储需求、它对数据存储的要求、云和对象存储对AI的适用性,以及关键的AI存储产品。 Nvidia谈AI工作负载及其对数据存储的影响:我们与Nvidia的Charlie Boyle讨论了人工智能中的数据挑战、AI项目的关键实用技巧,以及培训、推理、RAG和检查点对存储的要求。