DDN瞄准企业级AI存储市场缺口
人工智能(AI)热潮尚未完全爆发,但企业未来将在AI上投入数十亿美元。存储阵列制造商DDN长期专注于为高性能计算(HPC)和AI提供大规模计算集群存储支持。
DDN联合创始人兼总裁Paul Bloch表示,依赖DDN存储的HPC计算集群订单到2027年可能增长三到四倍。“Elon Musk的xAI集群在孟菲斯部署了20万个GPU,这一数字将达到100万。GPU性能的增长正推动数据存储需求,因为唯一的应对方式是实时摄取数据。”
DDN首席技术官Sven Oehme指出,企业市场同样充满潜力。“AI尚未发挥全部潜力,但企业能看到其演进方向和可能性。当企业全面投入推理并在所有业务领域应用AI时,真正的爆发将会到来。”
DDN估值50亿美元,预计2025年实现10亿美元营收。今年初,公司从黑石集团获得3亿美元融资,出让6%资本和董事会席位。
面向企业客户的更强大EXAscaler
为实现目标,DDN更新了核心产品线。在去年推出EXAscaler AI400X2 Turbo后,又发布了配备24个NVMe SSD并通过NVMe-over-TCP支持附加SSD架的AI400X3。
读取性能提升55%,写入性能提升70%以上,吞吐量达到140GBps(读取)和75-100GBps(写入)。速度提升来自四块Nvidia BlueField卡,使用该供应商的SpectrumX协议。
Oehme表示:“我们已经为新的Blackwell GPU提供了参考架构。所有Blackwell的测试和开发都在DDN设备上进行。”
其他改进包括安全性和池化功能。池化满足MSP对云服务的需求,能够为不同客户动态配置阵列部分资源。
对于新企业客户,EXAscaler AI400X3提供数据压缩功能,可用容量远大于原始容量,与Dell、HPE或NetApp等供应商类似。
Oehme补充道:“我们显著提高了弹性。现在可以更换任何硬件或软件组件而无需停止阵列。停机风险降至最低。这对企业至关重要,因为他们无法承受任何中断。这与HPC客户不同,后者在出现问题时更倾向于先自行诊断。”
Infinia 2.1:为AI加速的对象存储
虽然EXAscaler AI400以文件模式共享内容,但企业AI用户的趋势是转向对象存储。访问速度较慢,但提供容量和内容标记或过滤选项,适用于通过RAG进行重新训练或推理中的私有数据。为此,DDN于2024年推出了对象存储产品Infinia。
Infinia现已升级到2.1版本,DDN声称速度提升100倍。它与Cloudian的HyperStore或Scality的Ring等其他近期提升性能以支持GPU的对象存储解决方案竞争。
DDN将其产品与AWS的S3 Express对比,后者允许企业在云中执行AI任务。Infinia 2.1在访问时间上快10倍,在请求处理上快25倍。
DDN产品支持大多数AI软件栈,如TensorFlow、Pytorch和Apache Spark,以及Nvidia AI Enterprise套件的NIM模块。这些在2.0版本中均已具备。2.1更新增加了与可观测性平台Datadog和Chronosphere的集成,以及基于开源OpenTelemetry标准的平台。它现在还可以连接到基于Hadoop的数据湖。
Infinia 2.1可在DDN硬件上运行,或通过Google Cloud Platform的虚拟实例使用。
DDN还提供另外两款硬件产品xFusionAI和Inferno。xFusionAI是运行Lustre文件系统和Infinia 2.1的EXAscaler AI400X3,可以通过S3对象存储访问相同数据,从而能够访问索引内容的元数据。
Inferno提供安装在Infinia设备和服务器之间的网络代理,加速对象存储和Lustre文件存储之间的通信。该设备配备基于Nvidia BlueField的交换机,使用其SpectrumX协议和GPUdirect与GPU直接通信,外加NVMe SSD缓存。
11,000家客户,4,000家涉及AI
DDN表示已为7,000家客户部署支持70万个GPU的存储,其中4,000家客户从事AI工作负载。公司拥有1,100名员工,其中600名是工程师,今年计划再招聘200至250人。
DDN成立于1998年,最初为少数超级计算中心提供存储阵列。其核心技术来自并行供给大量计算节点,这说服了Nvidia自2010年起与其合作。
Bloch表示:“想象一下10,000个GPU。如果每个GPU需要1GBps的读取速度,整个阵列需要10TBps的吞吐量。世界上很少有系统能够提供10TBps的读取和写入速度。这正是我们掌握的。”