Mac Studio集群与RDMA技术深度评测:突破1.5TB VRAM的AI性能

本文深入评测了由四台Mac Studio组成的集群,通过Thunderbolt 5的RDMA技术实现了1.5TB统一内存池。文章详细探讨了技术配置、性能基准测试、与NVIDIA DGX Spark等竞争产品的对比,以及使用Exo和llama.cpp运行大规模AI模型的实战体验,同时指出了当前集群在管理和稳定性上面临的挑战。

1.5 TB of VRAM on Mac Studio - RDMA over Thunderbolt 5

Apple给我提供了这个Mac Studio集群,用于测试macOS 26.2中的一项新功能:Thunderbolt上的RDMA。测试它的最简单方法是使用Exo 1.0,这是一款开源的私有AI集群工具。RDMA让所有Mac就像拥有一个巨大的统一内存池,这可以加速诸如大型AI模型等任务。

我测试的这叠Mac,拥有1.5 TB的统一内存,成本略低于40,000美元。如果你好奇的话,不,我无法证明花这么多钱搞这个是合理的。这些Mac Studio是Apple借给我测试的。我还要感谢DeskPi寄来了容纳这个集群的4柱迷你机架。

我上次记得听到任何关于Apple和高性能计算的有趣消息,还是在21世纪初,那时他们还在生产Xserve服务器。他们有一个名为Xgrid的专有集群解决方案……但那最终反响平平。少数大学构建了一些集群,但它从未真正流行起来,现在Xserve已成为遥远的记忆。

我不确定这是偶然还是Apple的长期策略,但M3 Ultra Mac Studio在运行本地AI模型方面找到了一个甜点。随着RDMA支持将内存访问延迟从300微秒降低到<50微秒,集群现在确实能提升性能,尤其是在运行巨型模型时。

它们在创意应用乃至小规模科学计算方面也表现出色,同时功耗低于250瓦,并且几乎静音无声。

底部的两台Mac拥有512 GB的统一内存和32个CPU核心,每台售价11,699美元。顶部的两台内存减半,每台售价8,099美元。它们并不便宜。

但是,考虑到Nvidia发布了DGX Spark,AMD也推出了他们的AI Max+ 395系统,而这两者的最大内存只有其四分之一(最大128 GB),我觉得有必要对这个集群进行全面测试。

视频

这篇博文是我最新YouTube视频的文字整理版,你可以在下面观看。

一个迷你Mac机架

时机非常完美,DeskPi在这些Mac到货前一天寄来了一个名为TL1的新款4柱迷你机架。

我今年早些时候启动了"MINI RACK"项目,其理念是你可以拥有机架式设备的好处,但尺寸却能放在桌上或塞在角落。

目前,除了这个可3D打印的外壳,我还没见过任何在10英寸机架中安装Mac Studio的解决方案,所以我只是把它们放在了一些10英寸机架托盘上。机架式安装任何非Pro Mac最烦人的一点就是电源按钮。在Mac Studio上,它位于左后方的一个圆形曲面上,这意味着机架式解决方案需要有办法能按到它。迷你机架开放式的侧面让我可以伸手进去按电源按钮,但我仍然需要按住Mac Studio以防它从前面滑出去!

不过,能使用Studio前面的端口插入键盘和显示器还是很方便的:

对于电源,我很高兴Apple使用了内置电源。太多"小型"PC之所以小,只是因为他们把电源塞到了机箱外一个巨大的电源适配器里。但Mac Studio不是这样,不过你得处理Apple的非C13电源线(这意味着更难找到合适长度的线缆来减少需要管理的线缆)。

DGX Spark在网络方面做得比Apple好。它们有这些大的矩形QSFP端口(如上图所示)。插头固定得更好,同时仍然容易插拔。

Mac Studio配备了10 Gbps以太网,但Mac上的高速网络(实际吞吐量大约50-60 Gbps)来自Thunderbolt。即使用上每条70美元的优质Apple线缆,我也不觉得这一堆插头能在许多环境中长期稳定工作。

有一种叫做ThunderLok-A的技术,它在每条线缆上加了一个小螺丝来固定,但我不打算在借来的Mac Studio上钻孔和攻丝来测试是否能用。

另外,据我所知,目前还没有Thunderbolt 5交换机,所以你不能将多台Mac连接到一个中央交换机——你必须将每台Mac连接到其他每台Mac,这增加了布线的混乱。目前,你最多只能交叉连接四台Mac,但我认为这对于当前的Mac Studio可能不是一个硬性限制(Apple说所有五个TB5端口都支持RDMA)。

更大的问题是:你究竟是否需要一整集群的Mac Studio?因为仅仅一台就已经是个性能怪兽,相当于四台顶配的DGX Spark或AI Max+ 395系统。管理集群可能很痛苦。

M3 Ultra Mac Studio - 基准测试

为了帮助做出决定,我运行了一些基准测试,并将所有结果(比这篇博文中强调的多得多)发布到了我的sbc-reviews项目中。

我将M3 Ultra Mac Studio与以下设备进行比较:

  • 戴尔Pro Max with GB10(类似于Nvidia DGX Spark,但散热更好)
  • Framework Desktop主板(搭载AMD的AI Max+ 395芯片)

首先,Geekbench。M3 Ultra运行着两代前的CPU核心,但在单核和多核性能上都击败了另外两个(在更适合多核CPU的Geekbench 5中优势更明显)。

切换到双精度FP64测试,我经典的前500名HPL基准测试中,M3 Ultra是我测试过的第一台突破1 Tflop FP64的小型台式机。它几乎是Nvidia GB10的两倍,AMD的AI Max芯片则被远远抛在后面。

CPU效率也很高,尽管这是Apple自A系列芯片以来的一贯优势。与此相关的是,这里的空闲功耗不到10瓦:

我是说,我见过单板电脑空闲功耗都超过10瓦,更不用说这种可以被视为个人超级计算机的设备了。

关于AI推理,M3 Ultra在小型和大型模型上都表现出众:

当然,真正巨大的模型(如DeepSeek R1或Kimi K2 Thinking)甚至无法在另外两个系统的单节点上运行。

但这是一台10,000美元的系统。付更多钱时期望也更高。

但请考虑这一点:一台M3 Ultra Mac Studio比我整个Framework Desktop集群拥有更强的性能,而功耗只有一半。我还将其与两台戴尔Pro Max with GB10系统组成的小型2节点集群进行了比较,单台M3 Ultra在性能和效率上仍然领先,并且内存翻倍。

迷你堆叠,巨型Mac

但是,拥有四台Mac后,集群化和远程管理情况如何?

对我来说最大的障碍是macOS本身。我在我的Mac上自动化了一切可能的事情。我维护着最流行的用于管理Mac的Ansible playbook,并且可以说有一定权威性:管理Linux集群更容易。

每个集群都有障碍,但在没有MDM等额外工具的情况下管理Mac集群时,会遇到很多小麻烦。例如:你知道吗?无法通过SSH运行系统升级(比如升级到26.2)?你必须在UI中点击按钮。

我没有远程将KVM插入每台Mac,而是使用macOS内置的"屏幕共享"连接到每台Mac,并通过GUI完成某些操作。

HPL和Llama.cpp

一切设置就绪后,我测试了在2.5千兆以太网上的HPL,以及在以太网和Thunderbolt 5上的llama.cpp。

对于HPL,单台M3 Ultra我得到了1.3 Teraflops。四台合在一起,我得到了3.7,这小于3倍的加速。但请记住,顶部的两台Studio只有底部两台一半的内存,所以3倍左右的加速可能是我预期的。

我尝试通过Thunderbolt运行HPL(未使用RDMA,仅使用TCP),但大约一分钟后,我配置在集群中的两台Mac都会崩溃并重启。我研究过使用Apple的MLX包装器来运行mpirun,但没能在本文发布前完成。

接下来,我测试了在2.5千兆以太网与Thunderbolt 5上运行AI模型的llama.cpp:

即使不使用RDMA,Thunderbolt在延迟方面也绝对胜出。

我所有的llama.cpp集群测试结果都列在这里——为了简洁起见,我运行了许多未包含在这篇博文中的测试。

启用RDMA

Exo 1.0于今天发布(至少据我所知),其主打功能就是对配备Thunderbolt 5的Mac集群提供RDMA支持。

然而,要启用RDMA,你必须进入恢复模式并运行一个命令:

  1. 关闭Mac Studio
  2. 按住电源按钮10秒钟(你会看到启动菜单出现)
  3. 进入"选项",当UI出现时,从"实用工具"菜单中打开终端
  4. 输入rdma_ctl enable,然后按回车键
  5. 重启Mac Studio

完成后,我运行了一堆巨大的模型,包括Kimi K2 Thinking,它有600+ GB,大到无法在单台Mac上运行。

我可以使用llama.cpp和Exo在多个Mac上运行这样的模型,但后者是目前唯一支持RDMA的。Llama.cpp目前使用一种RPC方法将模型的层分布到各个节点,这可以扩展但效率低下,导致性能随着节点增加而下降。

这个对Qwen3 235B的基准测试很好地说明了这一点:

Exo随着节点增加而加速,在全集群上达到每秒32个令牌。如果你的喜好是"氛围编程",这绝对够快了,但这不是我的菜。

于是我继续测试了DeepSeek V3.1,一个6710亿参数的模型:

我有点惊讶地看到llama.cpp有了一点加速。也许在两个节点上运行时网络开销没那么大?我不确定。

让我们转到我在任何设备上运行过的最大的模型,Kimi K2 Thinking:

这是一个1万亿参数的模型,尽管在任何给定时间只有320亿是"活跃的"——这就是A32B中"A"的含义。

但我们仍然得到了大约每秒30个令牌。

使用这些巨大模型中的一些时,我看到了AI的某些用途,尤其是当它在我本地控制之下时。但要让我在很大程度上信任它给出的东西,还需要很长时间——我像对待维基百科一样对待它。也许是一个很好的起点,但绝不能让AI取代你批判性思考的能力!

但这篇博文不是关于AI的优劣,而是关于Mac Studio集群、RDMA和Exo。

它们表现得很出色……当它们能正常运行时。

稳定性问题

首先声明:我在测试时使用的是预发布软件。很多漏洞在测试过程中得到了修复。

但很明显,Thunderbolt上的RDMA还很新。当它工作时,效果很好。当它不工作时……好吧,我只能说我很高兴我设置了Ansible,可以快速关闭和重启整个集群。

我之前提到过通过Thunderbolt运行HPL时崩溃的情况。即使我最终能让它工作,目前(截至2025年底)我只见过最多4台Mac的RDMA集群。Apple说所有五个Thunderbolt 5端口都启用了RDMA,那么也许可以添加更多Mac?

除此之外,我对Exo仍有某种潜在的不信任感,因为其开发者曾"失联"了一段时间。

他们确实坚守了开源的根本,在Apache 2.0许可证下发布了Exo 1.0,但我希望他们不必秘密地进行开发;这可能是与Apple密切合作的副作用。

我的意思是,这是他们的权利,但作为一个可能过于公开进行开发的人,我讨厌任何开源项目周围有层层秘密。

我很高兴看到它下一步的发展。他们暗示将一台DGX Spark放在Mac Studio集群前面以加速提示处理……也许他们还会重新添加对Raspberry Pi的支持?谁知道呢。

未解答的问题 / 值得进一步探讨的话题

但我还有更多问题:

  • M5 Ultra在哪里?如果Apple发布一款,它在机器学习方面会快得多。
  • Apple能否复兴Mac Pro,给我所有我想要的PCIe带宽,以实现更快的集群,而不用受限于Thunderbolt?
  • Mac能获得SMB Direct吗?网络文件共享将表现得像直接连接到Mac,这对于视频编辑或其他延迟敏感、高带宽的应用来说将是惊人的。

最后,其他软件呢?Llama.cpp和其他应用如果能获得RDMA支持,也能获得速度提升。

结论

与大多数AI相关的硬件不同,我对Apple炒作这个有点能接受。当AI泡沫破裂时,Mac Studio仍然是快速、安静且功能强大的创意工作站(我在桌面上就使用一台M4 Max!)。

但Apple的世界并非全是彩虹和阳光。除了管理Mac集群更让人头疼之外,Thunderbolt 5也限制了这些设备发挥其真正的潜力。QSFP会更好,但这会使设备对那些"只想要一台电脑"的人不那么有吸引力。

也许作为安慰奖,他们可以用一个或两个QSFP端口替换背面的以太网接口和一两个Thunderbolt端口?这样我们就可以使用网络交换机,并且一次集群超过四台设备了……


按照配置。Apple在512GB型号上安装了8 TB的SSD存储,在256GB型号上安装了4TB。 ↩︎

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计