1.5 TB of VRAM on Mac Studio - RDMA over Thunderbolt 5
Apple给我提供了这个Mac Studio集群,用于测试macOS 26.2中的一项新功能:Thunderbolt上的RDMA。测试它的最简单方法是使用Exo 1.0,这是一款开源的私有AI集群工具。RDMA让所有Mac就像拥有一个巨大的统一内存池,这可以加速诸如大型AI模型等任务。
我测试的这叠Mac,拥有1.5 TB的统一内存,成本略低于40,000美元。如果你好奇的话,不,我无法证明花这么多钱搞这个是合理的。这些Mac Studio是Apple借给我测试的。我还要感谢DeskPi寄来了容纳这个集群的4柱迷你机架。
我上次记得听到任何关于Apple和高性能计算的有趣消息,还是在21世纪初,那时他们还在生产Xserve服务器。他们有一个名为Xgrid的专有集群解决方案……但那最终反响平平。少数大学构建了一些集群,但它从未真正流行起来,现在Xserve已成为遥远的记忆。
我不确定这是偶然还是Apple的长期策略,但M3 Ultra Mac Studio在运行本地AI模型方面找到了一个甜点。随着RDMA支持将内存访问延迟从300微秒降低到<50微秒,集群现在确实能提升性能,尤其是在运行巨型模型时。
它们在创意应用乃至小规模科学计算方面也表现出色,同时功耗低于250瓦,并且几乎静音无声。
底部的两台Mac拥有512 GB的统一内存和32个CPU核心,每台售价11,699美元。顶部的两台内存减半,每台售价8,099美元。它们并不便宜。
但是,考虑到Nvidia发布了DGX Spark,AMD也推出了他们的AI Max+ 395系统,而这两者的最大内存只有其四分之一(最大128 GB),我觉得有必要对这个集群进行全面测试。
视频
这篇博文是我最新YouTube视频的文字整理版,你可以在下面观看。
一个迷你Mac机架
时机非常完美,DeskPi在这些Mac到货前一天寄来了一个名为TL1的新款4柱迷你机架。
我今年早些时候启动了"MINI RACK"项目,其理念是你可以拥有机架式设备的好处,但尺寸却能放在桌上或塞在角落。
目前,除了这个可3D打印的外壳,我还没见过任何在10英寸机架中安装Mac Studio的解决方案,所以我只是把它们放在了一些10英寸机架托盘上。机架式安装任何非Pro Mac最烦人的一点就是电源按钮。在Mac Studio上,它位于左后方的一个圆形曲面上,这意味着机架式解决方案需要有办法能按到它。迷你机架开放式的侧面让我可以伸手进去按电源按钮,但我仍然需要按住Mac Studio以防它从前面滑出去!
不过,能使用Studio前面的端口插入键盘和显示器还是很方便的:
对于电源,我很高兴Apple使用了内置电源。太多"小型"PC之所以小,只是因为他们把电源塞到了机箱外一个巨大的电源适配器里。但Mac Studio不是这样,不过你得处理Apple的非C13电源线(这意味着更难找到合适长度的线缆来减少需要管理的线缆)。
DGX Spark在网络方面做得比Apple好。它们有这些大的矩形QSFP端口(如上图所示)。插头固定得更好,同时仍然容易插拔。
Mac Studio配备了10 Gbps以太网,但Mac上的高速网络(实际吞吐量大约50-60 Gbps)来自Thunderbolt。即使用上每条70美元的优质Apple线缆,我也不觉得这一堆插头能在许多环境中长期稳定工作。
有一种叫做ThunderLok-A的技术,它在每条线缆上加了一个小螺丝来固定,但我不打算在借来的Mac Studio上钻孔和攻丝来测试是否能用。
另外,据我所知,目前还没有Thunderbolt 5交换机,所以你不能将多台Mac连接到一个中央交换机——你必须将每台Mac连接到其他每台Mac,这增加了布线的混乱。目前,你最多只能交叉连接四台Mac,但我认为这对于当前的Mac Studio可能不是一个硬性限制(Apple说所有五个TB5端口都支持RDMA)。
更大的问题是:你究竟是否需要一整集群的Mac Studio?因为仅仅一台就已经是个性能怪兽,相当于四台顶配的DGX Spark或AI Max+ 395系统。管理集群可能很痛苦。
M3 Ultra Mac Studio - 基准测试
为了帮助做出决定,我运行了一些基准测试,并将所有结果(比这篇博文中强调的多得多)发布到了我的sbc-reviews项目中。
我将M3 Ultra Mac Studio与以下设备进行比较:
- 戴尔Pro Max with GB10(类似于Nvidia DGX Spark,但散热更好)
- Framework Desktop主板(搭载AMD的AI Max+ 395芯片)
首先,Geekbench。M3 Ultra运行着两代前的CPU核心,但在单核和多核性能上都击败了另外两个(在更适合多核CPU的Geekbench 5中优势更明显)。
切换到双精度FP64测试,我经典的前500名HPL基准测试中,M3 Ultra是我测试过的第一台突破1 Tflop FP64的小型台式机。它几乎是Nvidia GB10的两倍,AMD的AI Max芯片则被远远抛在后面。
CPU效率也很高,尽管这是Apple自A系列芯片以来的一贯优势。与此相关的是,这里的空闲功耗不到10瓦:
我是说,我见过单板电脑空闲功耗都超过10瓦,更不用说这种可以被视为个人超级计算机的设备了。
关于AI推理,M3 Ultra在小型和大型模型上都表现出众:
当然,真正巨大的模型(如DeepSeek R1或Kimi K2 Thinking)甚至无法在另外两个系统的单节点上运行。
但这是一台10,000美元的系统。付更多钱时期望也更高。
但请考虑这一点:一台M3 Ultra Mac Studio比我整个Framework Desktop集群拥有更强的性能,而功耗只有一半。我还将其与两台戴尔Pro Max with GB10系统组成的小型2节点集群进行了比较,单台M3 Ultra在性能和效率上仍然领先,并且内存翻倍。
迷你堆叠,巨型Mac
但是,拥有四台Mac后,集群化和远程管理情况如何?
对我来说最大的障碍是macOS本身。我在我的Mac上自动化了一切可能的事情。我维护着最流行的用于管理Mac的Ansible playbook,并且可以说有一定权威性:管理Linux集群更容易。
每个集群都有障碍,但在没有MDM等额外工具的情况下管理Mac集群时,会遇到很多小麻烦。例如:你知道吗?无法通过SSH运行系统升级(比如升级到26.2)?你必须在UI中点击按钮。
我没有远程将KVM插入每台Mac,而是使用macOS内置的"屏幕共享"连接到每台Mac,并通过GUI完成某些操作。
HPL和Llama.cpp
一切设置就绪后,我测试了在2.5千兆以太网上的HPL,以及在以太网和Thunderbolt 5上的llama.cpp。
对于HPL,单台M3 Ultra我得到了1.3 Teraflops。四台合在一起,我得到了3.7,这小于3倍的加速。但请记住,顶部的两台Studio只有底部两台一半的内存,所以3倍左右的加速可能是我预期的。
我尝试通过Thunderbolt运行HPL(未使用RDMA,仅使用TCP),但大约一分钟后,我配置在集群中的两台Mac都会崩溃并重启。我研究过使用Apple的MLX包装器来运行mpirun,但没能在本文发布前完成。
接下来,我测试了在2.5千兆以太网与Thunderbolt 5上运行AI模型的llama.cpp:
即使不使用RDMA,Thunderbolt在延迟方面也绝对胜出。
我所有的llama.cpp集群测试结果都列在这里——为了简洁起见,我运行了许多未包含在这篇博文中的测试。
启用RDMA
Exo 1.0于今天发布(至少据我所知),其主打功能就是对配备Thunderbolt 5的Mac集群提供RDMA支持。
然而,要启用RDMA,你必须进入恢复模式并运行一个命令:
- 关闭Mac Studio
- 按住电源按钮10秒钟(你会看到启动菜单出现)
- 进入"选项",当UI出现时,从"实用工具"菜单中打开终端
- 输入
rdma_ctl enable,然后按回车键 - 重启Mac Studio
完成后,我运行了一堆巨大的模型,包括Kimi K2 Thinking,它有600+ GB,大到无法在单台Mac上运行。
我可以使用llama.cpp和Exo在多个Mac上运行这样的模型,但后者是目前唯一支持RDMA的。Llama.cpp目前使用一种RPC方法将模型的层分布到各个节点,这可以扩展但效率低下,导致性能随着节点增加而下降。
这个对Qwen3 235B的基准测试很好地说明了这一点:
Exo随着节点增加而加速,在全集群上达到每秒32个令牌。如果你的喜好是"氛围编程",这绝对够快了,但这不是我的菜。
于是我继续测试了DeepSeek V3.1,一个6710亿参数的模型:
我有点惊讶地看到llama.cpp有了一点加速。也许在两个节点上运行时网络开销没那么大?我不确定。
让我们转到我在任何设备上运行过的最大的模型,Kimi K2 Thinking:
这是一个1万亿参数的模型,尽管在任何给定时间只有320亿是"活跃的"——这就是A32B中"A"的含义。
但我们仍然得到了大约每秒30个令牌。
使用这些巨大模型中的一些时,我看到了AI的某些用途,尤其是当它在我本地控制之下时。但要让我在很大程度上信任它给出的东西,还需要很长时间——我像对待维基百科一样对待它。也许是一个很好的起点,但绝不能让AI取代你批判性思考的能力!
但这篇博文不是关于AI的优劣,而是关于Mac Studio集群、RDMA和Exo。
它们表现得很出色……当它们能正常运行时。
稳定性问题
首先声明:我在测试时使用的是预发布软件。很多漏洞在测试过程中得到了修复。
但很明显,Thunderbolt上的RDMA还很新。当它工作时,效果很好。当它不工作时……好吧,我只能说我很高兴我设置了Ansible,可以快速关闭和重启整个集群。
我之前提到过通过Thunderbolt运行HPL时崩溃的情况。即使我最终能让它工作,目前(截至2025年底)我只见过最多4台Mac的RDMA集群。Apple说所有五个Thunderbolt 5端口都启用了RDMA,那么也许可以添加更多Mac?
除此之外,我对Exo仍有某种潜在的不信任感,因为其开发者曾"失联"了一段时间。
他们确实坚守了开源的根本,在Apache 2.0许可证下发布了Exo 1.0,但我希望他们不必秘密地进行开发;这可能是与Apple密切合作的副作用。
我的意思是,这是他们的权利,但作为一个可能过于公开进行开发的人,我讨厌任何开源项目周围有层层秘密。
我很高兴看到它下一步的发展。他们暗示将一台DGX Spark放在Mac Studio集群前面以加速提示处理……也许他们还会重新添加对Raspberry Pi的支持?谁知道呢。
未解答的问题 / 值得进一步探讨的话题
但我还有更多问题:
- M5 Ultra在哪里?如果Apple发布一款,它在机器学习方面会快得多。
- Apple能否复兴Mac Pro,给我所有我想要的PCIe带宽,以实现更快的集群,而不用受限于Thunderbolt?
- Mac能获得SMB Direct吗?网络文件共享将表现得像直接连接到Mac,这对于视频编辑或其他延迟敏感、高带宽的应用来说将是惊人的。
最后,其他软件呢?Llama.cpp和其他应用如果能获得RDMA支持,也能获得速度提升。
结论
与大多数AI相关的硬件不同,我对Apple炒作这个有点能接受。当AI泡沫破裂时,Mac Studio仍然是快速、安静且功能强大的创意工作站(我在桌面上就使用一台M4 Max!)。
但Apple的世界并非全是彩虹和阳光。除了管理Mac集群更让人头疼之外,Thunderbolt 5也限制了这些设备发挥其真正的潜力。QSFP会更好,但这会使设备对那些"只想要一台电脑"的人不那么有吸引力。
也许作为安慰奖,他们可以用一个或两个QSFP端口替换背面的以太网接口和一两个Thunderbolt端口?这样我们就可以使用网络交换机,并且一次集群超过四台设备了……
按照配置。Apple在512GB型号上安装了8 TB的SSD存储,在256GB型号上安装了4TB。 ↩︎