1.5 TB of VRAM on Mac Studio - RDMA over Thunderbolt 5

Apple给我提供了这个Mac Studio集群，用于测试macOS 26.2中的一项新功能：Thunderbolt上的RDMA。测试它的最简单方法是使用Exo 1.0，这是一款开源的私有AI集群工具。RDMA让所有Mac就像拥有一个巨大的统一内存池，这可以加速诸如大型AI模型等任务。

我测试的这叠Mac，拥有1.5 TB的统一内存，成本略低于40,000美元。如果你好奇的话，不，我无法证明花这么多钱搞这个是合理的。这些Mac Studio是Apple借给我测试的。我还要感谢DeskPi寄来了容纳这个集群的4柱迷你机架。

我上次记得听到任何关于Apple和高性能计算的有趣消息，还是在21世纪初，那时他们还在生产Xserve服务器。他们有一个名为Xgrid的专有集群解决方案……但那最终反响平平。少数大学构建了一些集群，但它从未真正流行起来，现在Xserve已成为遥远的记忆。

我不确定这是偶然还是Apple的长期策略，但M3 Ultra Mac Studio在运行本地AI模型方面找到了一个甜点。随着RDMA支持将内存访问延迟从300微秒降低到<50微秒，集群现在确实能提升性能，尤其是在运行巨型模型时。

它们在创意应用乃至小规模科学计算方面也表现出色，同时功耗低于250瓦，并且几乎静音无声。

底部的两台Mac拥有512 GB的统一内存和32个CPU核心，每台售价11,699美元。顶部的两台内存减半，每台售价8,099美元。它们并不便宜。

但是，考虑到Nvidia发布了DGX Spark，AMD也推出了他们的AI Max+ 395系统，而这两者的最大内存只有其四分之一（最大128 GB），我觉得有必要对这个集群进行全面测试。

视频

这篇博文是我最新YouTube视频的文字整理版，你可以在下面观看。

一个迷你Mac机架

时机非常完美，DeskPi在这些Mac到货前一天寄来了一个名为TL1的新款4柱迷你机架。

我今年早些时候启动了"MINI RACK"项目，其理念是你可以拥有机架式设备的好处，但尺寸却能放在桌上或塞在角落。

目前，除了这个可3D打印的外壳，我还没见过任何在10英寸机架中安装Mac Studio的解决方案，所以我只是把它们放在了一些10英寸机架托盘上。机架式安装任何非Pro Mac最烦人的一点就是电源按钮。在Mac Studio上，它位于左后方的一个圆形曲面上，这意味着机架式解决方案需要有办法能按到它。迷你机架开放式的侧面让我可以伸手进去按电源按钮，但我仍然需要按住Mac Studio以防它从前面滑出去！

不过，能使用Studio前面的端口插入键盘和显示器还是很方便的：

对于电源，我很高兴Apple使用了内置电源。太多"小型"PC之所以小，只是因为他们把电源塞到了机箱外一个巨大的电源适配器里。但Mac Studio不是这样，不过你得处理Apple的非C13电源线（这意味着更难找到合适长度的线缆来减少需要管理的线缆）。

DGX Spark在网络方面做得比Apple好。它们有这些大的矩形QSFP端口（如上图所示）。插头固定得更好，同时仍然容易插拔。

Mac Studio配备了10 Gbps以太网，但Mac上的高速网络（实际吞吐量大约50-60 Gbps）来自Thunderbolt。即使用上每条70美元的优质Apple线缆，我也不觉得这一堆插头能在许多环境中长期稳定工作。

有一种叫做ThunderLok-A的技术，它在每条线缆上加了一个小螺丝来固定，但我不打算在借来的Mac Studio上钻孔和攻丝来测试是否能用。

另外，据我所知，目前还没有Thunderbolt 5交换机，所以你不能将多台Mac连接到一个中央交换机——你必须将每台Mac连接到其他每台Mac，这增加了布线的混乱。目前，你最多只能交叉连接四台Mac，但我认为这对于当前的Mac Studio可能不是一个硬性限制（Apple说所有五个TB5端口都支持RDMA）。

更大的问题是：你究竟是否需要一整集群的Mac Studio？因为仅仅一台就已经是个性能怪兽，相当于四台顶配的DGX Spark或AI Max+ 395系统。管理集群可能很痛苦。

M3 Ultra Mac Studio - 基准测试

为了帮助做出决定，我运行了一些基准测试，并将所有结果（比这篇博文中强调的多得多）发布到了我的sbc-reviews项目中。

我将M3 Ultra Mac Studio与以下设备进行比较：

戴尔Pro Max with GB10（类似于Nvidia DGX Spark，但散热更好）
Framework Desktop主板（搭载AMD的AI Max+ 395芯片）

首先，Geekbench。M3 Ultra运行着两代前的CPU核心，但在单核和多核性能上都击败了另外两个（在更适合多核CPU的Geekbench 5中优势更明显）。

切换到双精度FP64测试，我经典的前500名HPL基准测试中，M3 Ultra是我测试过的第一台突破1 Tflop FP64的小型台式机。它几乎是Nvidia GB10的两倍，AMD的AI Max芯片则被远远抛在后面。

CPU效率也很高，尽管这是Apple自A系列芯片以来的一贯优势。与此相关的是，这里的空闲功耗不到10瓦：

我是说，我见过单板电脑空闲功耗都超过10瓦，更不用说这种可以被视为个人超级计算机的设备了。

关于AI推理，M3 Ultra在小型和大型模型上都表现出众：

当然，真正巨大的模型（如DeepSeek R1或Kimi K2 Thinking）甚至无法在另外两个系统的单节点上运行。

但这是一台10,000美元的系统。付更多钱时期望也更高。

但请考虑这一点：一台M3 Ultra Mac Studio比我整个Framework Desktop集群拥有更强的性能，而功耗只有一半。我还将其与两台戴尔Pro Max with GB10系统组成的小型2节点集群进行了比较，单台M3 Ultra在性能和效率上仍然领先，并且内存翻倍。

迷你堆叠，巨型Mac

但是，拥有四台Mac后，集群化和远程管理情况如何？

对我来说最大的障碍是macOS本身。我在我的Mac上自动化了一切可能的事情。我维护着最流行的用于管理Mac的Ansible playbook，并且可以说有一定权威性：管理Linux集群更容易。

每个集群都有障碍，但在没有MDM等额外工具的情况下管理Mac集群时，会遇到很多小麻烦。例如：你知道吗？无法通过SSH运行系统升级（比如升级到26.2）？你必须在UI中点击按钮。

我没有远程将KVM插入每台Mac，而是使用macOS内置的"屏幕共享"连接到每台Mac，并通过GUI完成某些操作。

HPL和Llama.cpp

一切设置就绪后，我测试了在2.5千兆以太网上的HPL，以及在以太网和Thunderbolt 5上的llama.cpp。

对于HPL，单台M3 Ultra我得到了1.3 Teraflops。四台合在一起，我得到了3.7，这小于3倍的加速。但请记住，顶部的两台Studio只有底部两台一半的内存，所以3倍左右的加速可能是我预期的。

我尝试通过Thunderbolt运行HPL（未使用RDMA，仅使用TCP），但大约一分钟后，我配置在集群中的两台Mac都会崩溃并重启。我研究过使用Apple的MLX包装器来运行mpirun，但没能在本文发布前完成。

接下来，我测试了在2.5千兆以太网与Thunderbolt 5上运行AI模型的llama.cpp：

即使不使用RDMA，Thunderbolt在延迟方面也绝对胜出。

我所有的llama.cpp集群测试结果都列在这里——为了简洁起见，我运行了许多未包含在这篇博文中的测试。

启用RDMA

Exo 1.0于今天发布（至少据我所知），其主打功能就是对配备Thunderbolt 5的Mac集群提供RDMA支持。

然而，要启用RDMA，你必须进入恢复模式并运行一个命令：

关闭Mac Studio
按住电源按钮10秒钟（你会看到启动菜单出现）
进入"选项"，当UI出现时，从"实用工具"菜单中打开终端
输入rdma_ctl enable，然后按回车键
重启Mac Studio

完成后，我运行了一堆巨大的模型，包括Kimi K2 Thinking，它有600+ GB，大到无法在单台Mac上运行。

我可以使用llama.cpp和Exo在多个Mac上运行这样的模型，但后者是目前唯一支持RDMA的。Llama.cpp目前使用一种RPC方法将模型的层分布到各个节点，这可以扩展但效率低下，导致性能随着节点增加而下降。

这个对Qwen3 235B的基准测试很好地说明了这一点：

Exo随着节点增加而加速，在全集群上达到每秒32个令牌。如果你的喜好是"氛围编程"，这绝对够快了，但这不是我的菜。

于是我继续测试了DeepSeek V3.1，一个6710亿参数的模型：

我有点惊讶地看到llama.cpp有了一点加速。也许在两个节点上运行时网络开销没那么大？我不确定。

让我们转到我在任何设备上运行过的最大的模型，Kimi K2 Thinking：

这是一个1万亿参数的模型，尽管在任何给定时间只有320亿是"活跃的"——这就是A32B中"A"的含义。

但我们仍然得到了大约每秒30个令牌。

使用这些巨大模型中的一些时，我看到了AI的某些用途，尤其是当它在我本地控制之下时。但要让我在很大程度上信任它给出的东西，还需要很长时间——我像对待维基百科一样对待它。也许是一个很好的起点，但绝不能让AI取代你批判性思考的能力！

但这篇博文不是关于AI的优劣，而是关于Mac Studio集群、RDMA和Exo。

它们表现得很出色……当它们能正常运行时。

稳定性问题

首先声明：我在测试时使用的是预发布软件。很多漏洞在测试过程中得到了修复。

但很明显，Thunderbolt上的RDMA还很新。当它工作时，效果很好。当它不工作时……好吧，我只能说我很高兴我设置了Ansible，可以快速关闭和重启整个集群。

我之前提到过通过Thunderbolt运行HPL时崩溃的情况。即使我最终能让它工作，目前（截至2025年底）我只见过最多4台Mac的RDMA集群。Apple说所有五个Thunderbolt 5端口都启用了RDMA，那么也许可以添加更多Mac？

除此之外，我对Exo仍有某种潜在的不信任感，因为其开发者曾"失联"了一段时间。

他们确实坚守了开源的根本，在Apache 2.0许可证下发布了Exo 1.0，但我希望他们不必秘密地进行开发；这可能是与Apple密切合作的副作用。

我的意思是，这是他们的权利，但作为一个可能过于公开进行开发的人，我讨厌任何开源项目周围有层层秘密。

我很高兴看到它下一步的发展。他们暗示将一台DGX Spark放在Mac Studio集群前面以加速提示处理……也许他们还会重新添加对Raspberry Pi的支持？谁知道呢。

未解答的问题 / 值得进一步探讨的话题

但我还有更多问题：

M5 Ultra在哪里？如果Apple发布一款，它在机器学习方面会快得多。
Apple能否复兴Mac Pro，给我所有我想要的PCIe带宽，以实现更快的集群，而不用受限于Thunderbolt？
Mac能获得SMB Direct吗？网络文件共享将表现得像直接连接到Mac，这对于视频编辑或其他延迟敏感、高带宽的应用来说将是惊人的。

最后，其他软件呢？Llama.cpp和其他应用如果能获得RDMA支持，也能获得速度提升。

结论

与大多数AI相关的硬件不同，我对Apple炒作这个有点能接受。当AI泡沫破裂时，Mac Studio仍然是快速、安静且功能强大的创意工作站（我在桌面上就使用一台M4 Max！）。

但Apple的世界并非全是彩虹和阳光。除了管理Mac集群更让人头疼之外，Thunderbolt 5也限制了这些设备发挥其真正的潜力。QSFP会更好，但这会使设备对那些"只想要一台电脑"的人不那么有吸引力。

也许作为安慰奖，他们可以用一个或两个QSFP端口替换背面的以太网接口和一两个Thunderbolt端口？这样我们就可以使用网络交换机，并且一次集群超过四台设备了……

按照配置。Apple在512GB型号上安装了8 TB的SSD存储，在256GB型号上安装了4TB。 ↩︎