四台 Mac 跑动万亿参数模型

在 WWDC 上，Apple 和 LM Studio 刚搞完个挺轰动的演示：四台 Mac Studio 居然能跑动 Moonshot AI 的 Kimi K2.6 模型。这事儿有点意思，因为通常这种万亿参数的大模型，得靠那种成百上千张 GPU 堆出来的服务器集群，动不动就几百万美元，还得担心运维和延迟。

但这次不一样。

这玩意儿是怎么做到的？

核心其实就两点：一个是芯片，一个是连接。

芯片方面，用的是四台搭载 M3 Ultra 的 Mac Studio。大家知道，Apple Silicon 有个杀手锏叫统一内存架构，这在处理大模型时比传统 GPU 显存要大得多，带宽也高得多。

连接方面，这四台机器通过 Thunderbolt 5 接口连在一起。这里得提一嘴，Thunderbolt 5 的带宽比前代强太多，刚好够传输大模型所需的庞大内存数据。配合 macOS 里新加的 RDMA-over-Thunderbolt 技术，系统能把这四台机器的物理内存“骗”成一个逻辑上的大内存池。

现场实测数据：
模型 Kimi K2.6 是 MoE（混合专家）架构，总共 1 万亿参数。虽然推理时只激活 320 亿参数，但权重文件还是得全量加载。在 FP16 精度下，这得吃掉至少 2TB 内存。

结果呢？四台 Mac Studio 组成的集群，成功把这 2TB 内存池撑起来了。现场演示生成速度大概每秒 28 个 token。虽然比不上那种顶级 GPU 集群动辄几百 token 的秒速，但考虑到这是消费级硬件，这个速度其实已经相当可以了，而且功耗低得吓人。

还有个配套工具叫 LM Link。
这个工具基于 Tailscale 的 Mesh VPN 技术，让远程访问变得很安全。你想用这个集群，不用人坐在服务器旁边，用 MacBook 或者 iPhone 连上网就能调。最爽的是，所有数据都在本地跑，不出你的电脑，隐私不用担心，也不用给云厂商交钱。

这事儿到底意味着什么？

说实话，看完演示，我心里挺复杂的。一方面不得不承认，这技术确实牛，Apple 把统一内存和高速互联结合起来，绕过了传统 GPU 的内存墙，让大模型在本地跑起来变得可行。这对那些不想花大价钱租云、又担心数据安全的中小团队来说，是个新思路。

但另一方面，我也得泼盆冷水。

首先，硬件成本不是小数目。 四台 Mac Studio 加 M3 Ultra，价格可不便宜。如果你是个小公司，这笔一次性投入可能比租云还肉疼，除非你打算跑个几年。

其次，扩展性是个问题。 这次演示是四台机器。如果要跑更大的模型，比如 2000 亿或者 3000 亿参数，你得买多少台？Thunderbolt 5 的带宽虽然快，但多了机器，网络延迟和协调成本会不会成倍增加？到时候是不是得靠软件去平衡负载？这些细节演示里没细说，但实际落地时可能会很头疼。

最后，别指望它能完全替代云端。 虽然本地跑大模型有隐私优势，但在模型更新、微调以及处理超大规模数据时，云端的弹性优势还是没法比。

总的来说，这是一个重要的里程碑，证明了消费级硬件也能玩大模型了。但离“人人买台 Mac 就能跑千亿模型”的科幻世界，恐怕还得再磨叽几年。对于现在的开发者来说，这可能只是个“爽一下”的玩具，或者是特定场景下的备选方案，想彻底改变行业格局，恐怕还得看时间怎么演。

火龙果频道

近期新闻

AI-NEWS · 2026年 6月 23日

您可能还喜欢...

AI-NEWS · 2026年 6月 23日

您可能还喜欢...

金士顿推全栈AI方案

通义千问春节狂揽2亿单

谷歌AI助拍功能上线