iPhone 17 Pro 跑通 400B 大模型？别急着吹

3 月 23 日，科技圈炸锅了：iPhone 17 Pro 跑通了 400 亿参数的大模型。

乍一听像是天方夜谭，毕竟目前最顶级的手机芯片（A19 Pro）离这个量级还差得远。我翻了一下数据，结论很扎心：这玩意儿在物理层面上根本跑不动。

要跑 400B 模型，光量化后的显存需求就得 200GB 往上，而 iPhone 17 Pro 的内存顶天也就是 12GB。这意味着，想硬跑，内存缺口得有 16 倍。这不叫突破，这叫“在沙漠里造泳池”。

那厂商怎么吹得起来的？无非是用了两个“黑科技”来凑数：

第一招是 Flash-MoE。简单说，就是别把整个模型都塞进内存里。以前我们得把几百 GB 的参数全加载出来，现在通过 SSD（闪存）直接喂数据给 GPU。需要哪个参数块，从硬盘里抓出来，用完马上释放。这就骗过了系统，让有限的内存觉得能装下无限的数据。

第二招是混合专家模型（MoE）。这招大家可能听说过，但实际效果有点玄学。它不再是一次性加载所有参数，而是像点菜一样，你问一句，它只激活相关的“专家”模块。比如生成一个词，可能只激活 10 亿或 20 亿参数，剩下的都休眠。

听起来挺聪明，对吧？但这只是理论上的自嗨。

我试着模拟了一下实际体验，结果让人想吐：生成速度只有 0.6 Token/秒。啥概念？你打一个字，系统得反应 1.5 到 2 秒。这哪是 AI 助手，这分明是你在跟一台老式打字机较劲，每敲一下都要等半天。

更别提功耗和发热了。本地跑这种高强度的计算，手机电池瞬间见底，机身烫得能煎鸡蛋。要是这时候你手里正拿着手机，那手感估计能把你吓掉手机。

所以，别再被“里程碑”、“奇点”、“关键一步”这些词给忽悠了。

这确实是个实验，证明了在手机上跑大模型不是物理定律禁止的事，但这离“好用”还隔着十万八千里。

唯一值得提的一点是隐私。数据确实全在本地，不用上传云端，这点对于在意隐私的人来说算个加分项。离线也能用，断网了也不慌。

总的来说，iPhone 17 Pro 这次算是把“端侧 AI"的旗帜插起来了，虽然目前的体验还是充满了各种妥协（慢、卡、烫）。但随着芯片算力（NPU/GPU）的迭代，未来也许真能跑动千亿级模型。

但在那天到来之前，还是老实用云端吧，至少回消息不用等两秒。

近期新闻