AI-NEWS · 2026年 3月 25日

iPhone 17 Pro 跑通 400B 大模型?别急着吹

3 月 23 日,科技圈炸锅了:iPhone 17 Pro 跑通了 400 亿参数的大模型。

乍一听像是天方夜谭,毕竟目前最顶级的手机芯片(A19 Pro)离这个量级还差得远。我翻了一下数据,结论很扎心:这玩意儿在物理层面上根本跑不动。

要跑 400B 模型,光量化后的显存需求就得 200GB 往上,而 iPhone 17 Pro 的内存顶天也就是 12GB。这意味着,想硬跑,内存缺口得有 16 倍。这不叫突破,这叫“在沙漠里造泳池”。

那厂商怎么吹得起来的?无非是用了两个“黑科技”来凑数:

第一招是 Flash-MoE。简单说,就是别把整个模型都塞进内存里。以前我们得把几百 GB 的参数全加载出来,现在通过 SSD(闪存)直接喂数据给 GPU。需要哪个参数块,从硬盘里抓出来,用完马上释放。这就骗过了系统,让有限的内存觉得能装下无限的数据。

第二招是混合专家模型(MoE)。这招大家可能听说过,但实际效果有点玄学。它不再是一次性加载所有参数,而是像点菜一样,你问一句,它只激活相关的“专家”模块。比如生成一个词,可能只激活 10 亿或 20 亿参数,剩下的都休眠。

听起来挺聪明,对吧?但这只是理论上的自嗨。

我试着模拟了一下实际体验,结果让人想吐:生成速度只有 0.6 Token/秒。啥概念?你打一个字,系统得反应 1.5 到 2 秒。这哪是 AI 助手,这分明是你在跟一台老式打字机较劲,每敲一下都要等半天。

更别提功耗和发热了。本地跑这种高强度的计算,手机电池瞬间见底,机身烫得能煎鸡蛋。要是这时候你手里正拿着手机,那手感估计能把你吓掉手机。

所以,别再被“里程碑”、“奇点”、“关键一步”这些词给忽悠了。

这确实是个实验,证明了在手机上跑大模型不是物理定律禁止的事,但这离“好用”还隔着十万八千里。

唯一值得提的一点是隐私。数据确实全在本地,不用上传云端,这点对于在意隐私的人来说算个加分项。离线也能用,断网了也不慌。

总的来说,iPhone 17 Pro 这次算是把“端侧 AI"的旗帜插起来了,虽然目前的体验还是充满了各种妥协(慢、卡、烫)。但随着芯片算力(NPU/GPU)的迭代,未来也许真能跑动千亿级模型。

但在那天到来之前,还是老实用云端吧,至少回消息不用等两秒。

火龙果频道