M4 MacBook Pro 跑本地 AI：到底能跑多大？

最近一直在折腾把大模型搬回自己电脑上跑，毕竟谁也不想每次提问都依赖云端，担心隐私泄露或者被限速。正好有个叫 jola 的开发者分享了他的实测，用的是一台 24GB 内存的 M4 MacBook Pro，想看看能不能跑通一些比较新的模型。

实测下来，效果其实挺让人意外的。

到底选哪个模型？

一开始我也犯了难，市面上模型太多，从只有 4B 参数的轻量级 Gemma，到号称强大的 GPT-OSS 20B，到底哪个适合本地？

jola 试了一圈，结论很直接：

别碰 20B 以上的大模型：虽然理论计算说 24GB 内存装得下，但实际一跑，显存和内存瞬间爆满，根本跑不动。
4B 的小模型也不太行：虽然响应快，像聊聊天没问题，但一旦涉及到复杂的代码生成或者工具调用，脑子就不转了，经常胡言乱语。
最终赢家：Qwen 3.5-9B：这个 9B 参数的模型，配合 Q4_K_S 的量化版本，简直是个“黄金比例”。它既保留了不错的推理能力，内存占用又刚好，还能给其他开发工具留点余地。而且它支持 128K 的上下文窗口，读长文档或者分析大段代码库时，表现比那些小模型强太多。

光有模型还不够，要让它在编程和逻辑推理上更像个人，还得动点手脚。jola 主要在 LM Studio 里做了几处关键调整：

参数微调：温度（Temperature）设到了 0.6，这样回答既不会太死板，也不会跑偏；Top_p 设 0.95。这个组合在创造性和准确性之间算是个不错的平衡点。
开启“思考”模式：这里有个小 trick，就是在提示词模板里手动加一段特定的指令，让模型在输出最终答案前，先像人一样“想一会儿”（思维链）。这一步对解决逻辑错误特别有用。
接上前端工具：通过 Pi 或者 OpenCode 这类工具，把本地 AI 的 API 接上，你就能自由控制上下文长度和输出字数，慢慢把它搭建成一个真正的本地助手。

说实话，jola 在报告里也坦诚了：跟 Claude 或者 GPT-4 这种云端大佬比，本地模型还是有差距的。哪怕是 9B 的模型，遇到多步复杂的任务，也很容易分心、绕圈子或者理解错你的意思。

但换个角度想，这种“不完美”反而让工作变得更有意思了：

这就好比以前找外包，现在自己带了个实习生（虽然有点笨），你得教它干活，还得盯着它别走神。这种互动过程，其实更像是在跟一个具备即时记忆的“橡皮鸭”（调试术语）一起研究问题，而不是单纯地甩锅。

对于像我这样在意数据隐私、不想每个月交订阅费、又想要完全掌控开发环境的用户来说，在 M4 上跑这套离线方案，意义可能比技术本身更大。

毕竟，在大家都习惯把脑子租给“黑盒大模型”的时代，能在自己电脑上独立运行一套逻辑清晰的系统，这种“自主权”的感觉，真的挺爽的。

注：以上测试基于 jola 的实测报告，不同用户的硬件配置和模型版本可能会有差异，仅供参考。