Moonshot 创始人杨植麟在 GTC 2026 发布大模型演进新路径：押注“Token 效率”与“Agent 集群”

2026 年 3 月 18 日，NVIDIA GTC 大会上，Moonshot AI（月之暗面）的杨植麟讲了一通关于 Kimi K2.5 的东西。

这不是那种“我们改变了世界”的发布会。他其实是在说：如果光靠堆显卡已经没用了，那咱们到底该怎么搞？

以前大家觉得模型变强，就是参数量越大越好，显卡买得越多越好。杨植麟现在不这么想了。他觉得，光砸钱买卡是死路一条，得把底层的优化器、注意力机制这些玩意儿给改一改。

他提出了三个方向，感觉像是在给模型“动手术”：

Token 效率：简单说就是拒绝“空转”。以前模型算完一步就在那儿发呆等数据，现在得让每一分算力都花在刀刃上，算得越快越好。
长上下文：这玩意儿 Kimi 本来就很强，但得再往下扎。现在大家记性都变好了，谁能记住更久以前的事儿，谁就有优势。
Agent 集群：这个点我觉得挺有意思。以前 AI 是个“独行侠”，现在要搞成“群殴”。一个智能体干不过另一个，那就动态生成一堆智能体互相配合，像搭积木一样完成任务。

杨植麟的意思很直白：规模效应（Scale）那页儿翻篇了。现在的戏码是看谁能在效率、记忆和自动化协作这三块儿同时占便宜。

如果能在 Token 效率上省点钱，记性再好点，还能自动带个小团队干活，那效果可不是简单的加法，是乘法。模型智商直接起飞，比现在强不止一个档次。

看人家年初发布的 Kimi K2.5，确实像是把这套理论落地了：

以前大模型圈子里，大家争的是“参数量”，谁参数多谁牛逼。现在这一波，焦点全转到了“智能密度”上——同样的资源，谁能塞进更多的脑子。

特别是当"Agent 集群”被捧上神坛，说这是智能的终极形态时，我就忍不住琢磨：Kimi 真能顺着杨植麟这条“三维乘数”的路子，搞出个质的飞跃吗？还是说，这又是一场热闹的营销？

说实话，看着这些新说法，我心里有点打鼓。理论挺漂亮，但真能跑通吗？毕竟，把一个大模型拆成一群智能体来协作，这中间的成本和协调难度，可不是 PPT 里画出来的那么简单。

不管怎样，至少这给了咱们一个新方向：别再无脑买卡了，得好好想想怎么让现有的算力更“灵光”。

近期新闻