Moonshot 创始人杨植麟在 GTC 2026 发布大模型演进新路径:押注“Token 效率”与“Agent 集群”
2026 年 3 月 18 日,NVIDIA GTC 大会上,Moonshot AI(月之暗面)的杨植麟讲了一通关于 Kimi K2.5 的东西。
这不是那种“我们改变了世界”的发布会。他其实是在说:如果光靠堆显卡已经没用了,那咱们到底该怎么搞?
1. 别再傻乎乎地堆算力了
以前大家觉得模型变强,就是参数量越大越好,显卡买得越多越好。杨植麟现在不这么想了。他觉得,光砸钱买卡是死路一条,得把底层的优化器、注意力机制这些玩意儿给改一改。
他提出了三个方向,感觉像是在给模型“动手术”:
- Token 效率:简单说就是拒绝“空转”。以前模型算完一步就在那儿发呆等数据,现在得让每一分算力都花在刀刃上,算得越快越好。
- 长上下文:这玩意儿 Kimi 本来就很强,但得再往下扎。现在大家记性都变好了,谁能记住更久以前的事儿,谁就有优势。
- Agent 集群:这个点我觉得挺有意思。以前 AI 是个“独行侠”,现在要搞成“群殴”。一个智能体干不过另一个,那就动态生成一堆智能体互相配合,像搭积木一样完成任务。
2. 新的增长点:三个维度一起上
杨植麟的意思很直白:规模效应(Scale)那页儿翻篇了。现在的戏码是看谁能在效率、记忆和自动化协作这三块儿同时占便宜。
如果能在 Token 效率上省点钱,记性再好点,还能自动带个小团队干活,那效果可不是简单的加法,是乘法。模型智商直接起飞,比现在强不止一个档次。
3. Kimi K2.5 好像真的有点东西
看人家年初发布的 Kimi K2.5,确实像是把这套理论落地了:
- 定位:Moonshot 家目前最狠的开源模型,没之一。
- 架构:原生多模态,图画文、文画文,它都能接,不用像以前那样拼拼凑凑。
- 性能:代码生成和看图这块儿,直接吊打(SOTA)市面上其他的模型。
- 灵活性:这点最实用。有时候你需要它“动脑子”慢慢想(思考模式),有时候你只要它“秒回”(非思考模式),随你挑。
4. 行业风向变了
以前大模型圈子里,大家争的是“参数量”,谁参数多谁牛逼。现在这一波,焦点全转到了“智能密度”上——同样的资源,谁能塞进更多的脑子。
特别是当"Agent 集群”被捧上神坛,说这是智能的终极形态时,我就忍不住琢磨:Kimi 真能顺着杨植麟这条“三维乘数”的路子,搞出个质的飞跃吗?还是说,这又是一场热闹的营销?
说实话,看着这些新说法,我心里有点打鼓。理论挺漂亮,但真能跑通吗?毕竟,把一个大模型拆成一群智能体来协作,这中间的成本和协调难度,可不是 PPT 里画出来的那么简单。
不管怎样,至少这给了咱们一个新方向:别再无脑买卡了,得好好想想怎么让现有的算力更“灵光”。
