AI-NEWS · 2026年 7月 1日

Kimi 怎么活:拒绝重交付,死磕效率

核心观点

大模型行业已经过了“拼参数”的狂飙阶段,现在拼的是谁能把东西真正用起来,且成本不能太高。Moonshot AI(月之暗面)没走寻常路,他们不靠堆算力,而是从底层改架构。简单说,他们的打法就是:用技术换效率,用性能定价格,然后主动放弃那些干不了的活

1. 怎么收钱:不看单价,看“回本”速度

算力越来越贵,运营成本也高,Moonshot AI 硬是把账算清楚了,改变了大家看模型价格的逻辑。

  • 技术上的优化
    • KV-Cache 命中率:稳在 90% 以上。
    • 实际影响:这玩意儿直接压低了每次对话的边际成本。对用户来说,就是同样的钱能聊得更久,体验更好。
  • 重新定义“值不值”
    • 以前怎么算:只盯着输入和输出的单价(Base Pricing)。
    • Moonshot 怎么算:他们更看重 缓存命中率(Cache Hit Efficiency)。如果你能复用之前的对话上下文,实际花费就少得多。
    • 潜台词:我们把推理效率拉满,让那些原本很贵的模型,用起来比便宜的还划算,打破“高性能就得烧钱”的迷信。

2. 企业版(To B):只干我们能干的,别的都推给伙伴

Kimi 卖企业版时很干脆:能标准化的就自己做,搞不定或者太麻烦的,直接拒了。

  • 划清界限
    • 不接的活:凡是 重交付(Heavy Delivery)的活儿,比如那种需要深度定制、搞半天都标准化的项目,我们一律不碰。
    • 接的活:只专注把 模型核心能力 打磨好,提供标准的底层服务。
  • 分工明确(FDE 模式)
    • 企业客户想要的“最后一公里”定制服务,直接甩给 FDE 合作伙伴(全栈或前端交付伙伴)去搞定。
    • Moonshot 的角色:老老实实做那个“底座”,把最难的算法问题解决了,剩下的场景适配让合作伙伴去头疼。
  • 三层服务结构
    1. 底层模型:核心引擎,我们负责。
    2. API 架构:标准接口,我们负责。
    3. Agent 产品:具体智能体应用,我们负责。
  • 找谁合作
    • 正和 Amazon Web Services (AWS) 这种巨头谈合作,一起把东西落地到 金融、医疗、制造 这些具体行业里去。

3. 技术底牌:改架构,别光调工程

Kimi 的技术路线很“轴”,不修修补补,非要动大手术解决长文本和效率问题。

  • 架构级的大招
    • Muon(第二阶优化器):训练时就用它,让参数更新更快。
    • 线性注意力架构:专治长文本处理时的显存爆炸和卡顿。
    • 注意力残差方案:再给推理速度加个buff。
    • 结果:数据利用率上去了,处理几千页文档也不卡了。
  • 工程思路变了:从“外挂”到“内功”
    • 行业常态:现在大家流行搞个 "Harness"(工程外挂),试图用代码把模型的能力补全。
    • Kimi 的打法:推行 "Loop Engineering"(循环迭代工程)。
    • 逻辑很简单:随着模型越来越强,你还要费劲去写外挂适配的场景就越少了。与其费劲调参,不如让模型原生能力覆盖更多场景。

4. 以后往哪走:盯死三个点

Moonshot AI 接下来怎么搞,就看这三件事,目标很明确:把每一度电都变成真正的智能。

  1. Agent 能有多自主:能不能自己定计划、自己干活,少让人操心。
  2. 上下文能有多长:把 Token 限制打碎,让模型能“吃”下整本书甚至整个数据库。
  3. 多智能体怎么配合:让好几个 Agent 像人一样开会协作,搞定那种烂摊子任务。

深度分析:这帮人到底在赌什么?

Moonshot AI 这套打法,其实透着一股子“去泡沫”的狠劲:

  • 不玩虚的:不幻想什么全场景覆盖,企业客户最烦那种要重度定制的。用“重底座、轻交付”的模式,门槛低了,变现才快。
  • 护城河在哪:现在算力这么贵,架构效率(比如 KV-Cache、线性注意力)才是硬通货,光比参数量那点事,谁玩谁死。
  • 长期打算:他们心里清楚,终极目标不是做个工具,而是“把能源高效转化为智能”。靠 K2.7 这种版本迭代,死磕技术,这才是能在行业里活下来的道理。

说实话,看着这种思路,心里稍微有点打鼓。毕竟改变行业习惯很难,但如果不这么做,等算力瓶颈真到了那天,估计连解释都来不及。

火龙果频道