AI-NEWS · 2026年 3月 27日

蚂蚁发布“百灵”:告别 Token 浪费,搞钱更高效

核心观点:大模型内卷,拼的是“性价比”

以前我们总觉得大模型参数越大越好,现在风向变了。随着像 OpenClaw 这种能直接干活、不用人盯着的智能体流行,大家发现光会聊天不够用了,得能办事。但问题也来了:算力太贵,企业用不起;而且企业数据敏感,合规风险大。

蚂蚁数字技术部的张鹏在中关村论坛上直接摊牌了:别卷参数了,卷“Token 效率”吧。

简单说就是:

  • 不再盲目堆料:以前谁参数量大谁就牛,现在谁用同样的 Token 干更多的活谁赢。
  • 痛点很扎心:很多智能体因为不懂行规,瞎调用工具,Token 烧得比油还快。比如 OpenClaw 这类模型,在高频场景下,Token 消耗可能是集成式智能体的几十倍甚至上百倍。这玩意儿放工业界用,成本根本扛不住。
  • 怎么破局:别搞“一刀切”。企业得看实际需求,用“大小模型搭配”的混合架构。大模型负责想难题,小模型负责干杂活,既省钱又高效。

技术突破:给金融场景量身定制的“百灵”

金融行业对速度、并发和准确率的挑剔,不是盖的。传统行业大模型要么资源浪费严重(杀鸡用牛),要么响应太慢。

所以,蚂蚁数字技术部掏出了“百灵”(Ling DT)系列里的新牌——Ling-DT-Fin-Mini-2.5。这是专门给金融高频低延迟任务优化的轻量化大模型。

它有三个看家本领:

  1. 架构更先进:用了最新的混合线性注意力机制(Hybrid Linear Attention),推理快得飞起。
  2. 设计更“瘦身”:采用 MoE(混合专家)架构,该省的地方省,该强的地方强。
  3. 专业度没丢:虽然模型变轻了,但对金融业务的理解深度反而更扎实了。

性能对比:真香

跟市面上那些能力差不多但吃资源的主流大模型一比,这“百灵”模型的优势太明显:

  • 速度快一倍:推理速度直接提升 100%。
  • 省钱:处理同样多的任务,硬件成本显著降低。
  • 真金白银的价值:对金融机构来说,这就是实打实的降本增效。

行业趋势:大小模型“搭伙过日子”

现在 AI 智能体要往真正的工业场景里扎根,“大小模型结合”已经是板上钉钉的趋势了:

  • 小模型(Small Models):专攻高频、低延迟的活儿,主打一个极致性价比。
    • 举个栗子:OpenAI 最近也下场了,推出了 GPT-5.4mini 和 nano 两款小模型,专门伺候智能体执行层的各种杂事。
  • 大模型(Large Models):负责啃硬骨头,搞复杂推理和深度分析。
  • 1+1>2:俩搭档互补,解决现实世界里那些烂摊子更高效、更省钱。

未来展望:别整那些虚的,要工业级效率

张鹏最后点明了方向:技术再花哨,最后都得回归工业效率这个“硬道理”。

下一阶段,Token 效率就是衡量企业级 AI 成色的核心指标。蚂蚁这边会继续盯着企业级通用人工智能(AGI)做文章,把“百灵”企业版及其行业版本推得更广,让智能体真正能在复杂的企业环境里大规模跑起来,而不是只在 PPT 里光鲜亮丽。

火龙果频道