蚂蚁发布“百灵”：告别 Token 浪费，搞钱更高效

核心观点：大模型内卷，拼的是“性价比”

以前我们总觉得大模型参数越大越好，现在风向变了。随着像 OpenClaw 这种能直接干活、不用人盯着的智能体流行，大家发现光会聊天不够用了，得能办事。但问题也来了：算力太贵，企业用不起；而且企业数据敏感，合规风险大。

蚂蚁数字技术部的张鹏在中关村论坛上直接摊牌了：别卷参数了，卷“Token 效率”吧。

简单说就是：

不再盲目堆料：以前谁参数量大谁就牛，现在谁用同样的 Token 干更多的活谁赢。
痛点很扎心：很多智能体因为不懂行规，瞎调用工具，Token 烧得比油还快。比如 OpenClaw 这类模型，在高频场景下，Token 消耗可能是集成式智能体的几十倍甚至上百倍。这玩意儿放工业界用，成本根本扛不住。
怎么破局：别搞“一刀切”。企业得看实际需求，用“大小模型搭配”的混合架构。大模型负责想难题，小模型负责干杂活，既省钱又高效。

金融行业对速度、并发和准确率的挑剔，不是盖的。传统行业大模型要么资源浪费严重（杀鸡用牛），要么响应太慢。

所以，蚂蚁数字技术部掏出了“百灵”（Ling DT）系列里的新牌——Ling-DT-Fin-Mini-2.5。这是专门给金融高频低延迟任务优化的轻量化大模型。

它有三个看家本领：

跟市面上那些能力差不多但吃资源的主流大模型一比，这“百灵”模型的优势太明显：

现在 AI 智能体要往真正的工业场景里扎根，“大小模型结合”已经是板上钉钉的趋势了：

小模型（Small Models）：专攻高频、低延迟的活儿，主打一个极致性价比。
- 举个栗子：OpenAI 最近也下场了，推出了 GPT-5.4mini 和 nano 两款小模型，专门伺候智能体执行层的各种杂事。
大模型（Large Models）：负责啃硬骨头，搞复杂推理和深度分析。
1+1>2：俩搭档互补，解决现实世界里那些烂摊子更高效、更省钱。

张鹏最后点明了方向：技术再花哨，最后都得回归工业效率这个“硬道理”。

下一阶段，Token 效率就是衡量企业级 AI 成色的核心指标。蚂蚁这边会继续盯着企业级通用人工智能（AGI）做文章，把“百灵”企业版及其行业版本推得更广，让智能体真正能在复杂的企业环境里大规模跑起来，而不是只在 PPT 里光鲜亮丽。