美团发布LongCat-Flash-Thinking-2601模型，进一步提升开源工具利用能力

发布日期：2026年1月16日
发布团队：美团LongCat团队
核心亮点：该模型在智能体搜索、工具调用和推理等核心评估基准上达到了业界领先水平，并首次开源其“再思考模式”。

模型核心优势

1. 卓越的工具调用能力

核心价值：在依赖工具的复杂任务中表现出色。
实际效益：显著降低了在真实场景中适配新工具的训练成本。

2. 创新的“再思考模式”

模式特点：模拟人类深度思考过程，将思考分为“并行思考”和“总结”两个阶段，确保思考全面、决策可靠。
开放程度：首次以开源形式提供在线免费体验。
体验地址：用户可通过网站 https://www.aibase.com/tool/longcat-flash-thinking-2601 进行尝试。

性能评估结果

经过严格评估，LongCat-Flash-Thinking-2601在多项指标上表现优异：

评估领域	测试项目	得分/表现	地位/排名
编程能力	LCB评估	82.8分	位列同类模型前列
数学推理	AIME-25评估	100分（满分）	巩固了在该领域的领先地位
智能体工具调用与搜索	综合评估	表现优异	达到SOTA水平

技术创新与训练策略

1. 新颖的泛化能力评估方法

方法：采用自动化任务合成流程。
功能：支持用户根据关键词随机生成复杂任务，并评估模型在此类环境下的表现。
实验结果：模型在多个随机生成的任务中均保持领先性能，证明了其强大的泛化能力。

2. 先进的训练策略

策略核心：“环境扩展 + 多环境强化学习”。
效果：为模型提供了多样化、高强度的训练环境，显著提升了其在复杂场景下的适应能力。
数据增强：在训练数据中注入噪声，增强了模型的鲁棒性，使其在面对API调用失败、数据缺失等复杂情况时仍能高效完成任务。

开源与开发者支持

为降低开发门槛，美团LongCat团队全面开放了以下资源：

开放内容：模型权重、推理代码及在线体验能力。
获取平台：开发者可通过 GitHub、Hugging Face、ModelScope 等平台获取资源。
目标：鼓励开发者积极参与此开源项目。

总结

LongCat-Flash-Thinking-2601的发布，标志着美团在提升AI模型工具利用与复杂任务推理能力方面取得了重要进展。其开源的“再思考模式”和全面的性能表现，为AI开发者社区提供了强大的新工具。

火龙果频道

近期新闻

AI-NEWS · 2026年 1月 17日

美团开源工具升级

美团发布LongCat-Flash-Thinking-2601模型，进一步提升开源工具利用能力

模型核心优势

1. 卓越的工具调用能力

2. 创新的“再思考模式”

性能评估结果

技术创新与训练策略

1. 新颖的泛化能力评估方法

2. 先进的训练策略

开源与开发者支持

总结

您可能还喜欢...

AI-NEWS · 2026年 1月 17日

美团发布LongCat-Flash-Thinking-2601模型，进一步提升开源工具利用能力

模型核心优势

1. 卓越的工具调用能力

2. 创新的“再思考模式”

性能评估结果

技术创新与训练策略

1. 新颖的泛化能力评估方法

2. 先进的训练策略

开源与开发者支持

总结

您可能还喜欢...

AI购物代理争夺未来零售市场

小米开源 VLA 模型：20 小时教机器人“管中取针”

智驾大模型加速量产