美团发布LongCat-Flash-Chat:5600亿参数模型创纪录,智能体性能惊艳
模型概览
美团于近期正式发布并开源其最新AI大模型LongCat-Flash-Chat。该模型在计算效率与性能之间取得卓越平衡,总参数量达到5600亿,激活参数范围在186亿至313亿之间。
技术创新
- 混合专家架构:采用创新的MoE(Mixture of Experts)架构,运用"零计算专家"机制,仅对每个token激活必要参数,确保计算资源高效利用
- 跨层通道设计:显著提升训练和推理的并行度,在H800硬件上仅训练30天即可实现单用户每秒100个token的推理速度
- 实时参数调控:训练过程中使用PID控制器实时调整专家偏置,将平均激活参数量保持在270亿,有效控制计算功耗
性能表现
智能体能力
- 通过自建Agentic评估集和多智能体数据生成策略,在各类智能体任务中表现优异
- 在复杂场景下表现突出,在VitaBench基准测试中排名第一
- 相比更大参数规模的模型,仍展现出卓越的智能体工具使用能力
通用知识评估
- ArenaHard-V2测试:得分86.50,在所有评估模型中排名第二
- MMLU基准:得分89.71,展现强大语言理解能力
- CEval基准:得分90.44,显示优秀的中文能力评估水平
开源与影响
LongCat-Flash-Chat凭借高效推理速度和出色的智能体性能,不仅在技术上领先竞争对手,还通过开源计划为开发者提供更多研究和应用机会。
项目地址:可通过官方渠道获取
体验网站:已对外开放测试
相关技术关键词
- AI大模型
- 混合专家模型
- PID控制器
本文信息来源于AIbase Daily,发布日期:2025年9月1日