美团LongCat-Flash-Lite模型发布:激活参数45亿,性能比肩大模型!
发布日期:2026年2月6日
来源:AIbase
核心突破:嵌入扩展(Embedding Expansion)新范式
传统MoE(专家混合)架构通过增加专家数量来提升模型能力,但常面临边际收益递减和通信成本高的问题。美团LongCat团队发布的新模型LongCat-Flash-Lite,通过创新的 “嵌入扩展” 范式,成功突破了性能瓶颈。
研究显示,在某些条件下,扩展嵌入层比单纯增加专家数量能获得更优的帕累托前沿。该模型总参数量为685亿,但由于采用了N-gram嵌入层,每次推理仅激活29亿至45亿参数。其中,超过300亿参数被高效分配至嵌入层,利用N-gram捕捉局部语义,精准识别如“编程指令”等特定场景,显著提升了理解准确率。
垂直优化:从架构到系统的全链条演进
为将理论上的稀疏优势转化为实际性能,美团实施了三项系统级优化:
- 智能参数分配:嵌入层参数占比达46%,利用O(1)查找复杂度,避免了参数规模扩大带来的计算量线性增长。
- 专用缓存与内核融合:设计了类似KV Cache的N-gram Cache机制,并定制了CUDA内核(如AllReduceRMSNorm融合),显著降低了IO延迟。
- 推测解码协作:通过3步推测推理扩大批次大小,并结合常规嵌入层的草稿模型,进一步降低延迟。
在典型工作负载(输入4K,输出1K)下,该模型API能提供500-700 tokens/秒的快速生成速度,并支持最大256K的上下文长度。
性能表现:智能体与代码能力领先
在多项权威基准测试中,LongCat-Flash-Lite展现出跨级竞争力:
- 智能体任务:在tau2-Bench的电信、零售、航空场景中均取得最高分。
- 代码能力:
- SWE-Bench准确率达到 54.4%。
- 在终端命令执行基准TerminalBench上以 33.75分 远超其他模型。
- 通用能力:
- MMLU得分 85.52,与Gemini2.5Flash-Lite相当。
- 在AIME24级数学竞赛中表现稳定。
开源与试用
目前,美团已全面开源模型权重、技术报告及配套推理引擎SGLang-FluentLLM。开发者可通过LongCat API开放平台申请试用,享受每日5000万tokens的免费额度。
