MiniMax 开源 M2.5 模型:低成本智能体时代来临
发布日期:2026年2月14日
来源:AIbase AI新闻
核心摘要
MiniMax 在108天内发布了其M2系列的第三个版本——M2.5模型,并已开源权重。该模型在能力、效率和成本上实现突破,标志着低成本智能体(Agent)时代的到来。
核心能力:多维突破
M2.5在多项权威评测中表现优异:
- 编程能力:
- SWE-Bench Verified 得分达 80.2,超越GPT-5.2,接近Claude Opus4.5。
- Multi-SWE-Bench 得分 51.3,在多语言编程能力中排名第一。
- 具备架构级规划能力,支持多平台全栈开发,框架泛化能力优于Claude Opus4.6。
- 搜索与工具调用:
- BrowseComp 得分 76.3,在搜索和工具调用能力上优势显著。
- 在专家级搜索任务中,能将交互轮次减少 20%。
- 办公场景:
- 集成金融、法律等行业知识,内部评估对主流模型的胜率达 59.0%。
- 效率与成本:
- 推理速度比M2.1快 37%,与Claude Opus4.6相当。
- 成本仅为同类模型的 1/10。
技术创新:快速迭代的基石
M2.5的快速进化源于三项核心技术:
- Forge原生Agent RL框架:实现约 40倍 的训练加速。
- CISPO算法:确保大规模训练稳定性,解决长上下文信用分配问题。
- 创新的奖励设计:平衡模型性能与响应速度。
实际影响:MiniMax内部 30% 的日常任务和 80% 的新代码提交由M2.5完成。M2系列在108天内,SWE-Bench Verified分数从69.4跃升至80.2,迭代速度领先行业主流模型。
部署方式:适配多场景
M2.5提供三种接入方式,满足不同用户需求:
| 方式 | 适用人群 | 关键信息 |
|---|---|---|
| 无代码使用 | 非技术用户 | 通过MiniMax Agent网页界面开箱即用,平台已有用户创建的 10,000+ 个可复用“专家”。 |
| API调用 | 开发者 | 可通过ModelScope调用免费API或官方API。官方提供“Lightning”和“Standard”两个版本,成本为同类模型的 1/10 至 1/20。 |
| 本地部署 | 需要私有化部署的用户 | 支持四种方案: • SGLang:适用于高并发生产环境 • vLLM:适用于中小规模生产环境 • Transformers:适用于快速验证 • MLX:适用于Mac本地开发 每种方案均提供硬件要求与操作步骤。 |
工具调用与推理优化
- 工具调用:原生支持结构化工具调用,可并行调用多个工具。使用vLLM/SGLang部署可直接使用OpenAI SDK格式;其他框架需手动解析XML格式输出。官方提供了将工具结果返回模型的完整流程与最佳实践。
- 推理参数:官方推荐配置为
temperature=1.0, top_p=0.95, top_k=40,不同场景可灵活优化。 - 编程提示:可善用模型的“架构师思维”,该模型对 10余种 编程语言及各类脚手架工具具备优秀适应性。
其他AI新闻摘要(2026年2月13-14日)
- 字节跳动豆包大模型2.0:正式发布,推理成本降低一个数量级,API已开放。
- DeepSeek V4前瞻:2月14日开启新长文本模型测试,支持最高 100万 tokens,知识库更新至2025年5月。
- 蚂蚁集团开源Ring-2.5-1T:全球首个线性架构混合的万亿参数思维模型,在长文本生成、数学推理和智能体任务上表现优异,对32K以上文本内存访问减少 10倍以上,生成吞吐量提升 3倍。
- 全球首颗AI大模型卫星:香港中文大学研制的“中大一号”成功发射,专注于城市可持续发展。
- 行业应用:
- AI+文旅:同程旅行全面接入腾讯元宝,实现从搜索到预订的秒级响应。
- AI+社交:京东推出可跨品牌互联的智能硬件社交网络。
- AI+内容创作:美图快拍将首批接入字节跳动Seedance 2.0大模型。
- AI对就业的影响:华尔街开始关注受AI威胁的“生存危机”行业,涉及大量数据处理和基础逻辑的岗位风险较高。
