AI-NEWS · 2026年 2月 15日

MiniMax开源M2.5

MiniMax 开源 M2.5 模型：低成本智能体时代来临

发布日期：2026年2月14日
来源：AIbase AI新闻

核心摘要

MiniMax 在108天内发布了其M2系列的第三个版本——M2.5模型，并已开源权重。该模型在能力、效率和成本上实现突破，标志着低成本智能体（Agent）时代的到来。

核心能力：多维突破

M2.5在多项权威评测中表现优异：

编程能力：
- SWE-Bench Verified 得分达 80.2，超越GPT-5.2，接近Claude Opus4.5。
- Multi-SWE-Bench 得分 51.3，在多语言编程能力中排名第一。
- 具备架构级规划能力，支持多平台全栈开发，框架泛化能力优于Claude Opus4.6。
搜索与工具调用：
- BrowseComp 得分 76.3，在搜索和工具调用能力上优势显著。
- 在专家级搜索任务中，能将交互轮次减少 20%。
办公场景：
- 集成金融、法律等行业知识，内部评估对主流模型的胜率达 59.0%。
效率与成本：
- 推理速度比M2.1快 37%，与Claude Opus4.6相当。
- 成本仅为同类模型的 1/10。

技术创新：快速迭代的基石

M2.5的快速进化源于三项核心技术：

Forge原生Agent RL框架：实现约 40倍 的训练加速。
CISPO算法：确保大规模训练稳定性，解决长上下文信用分配问题。
创新的奖励设计：平衡模型性能与响应速度。
实际影响：MiniMax内部 30% 的日常任务和 80% 的新代码提交由M2.5完成。M2系列在108天内，SWE-Bench Verified分数从69.4跃升至80.2，迭代速度领先行业主流模型。

部署方式：适配多场景

M2.5提供三种接入方式，满足不同用户需求：

方式	适用人群	关键信息
无代码使用	非技术用户	通过MiniMax Agent网页界面开箱即用，平台已有用户创建的 10,000+ 个可复用“专家”。
API调用	开发者	可通过ModelScope调用免费API或官方API。官方提供“Lightning”和“Standard”两个版本，成本为同类模型的 1/10 至 1/20。
本地部署	需要私有化部署的用户	支持四种方案： • SGLang：适用于高并发生产环境 • vLLM：适用于中小规模生产环境 • Transformers：适用于快速验证 • MLX：适用于Mac本地开发每种方案均提供硬件要求与操作步骤。

工具调用与推理优化

工具调用：原生支持结构化工具调用，可并行调用多个工具。使用vLLM/SGLang部署可直接使用OpenAI SDK格式；其他框架需手动解析XML格式输出。官方提供了将工具结果返回模型的完整流程与最佳实践。
推理参数：官方推荐配置为 temperature=1.0, top_p=0.95, top_k=40，不同场景可灵活优化。
编程提示：可善用模型的“架构师思维”，该模型对 10余种 编程语言及各类脚手架工具具备优秀适应性。

其他AI新闻摘要（2026年2月13-14日）

字节跳动豆包大模型2.0：正式发布，推理成本降低一个数量级，API已开放。
DeepSeek V4前瞻：2月14日开启新长文本模型测试，支持最高 100万 tokens，知识库更新至2025年5月。
蚂蚁集团开源Ring-2.5-1T：全球首个线性架构混合的万亿参数思维模型，在长文本生成、数学推理和智能体任务上表现优异，对32K以上文本内存访问减少 10倍以上，生成吞吐量提升 3倍。
全球首颗AI大模型卫星：香港中文大学研制的“中大一号”成功发射，专注于城市可持续发展。
行业应用：
- AI+文旅：同程旅行全面接入腾讯元宝，实现从搜索到预订的秒级响应。
- AI+社交：京东推出可跨品牌互联的智能硬件社交网络。
- AI+内容创作：美图快拍将首批接入字节跳动Seedance 2.0大模型。
AI对就业的影响：华尔街开始关注受AI威胁的“生存危机”行业，涉及大量数据处理和基础逻辑的岗位风险较高。

火龙果频道

您可能还喜欢...