AReaL v1.0 强化学习训练框架稳定版发布:智能体可“边跑边训”
发布日期:2026年3月4日
发布方:蚂蚁集团与清华大学联合发布
核心特性:首个全异步训练与推理解耦的大模型强化学习训练系统,支持智能体(Agent)无需修改代码即可接入强化学习(RL)训练。
一、 解决的核心痛点
当前智能体框架(如 LangChain、Claude Code、OpenClaw)发展迅速,但面临两大瓶颈:
- 训练接入成本高:不同框架接口各异,接入时常需编写整套适配代码。
- 缺乏持续进化能力:多数智能体能力依赖于底层模型在训练阶段学习的固定权重,部署后无法针对具体场景持续优化,能力上限在交付时即已确定。
二、 AReaL v1.0 的核心创新
1. 一键接入,无需修改代码
- 机制:在智能体与训练系统之间增加一个 Proxy Worker 中间层。
- 操作:开发者仅需修改一个请求地址,即可将智能体接入训练系统。
- 兼容性:兼容各类智能体框架。
2. 异步训练架构,实现“边跑边训”
- 工作流程:
- 智能体照常执行任务。
- 用户定期对智能体完成任务的情况进行评分。
- AReaL 在后台自动收集训练数据并更新模型。
- 效果:智能体在持续使用过程中实现自动进化。
- 示例:以 OpenClaw 为例,开发者只需在配置文件中将
baseurl和apikey指向 AReaL 网关,即可接入强化学习训练。
3. 原生训练引擎 Archon
- 实现完整的 5D 并行:基于 PyTorch 原生能力,实现了数据并行、流水线并行、张量并行、上下文并行和专家并行。
- 优势:降低了安装和调试门槛,并提供多种训练与推理后端选项,便于在不同环境中灵活部署。
- 开发效率奇迹:该复杂的分布式系统从零开始到验证正确性,仅用时 1 人月(32天),修改了近 百万行代码,实现了能够训练百亿参数混合专家(MoE)模型的 Archon 引擎。
三、 高效开发的背后:AI辅助开发系统
AReaL 集成了 AI 辅助开发系统,实现了高度自动化的复杂工程开发。
- 流程覆盖:为开发者提供从规划、编码、验证到 PR 创建的端到端支持。
- 核心模块辅助:在处理 MoE 并行、内存优化、算法实现等核心模块时,专用的 AI 编程助手能像资深专家一样,在代码变更时及时出现并提供针对性指导。
- 角色超越工具:AReaL 的 AI 辅助编程不仅是效率工具,更能承担复杂基础设施工程中“可交付”的研发工作,引领下一代 AI 基础设施工程范式的创新。
四、 未来计划与开源
- 迭代方向:AReaL 团队表示将持续围绕训练引擎、易用性以及多模态智能体训练进行迭代。
- 开源:AReaL v1.0 的代码与文档已在 inclusionAI 社区 开源。
- GitHub 仓库:
https://github.com/inclusion-ai/areal - 相关论文:
https://arxiv.org/abs/2502.12391
- GitHub 仓库:
背景说明:本文信息整理自 AIbase Daily 2026年3月4日的报道。AReaL 框架的发布旨在降低智能体强化学习训练门槛,推动智能体向可持续自主进化的方向发展。
