开源大模型领域新突破:文小白正式发布第四代开源模型XBai o4
核心技术创新:独特的"反思生成范式"
- 技术突破:XBai o4引入创新的"反思生成范式",结合了:
- Long-CoT强化学习
- 过程奖励学习(Process Reward Learning)
- 双重能力:
- 深度推理:像人类一样进行多步思考
- 高质量推理链选择:评估并选择最优推理路径
- 效率提升:通过共享过程奖励模型(PRMs)和策略模型的主干网络,将过程奖励的推理时间减少99%
卓越性能表现
- 三种模式:提供低、中、高三种模式以适应不同任务复杂度
- 基准测试表现:
- 中型模式全面超越OpenAI o3-mini
- 部分测试表现超过Anthropic的Claude Opus
- 测试领域:在AIME24、AIME25、LiveCodeBench v5和C-EVAL等多个测试中展现出卓越推理能力
开源贡献
文小白已在GitHub上开源相关训练和评估代码,为AI研究社区提供宝贵资源,同时表明开源大模型在复杂推理领域的竞争力正在快速提升。