蚂蚁集团百灵大模型团队开源高效推理模型,大幅降低推理成本
蚂蚁集团的百灵大模型团队于2025年9月28日宣布开源两款高效推理模型:Ring-flash-linear-2.0 和 Ring-mini-linear-2.0。这些模型专为提升深度推理效率设计,并同步发布了两个自研高性能融合算子:FP8融合算子 和 线性Attention推理融合算子,旨在实现“大参数低激活”的高效推理,并支持超长上下文处理。
关键性能与成本数据
- 成本大幅降低:在深度推理场景中,新模型的推理成本仅为同规模密集模型的十分之一。相比前代Ring系列,推理成本进一步降低超过50%。
- 效率提升:用户在执行复杂推理任务时,可显著减少计算资源消耗,从而提高工作效率。
- 性能表现:模型在训练和推理引擎算子的高对齐下,能在强化学习阶段进行长期稳定优化,在多个挑战性推理基准测试中保持最佳性能(SOTA)。
深度观点分析
- 成本效益:推理成本降至同规模模型的10%,意味着企业部署AI推理服务的门槛大幅降低,可能推动AI技术在资源受限环境(如边缘计算或中小企业)的普及。
- 技术进步:相比前代成本降低50%以上,突显了架构优化和算子融合在AI模型效率提升中的关键作用,预示着未来模型可能进一步向轻量化和高性能方向发展。
- 开源影响:模型已在Hugging Face和ModelScope等平台开源,这将加速开发者社区的创新,促进AI推理技术的标准化和广泛应用。
其他相关AI新闻摘要
- 腾讯开源图像生成模型:腾讯发布了80B参数的多模态图像生成模型“Hunyuan Image 3.0”,这是首款工业级原生多模态模型,在复杂语义和文本到图像生成方面表现优异,媲美领先闭源模型。
- Fedora社区AI政策草案:Fedora社区发布了“AI辅助贡献政策”草案,并开启两周反馈期,旨在规范AI技术使用,维护开源核心价值观,确保社区伦理不被削弱。
通过这次开源,蚂蚁集团展示了其在AI领域的技术实力,为开发者提供了高效工具,有望推动AI研发的进一步突破。