AI-NEWS · 2026年 2月 12日

蚂蚁开源全模态大模型

蚂蚁集团开源全模态大模型 Ming-Flash-Omni 2.0:多模态理解、图像编辑与语音生成能力全面增强

发布日期:2026年2月11日
来源:AIbase Daily

核心摘要

2026年2月11日,蚂蚁集团正式开源其多模态大模型 Ming-Flash-Omni 2.0。该模型在多项公开基准测试中表现卓越,在视觉语言理解、语音控制生成、图像生成与编辑等关键能力上,部分指标已超越 Gemini 2.5 Pro,为开源多模态大模型树立了新标杆。

关键性能与突破

1. 行业首创的音频统一生成模型

  • 统一生成:首次实现可在同一音轨上同时生成语音、环境音效和音乐
  • 精细控制:用户仅需通过自然语言指令,即可精细控制音色、语速、语调、音量、情感、方言等参数。
  • 高效推理:在推理阶段实现了3.1Hz的超低推理帧率,能够实时高保真生成长达分钟级的音频,在效率和成本控制上保持行业领先。

2. 多模态能力全面领先

  • 视觉理解:通过集成数十亿细粒度数据及挑战性示例训练策略,显著提升了对相似动物、工艺品细节、稀有文物等复杂物体的识别能力。
  • 图像编辑:增强了复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化、一键修图等功能,即使在动态场景中也能保持图像连贯性与真实细节。
  • 架构基础:基于 Ling-2.0 架构(MoE, 100B-A6B) 训练,围绕 “看得更准、听得更精、生成更稳” 三大目标进行全面优化。

技术意义与行业影响

解决“多模态”模型的通用性与专业性矛盾

行业专家普遍认为,多模态大模型终将走向更统一的架构。然而现实是,模型往往难以兼顾通用与专精。蚂蚁集团通过多年持续投入,使 Ming-Omni 系列实现了演进:

  • 早期版本:构建统一的多模态能力基础。
  • 中期版本:验证规模增长带来的能力提升。
  • 2.0 版本:通过更大规模的数据系统性的训练优化,将开源多模态的理解与生成能力推至行业领先水平,甚至在部分领域超越了顶级专业模型。

提供“可复用的基础能力”

此次开源意味着其核心能力以 “可复用的基座” 形式释放,为端到端的多模态应用开发提供了统一的能力入口。

官方表态与未来规划

蚂蚁集团百灵模型团队负责人周俊表示:

  • 技术关键:多模态技术的核心在于通过统一架构实现多模态能力的深度融合与高效利用。
  • 开发者价值:开源后,开发者可在同一框架下复用视觉、语音和生成能力,大幅降低多模型集成的复杂度和成本
  • 未来方向:团队将持续优化视频时序理解、复杂图像编辑、实时长音频生成,完善工具链和评测体系,推动多模态技术在实际业务场景中的规模化应用。

获取与体验

目前,Ming-Flash-Omni 2.0 的模型权重与推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁官方平台 “灵 Studio” 进行体验和调用。


同日其他AI要闻摘要(2026年2月11日)

  1. 通义千问与蚂蚁阿福下载量激增:因茶点单、“健康阿福”等活动,两款应用占据中国区 App Store 免费应用榜前两位。蚂蚁阿福已与央视合作,并接入全国超 5000家 医疗机构。
  2. 智谱GLM-5意外泄露:具体细节未披露。
  3. 京东正式入局AI支付领域:具体方案未披露。
  4. Mistral发布新款语音转文本AI模型:主打高速转录、隐私保护与高性价比。
  5. 阿里巴巴发布RynnBrain大模型:为具身AI模型,旨在为机器装备“思考大脑”,性能称超越Google Gemini。
  6. 科大讯飞发布星火X2大模型:采用全国产算力训练,聚焦四大专业场景。
  7. AVATR发布AVATR.OS 5.0系统:深度融合AI大模型能力,并首发搭载MoLA大模型助手。
  8. 科大讯飞“星火X2”大模型升级:覆盖超130种语言,聚焦教育、医疗等实际需求。
  9. 元力灵技发布全球首个具身原生大模型DM0:宣称完全开源,可使机器人自主学习。
  10. 思科发布新一代边缘AI基础设施设备:将会议室等场景转变为可管理的边缘基础设施。
  11. 农业AI新突破:全球首个梨产业大模型“梨想”及国内首个大豆大模型“丰数”在安徽合肥正式发布。

火龙果频道