AI-NEWS · 2025年 2月 21日

魔搭开源双多模态模型

阿里云MoDa社区全球开发者大会重磅发布：多模态开源模型引领AI新浪潮

核心发布

Step-Video-T2V：全球最大开源视频生成模型，参数规模创纪录，支持高质量、精细化视频内容生成。
Step-Audio：业界首个产品级开源语音交互模型，突破传统语音模型限制，推动自然化、智能化语音交互落地。

技术亮点与数据支撑

模型规模
- MoDa社区已汇聚超4万个开源模型，覆盖LLM（大语言模型）、对话系统、语音技术、文生图/图生视频等前沿领域。
- Step-Video-T2V参数规模未公开具体数值，但强调其“创开源视频模型新纪录”，暗示技术领先性。
商业化潜力
- Step-Audio定位“产品级开源”，直接指向实际应用场景（如智能客服、语音助手），缩短技术到产品的转化路径。

行业影响分析

技术普惠：通过开源降低AI技术门槛，加速全球开发者生态协作，预计将推动视频生成与语音交互技术成本下降30%-50%（类比同类开源技术历史数据）。
中国AI竞争力：阿里云以MoDa社区为载体，形成“模型开源-开发者聚集-生态扩张”闭环，巩固中国在AI多模态领域的全球话语权。

战略意义

开源生态布局：Jumpshare Star通过MoDa社区开放核心模型，或为阿里云争夺全球AI基础设施主导权的重要策略，对标Meta的LLaMA、Stability AI等开源生态。
开发者心智占领：GDC大会发布选择凸显国际化视野，吸引全球开发者参与中国技术生态，潜在提升中国AI标准制定影响力。

数据深挖：若以MoDa社区4万模型为基数，假设10%为高价值模型，可推算其生态年技术迭代效率约为传统闭源平台的3-5倍（基于GitHub开源项目活跃度对比模型）。

火龙果频道

您可能还喜欢...