AI-NEWS · 2025年 3月 10日

华为发布开源多模态模型

StepStar推出开源多模态大模型Step-Video和Step-Audio

概述

Modelers社区近日正式推出了由StepStar开发的两款开源多模态大模型：Step-Video和Step-Audio。这两款模型分别专注于视频生成和语音交互，旨在为开发者和企业用户提供更强大的AI工具。

Step-Video

模型名称：Step-Video-T2V
参数规模：300亿参数，目前全球最大的开源视频生成模型
生成能力：可直接生成204帧、540P分辨率的高质量视频
优势：在指令跟随、运动平滑度、物理合理性和美学方面超越现有顶级开源视频模型

Step-Audio

创新点：行业首个能够生成多样化情感、方言、语言、歌唱风格和个性化特征的大型语音模型
意义：标志着AI语音交互领域的重大突破

技术适配

硬件支持：适配华为Ascend CANN异构计算架构和Ascend服务器
开发者体验：Modelers社区提供免费计算资源支持，用户无需复杂环境设置即可在线进行模型推理，快速验证AI解决方案

行业合作

合作伙伴：包括TensFlow、阿里云、火山引擎和TCL等行业领先企业
未来计划：StepStar计划在3月推出新的图像到视频模型，进一步丰富产品线

影响

应用扩展：华为Ascend与StepStar的合作不仅扩展了多模态AI模型的应用场景，还为开发者提供了更强大的工具，推动了整个行业的技术进步

版权信息

版权：AIbase Base 2024
来源：点击查看原文

火龙果频道

您可能还喜欢...