StepStar推出开源多模态大模型Step-Video和Step-Audio
概述
Modelers社区近日正式推出了由StepStar开发的两款开源多模态大模型:Step-Video和Step-Audio。这两款模型分别专注于视频生成和语音交互,旨在为开发者和企业用户提供更强大的AI工具。
Step-Video
- 模型名称:Step-Video-T2V
- 参数规模:300亿参数,目前全球最大的开源视频生成模型
- 生成能力:可直接生成204帧、540P分辨率的高质量视频
- 优势:在指令跟随、运动平滑度、物理合理性和美学方面超越现有顶级开源视频模型
Step-Audio
- 创新点:行业首个能够生成多样化情感、方言、语言、歌唱风格和个性化特征的大型语音模型
- 意义:标志着AI语音交互领域的重大突破
技术适配
- 硬件支持:适配华为Ascend CANN异构计算架构和Ascend服务器
- 开发者体验:Modelers社区提供免费计算资源支持,用户无需复杂环境设置即可在线进行模型推理,快速验证AI解决方案
行业合作
- 合作伙伴:包括TensFlow、阿里云、火山引擎和TCL等行业领先企业
- 未来计划:StepStar计划在3月推出新的图像到视频模型,进一步丰富产品线
影响
- 应用扩展:华为Ascend与StepStar的合作不仅扩展了多模态AI模型的应用场景,还为开发者提供了更强大的工具,推动了整个行业的技术进步
版权信息
- 版权:AIbase Base 2024
- 来源:点击查看原文