AI-NEWS · 2024年 11月 11日

CogVideoX 1.5开源视频生成模型支持5/10秒视频生成

北京智谱华章科技有限公司最新发布 CogVideoX v1.5 模型

概述
北京智谱华章科技有限公司(Beijing Zhipu Huazhang Technology Co., Ltd.)宣布推出其 CogVideoX 系列模型的最新版本,即 CogVideoX v1.5,并将其开源。自8月初发布以来,该系列模型因其尖端技术和深受开发者青睐的功能,在视频生成领域迅速成为领头羊。

新功能和改进

  • 增强的视频生成能力:支持 510 秒、768P、16 帧的视频生成。
  • I2V 模型:可支持任意尺寸比例,提升了图像到视频转换的质量和复杂语义理解。

模型细节
此次发布的 CogVideoX v1.5 包括两个版本:

  • CogVideoX v1.5-5B
  • CogVideoX v1.5-5B-I2V

这些新版本还将同步至青英平台,结合新推出的 CogSound 音频模型,提供增强的音视频质量和多种播放场景支持。

技术改进

  1. 自动化过滤框架:通过自动过滤动态连接较差的视频数据,提升生成质量。
  2. CogVLM2-caption 模型:用于生成准确的视频内容描述,提高文本理解和指令跟随能力。
  3. 高效三维变分自编码器(3D VAE):解决内容连贯性问题。
  4. Transformer 架构创新:整合了时间、空间和文本维度,并优化了扩散模型中时间步信息的使用。

训练框架

  • 建立了高效的扩散模型训练框架,通过各种并行计算和时间优化技术实现长视频序列的快速训练。
  • 验证了视频生成领域的缩放规律有效性,并计划在未来扩展数据量和模型规模,探索更高效地压缩视频信息的新模型架构。

开源内容
提供了两个版本供开发者使用,同时结合音频模型 CogSound 提升整体音视频体验。

总结

CogVideoX v1.5 在技术上的改进显著提升了其在图像到视频转换中的性能和质量。通过优化的框架和技术手段,该系列模型不仅增强了生成能力,还提供了多种应用场景的支持。这些改进为公司未来的扩展和创新奠定了坚实的基础,展示了公司在视频生成领域的领导地位。

### 北京智谱华章科技有限公司最新发布 CogVideoX v1.5 模型

**概述**
北京智谱华章科技有限公司(Beijing Zhipu Huazhang Technology Co., Ltd.)宣布推出其 CogVideoX 系列模型的最新版本,即 CogVideoX v1.5,并将其开源。自8月初发布以来,该系列模型因其尖端技术和深受开发者青睐的功能,在视频生成领域迅速成为领头羊。

**新功能和改进**
- **增强的视频生成能力**:支持 510 秒、768P、16 帧的视频生成。
- **I2V 模型**:可支持任意尺寸比例,提升了图像到视频转换的质量和复杂语义理解。

**模型细节**
此次发布的 CogVideoX v1.5 包括两个版本:
- CogVideoX v1.5-5B
- CogVideoX v1.5-5B-I2V

这些新版本还将同步至青英平台,结合新推出的 CogSound 音频模型,提供增强的音视频质量和多种播放场景支持。

**技术改进**
1. **自动化过滤框架**:通过自动过滤动态连接较差的视频数据,提升生成质量。
2. **CogVLM2-caption 模型**:用于生成准确的视频内容描述,提高文本理解和指令跟随能力。
3. **高效三维变分自编码器(3D VAE)**:解决内容连贯性问题。
4. **Transformer 架构创新**:整合了时间、空间和文本维度,并优化了扩散模型中时间步信息的使用。

**训练框架**
- 建立了高效的扩散模型训练框架,通过各种并行计算和时间优化技术实现长视频序列的快速训练。
- 验证了视频生成领域的缩放规律有效性,并计划在未来扩展数据量和模型规模,探索更高效地压缩视频信息的新模型架构。

**开源内容**
提供了两个版本供开发者使用,同时结合音频模型 CogSound 提升整体音视频体验。

### 总结
CogVideoX v1.5 在技术上的改进显著提升了其在图像到视频转换中的性能和质量。通过优化的框架和技术手段,该系列模型不仅增强了生成能力,还提供了多种应用场景的支持。这些改进为公司未来的扩展和创新奠定了坚实的基础,展示了公司在视频生成领域的领导地位。

以上内容可供总经理参考决策。

Source:https://www.aibase.com/news/13100