CogVideoX 1.5开源视频生成模型支持5/10秒视频生成

北京智谱华章科技有限公司最新发布 CogVideoX v1.5 模型

概述
北京智谱华章科技有限公司（Beijing Zhipu Huazhang Technology Co., Ltd.）宣布推出其 CogVideoX 系列模型的最新版本，即 CogVideoX v1.5，并将其开源。自8月初发布以来，该系列模型因其尖端技术和深受开发者青睐的功能，在视频生成领域迅速成为领头羊。

新功能和改进

增强的视频生成能力：支持 510 秒、768P、16 帧的视频生成。
I2V 模型：可支持任意尺寸比例，提升了图像到视频转换的质量和复杂语义理解。

模型细节
此次发布的 CogVideoX v1.5 包括两个版本：

CogVideoX v1.5-5B
CogVideoX v1.5-5B-I2V

这些新版本还将同步至青英平台，结合新推出的 CogSound 音频模型，提供增强的音视频质量和多种播放场景支持。

技术改进

自动化过滤框架：通过自动过滤动态连接较差的视频数据，提升生成质量。
CogVLM2-caption 模型：用于生成准确的视频内容描述，提高文本理解和指令跟随能力。
高效三维变分自编码器（3D VAE）：解决内容连贯性问题。
Transformer 架构创新：整合了时间、空间和文本维度，并优化了扩散模型中时间步信息的使用。

训练框架

建立了高效的扩散模型训练框架，通过各种并行计算和时间优化技术实现长视频序列的快速训练。
验证了视频生成领域的缩放规律有效性，并计划在未来扩展数据量和模型规模，探索更高效地压缩视频信息的新模型架构。

开源内容
提供了两个版本供开发者使用，同时结合音频模型 CogSound 提升整体音视频体验。

总结

CogVideoX v1.5 在技术上的改进显著提升了其在图像到视频转换中的性能和质量。通过优化的框架和技术手段，该系列模型不仅增强了生成能力，还提供了多种应用场景的支持。这些改进为公司未来的扩展和创新奠定了坚实的基础，展示了公司在视频生成领域的领导地位。

### 北京智谱华章科技有限公司最新发布 CogVideoX v1.5 模型

**概述**
北京智谱华章科技有限公司（Beijing Zhipu Huazhang Technology Co., Ltd.）宣布推出其 CogVideoX 系列模型的最新版本，即 CogVideoX v1.5，并将其开源。自8月初发布以来，该系列模型因其尖端技术和深受开发者青睐的功能，在视频生成领域迅速成为领头羊。

**新功能和改进**
- **增强的视频生成能力**：支持 510 秒、768P、16 帧的视频生成。
- **I2V 模型**：可支持任意尺寸比例，提升了图像到视频转换的质量和复杂语义理解。

**模型细节**
此次发布的 CogVideoX v1.5 包括两个版本：
- CogVideoX v1.5-5B
- CogVideoX v1.5-5B-I2V

这些新版本还将同步至青英平台，结合新推出的 CogSound 音频模型，提供增强的音视频质量和多种播放场景支持。

**技术改进**
1. **自动化过滤框架**：通过自动过滤动态连接较差的视频数据，提升生成质量。
2. **CogVLM2-caption 模型**：用于生成准确的视频内容描述，提高文本理解和指令跟随能力。
3. **高效三维变分自编码器（3D VAE）**：解决内容连贯性问题。
4. **Transformer 架构创新**：整合了时间、空间和文本维度，并优化了扩散模型中时间步信息的使用。

**训练框架**
- 建立了高效的扩散模型训练框架，通过各种并行计算和时间优化技术实现长视频序列的快速训练。
- 验证了视频生成领域的缩放规律有效性，并计划在未来扩展数据量和模型规模，探索更高效地压缩视频信息的新模型架构。

**开源内容**
提供了两个版本供开发者使用，同时结合音频模型 CogSound 提升整体音视频体验。

### 总结
CogVideoX v1.5 在技术上的改进显著提升了其在图像到视频转换中的性能和质量。通过优化的框架和技术手段，该系列模型不仅增强了生成能力，还提供了多种应用场景的支持。这些改进为公司未来的扩展和创新奠定了坚实的基础，展示了公司在视频生成领域的领导地位。

以上内容可供总经理参考决策。

Source:https://www.aibase.com/news/13100

近期新闻

AI-NEWS · 2024年 11月 11日

CogVideoX 1.5开源视频生成模型支持5/10秒视频生成

北京智谱华章科技有限公司最新发布 CogVideoX v1.5 模型

总结

您可能还喜欢...

AI-NEWS · 2024年 11月 11日

北京智谱华章科技有限公司最新发布 CogVideoX v1.5 模型

总结

您可能还喜欢...

CoreWeave 90亿收购Core Scientific

知网AI智能备课系统正式上线 支持智能写作、智能编改等

Meta AI 失控：智能体何时学会刹车

知网AI智能备课系统正式上线支持智能写作、智能编改等