AI-NEWS · 2024年 11月 11日

智谱AI开源视频模型新特性：快速4K清晰阴影

以下是整理后的材料分析，以Markdown格式呈现：

# Zhipu AI 发布最新视频生成模型 CogVideoX v1.5 并开源

## 模型概述

Zhipu AI 的技术团队发布了最新的视频生成模型 **CogVideoX v1.5**，并将其开放源代码。该版本标志着自8月以来 CogVideoX 系列的又一次重大进步。

### 主要改进点
- 支持 5 秒和 10 秒视频长度。
- 提供 768P 分辨率和每秒 16 帧（fps）的生成能力。
- **I2V (图像转视频)** 模型支持任意宽高比，进一步增强了对复杂语义的理解。

### 主要模型
- **CogVideoX v1.5-5B** 和 **CogVideoX v1.5-5B-I2V**：为开发者提供更强大的视频生成工具。

## 新平台和功能

### New Qingying 平台
- CogVideoX v1.5 将在 Qingying 平台上同步推出，并与新发布的 CogSound 音频模型结合，成为 **New Qingying**。
- 提供多项独特服务，包括视频质量、美学表达和动作合理性的显著提升。
- 支持生成 10 秒、4K 分辨率、60 帧的超高清视频。

### 新功能介绍
- **视频质量增强**：改进了图像转视频的质量、美学表达和复杂提示的理解能力。
- **超高清分辨率**：支持生成 10 秒、4K 分辨率、60 帧的超高清视频。
- **可变宽高比**：支持任意宽高比，适应不同的播放场景。
- **多通道输出**：同一指令图像可以一次生成 4 条视频。
- **带音效的 AI 视频**：New Qingying 可以生成与视觉匹配的声音效果。

## 数据处理和算法创新

### 数据质量改进
- 开发了自动化筛选框架，过滤掉劣质视频数据。
- 推出了端到端视频理解模型 **CogVLM2-caption**，生成准确的内容描述，确保生成的视频满足用户需求。

### 内容连贯性提升
- 使用高效的 3D 变分自编码器 (3D VAE) 技术，大幅降低训练成本和难度。
- 开发了融合文本、时间和空间维度的 Transformer 架构，通过移除传统的交叉注意力模块增强文本与视频之间的交互，从而提高视频生成质量。

## 未来展望
Zhipu AI 技术团队将继续扩大数据量和模型规模，探索更有效的模型架构，以提供更好的视频生成体验。开源 CogVideoX v1.5 不仅提供了强大的开发工具，还为视频创作领域注入了新的活力。

数据分析及观点

技术进步：从发布的细节来看，CogVideoX v1.5 在多项技术指标上取得了显著进展，包括支持更长的视频长度、更高的分辨率和帧率。这表明 Zhipu AI 在视频生成领域正逐步提升其技术水平。
用户体验优化：
- 多通道输出功能使得开发者可以快速生成多样化的视频内容，提高创作效率。
- 超高清4K 视频支持为高端市场提供了强大的技术支持，满足专业制作需求。
数据处理与模型创新：通过引入自动化筛选框架和端到端视频理解模型（CogVLM2-caption），显著提升了生成视频的质量和连贯性。此外，高效的 3D VAE 和改进的 Transformer 架构有效降低了训练成本，优化了模型性能。
开源策略：将 CogVideoX v1.5 开源不仅促进了技术共享，还吸引了更多开发者参与其中，进一步推动视频生成技术的发展。

结论

总体来看，Zhipu AI 的新发布展示了其在视频生成领域的技术创新和强大的市场竞争力。该模型的开放性为行业注入了新的活力，并有望带来更多的应用场景和发展机会。

希望这些总结能帮助总经理做出更明智的决策！

Source:https://www.aibase.com/news/13101

您可能还喜欢...