腾讯发布视频生成模型HunyuanVideo1.5:降低视频创作门槛
模型概览
腾讯混元团队于2025年11月21日正式发布最新视频生成模型HunyuanVideo1.5,标志着视频生成技术的又一重要突破。该轻量级模型基于Diffusion Transformer(DiT)架构,参数量为8.3B,可生成5-10秒的高清视频,现已在腾讯"元宝"平台开放用户体验。
核心功能特性
多样化生成方式
- 文本生成视频:支持通过文字描述直接生成视频
- 图生视频:结合上传图片与文字,轻松将静态图像转换为动态视频
- 多语言支持:满足中英文输入需求
- 风格多样性:支持写实与动画两种风格
- 文字嵌入:可在视频中生成中英文文字
技术优势
- 一致性表现:确保生成视频在色调、光照、场景、主体和细节方面与原图保持一致
- 复杂场景理解:能够准确呈现复杂提示描述的场景,如"微型英式花园在手提箱内生长"的过程
- 高效推理:采用创新的SSTA稀疏注意力机制,显著提升推理效率
- 渐进训练:结合多阶段渐进式训练策略
技术规格与部署
性能参数
- 模型架构:Diffusion Transformer(DiT)
- 参数量:8.3B(83亿)
- 视频时长:5-10秒
- 部署要求:仅需消费级显卡(14G显存)
技术突破
相比此前开源SOTA旗舰模型通常需要超过20B参数和50GB GPU内存,HunyuanVideo1.5在生成效果实现质变的同时,找到了性能与尺寸的平衡点。
商业化应用
部署平台
- 腾讯"元宝"平台已集成该功能
- 支持"一句话生成视频"的便捷创作方式
- 模型已上传至Hugging Face和GitHub,供开发者下载体验
行业影响
该模型的发布进一步巩固了腾讯在人工智能和视频生成领域的领先地位,为内容创作者提供了更强大的工具和无限的创作可能性。随着技术持续发展,视频生成的应用场景将更加广泛。
