字节跳动发布InfinityStar框架:视频生成速度提升至58秒
核心要点
- 生成效率突破:InfinityStar框架将5秒720p视频生成时间缩短至仅58秒
- 技术创新:采用时空金字塔模型,有效解耦外观信息与动态运动信息
- 训练优化:引入知识继承策略,显著减少训练时间和计算资源消耗
技术细节
框架设计理念
InfinityStar框架基于对视频数据本质的深度理解,与传统将视频视为单一3D数据块的方法不同,该框架采用时空金字塔模型,明确分离空间尺度与时间维度。这种设计使模型在处理视频时能更有效地解耦外观信息与动态运动信息,大幅提升生成质量。
关键技术突破
- 时空金字塔模型:通过分离空间和时间维度,优化视频数据处理
- 知识继承策略:使用预训练的变分自编码器(VAE)作为基础,快速学习高质量视频特征
- 统一架构支持:不仅支持文本到视频生成,还支持图像生成和视频延续等多种视觉生成任务
性能表现
实验结果显示,InfinityStar在保持优异视觉质量的同时,实现了极高的生成速度。该框架的发布标志着视觉生成技术的重要进展,为未来长视频生成和多样化任务处理奠定了基础。
相关技术进展
字节跳动近期在AI领域还发布了多项重要技术:
-
AI治理模型(2025年10月27日)
- 自研多模态大模型可在10分钟内审核90%的广告素材
- 单季度拦截84万条违规素材
-
MoGA长视频生成模型(2025年10月24日)
- 与中国科学技术大学联合开发
- 支持一键生成分钟级多镜头短片
- 输出规格:480p分辨率、24fps
-
Seed 3D 1.0模型(2025年10月23日)
- 3D生成大模型,可从单张图像端到端生成高质量3D模型
- 包含详细几何结构、真实纹理和基于物理的渲染(PBR)材质
-
Sa2VA模型(2025年10月21日)
- 结合LLaVA视频理解与SAM-2精确对象分割
- 实现多模态智能分割,增强视频分析能力
行业意义
这些技术突破展示了字节跳动在视频生成、3D建模和AI治理等多个AI前沿领域的持续创新,为行业发展提供了重要技术支撑。
