TikTok与清华大学合作开源前沿多模态框架HuMo
字节跳动智能创作团队与清华大学联合推出名为HuMo的开源框架,致力于推动以人为中心的视频生成(HCVG)领域发展。该框架于2025年9月12日正式发布。
框架核心特点
多模态输入处理能力
HuMo框架具备强大的多模态输入处理能力,可同时利用文本、图像和音频信息协同生成高质量视频。
命名含义与技术定位
名称"Human-Modal"准确体现了其对人类及其活动的关注重点,专注于人物视频生成领域。
技术创新突破
数据集构建与训练方法
- 构建了高质量训练数据集
- 创新采用渐进式训练方法
- 在多个子任务中超越现有专门方法
视频生成规格
- 支持分辨率:最高480P和720P
- 最大长度:97帧
- 输出帧率:25帧/秒
- 生成可控角色视频
技术优势
- 创新数据处理流程:优化数据预处理和特征提取
- 灵活推理策略:支持多种推理模式和参数调整
- 渐进式多模态训练:提升训练效率和模型性能
实际应用价值
该技术组合不仅提升了生成视频的质量,还显著提高了处理速度,使HuMo在实际应用中表现更加出色。
开源与社区参与
项目已开放源代码,为开发者和研究人员提供:
- 新的研究工具和开发框架
- 灵活的场景适配解决方案
- 参与技术研究和应用的机会
资源链接
- 论文地址:HuMo论文
- 开源项目:可通过官方渠道获取源代码
本文来源:AIbase Daily – 人工智能领域每日热点追踪