AI-NEWS · 2025年 9月 13日

清华与TikTok开源HuMo

TikTok与清华大学合作开源前沿多模态框架HuMo

字节跳动智能创作团队与清华大学联合推出名为HuMo的开源框架,致力于推动以人为中心的视频生成(HCVG)领域发展。该框架于2025年9月12日正式发布。

框架核心特点

多模态输入处理能力

HuMo框架具备强大的多模态输入处理能力,可同时利用文本、图像和音频信息协同生成高质量视频。

命名含义与技术定位

名称"Human-Modal"准确体现了其对人类及其活动的关注重点,专注于人物视频生成领域。

技术创新突破

数据集构建与训练方法

  • 构建了高质量训练数据集
  • 创新采用渐进式训练方法
  • 在多个子任务中超越现有专门方法

视频生成规格

  • 支持分辨率:最高480P和720P
  • 最大长度:97帧
  • 输出帧率:25帧/秒
  • 生成可控角色视频

技术优势

  1. 创新数据处理流程:优化数据预处理和特征提取
  2. 灵活推理策略:支持多种推理模式和参数调整
  3. 渐进式多模态训练:提升训练效率和模型性能

实际应用价值

该技术组合不仅提升了生成视频的质量,还显著提高了处理速度,使HuMo在实际应用中表现更加出色。

开源与社区参与

项目已开放源代码,为开发者和研究人员提供:

  • 新的研究工具和开发框架
  • 灵活的场景适配解决方案
  • 参与技术研究和应用的机会

资源链接

  • 论文地址HuMo论文
  • 开源项目:可通过官方渠道获取源代码

本文来源:AIbase Daily – 人工智能领域每日热点追踪

火龙果频道