TikTok与清华大学合作开源前沿多模态框架HuMo

字节跳动智能创作团队与清华大学联合推出名为HuMo的开源框架，致力于推动以人为中心的视频生成（HCVG）领域发展。该框架于2025年9月12日正式发布。

框架核心特点

多模态输入处理能力

HuMo框架具备强大的多模态输入处理能力，可同时利用文本、图像和音频信息协同生成高质量视频。

命名含义与技术定位

名称"Human-Modal"准确体现了其对人类及其活动的关注重点，专注于人物视频生成领域。

技术创新突破

数据集构建与训练方法

构建了高质量训练数据集
创新采用渐进式训练方法
在多个子任务中超越现有专门方法

视频生成规格

支持分辨率：最高480P和720P
最大长度：97帧
输出帧率：25帧/秒
生成可控角色视频

技术优势

创新数据处理流程：优化数据预处理和特征提取
灵活推理策略：支持多种推理模式和参数调整
渐进式多模态训练：提升训练效率和模型性能

实际应用价值

该技术组合不仅提升了生成视频的质量，还显著提高了处理速度，使HuMo在实际应用中表现更加出色。

开源与社区参与

项目已开放源代码，为开发者和研究人员提供：

新的研究工具和开发框架
灵活的场景适配解决方案
参与技术研究和应用的机会

资源链接

论文地址：HuMo论文
开源项目：可通过官方渠道获取源代码

本文来源：AIbase Daily – 人工智能领域每日热点追踪

火龙果频道

近期新闻

AI-NEWS · 2025年 9月 13日

清华与TikTok开源HuMo

TikTok与清华大学合作开源前沿多模态框架HuMo

框架核心特点

多模态输入处理能力

命名含义与技术定位

技术创新突破

数据集构建与训练方法

视频生成规格

技术优势

实际应用价值

开源与社区参与

资源链接

您可能还喜欢...

AI-NEWS · 2025年 9月 13日

TikTok与清华大学合作开源前沿多模态框架HuMo

框架核心特点

多模态输入处理能力

命名含义与技术定位

技术创新突破

数据集构建与训练方法

视频生成规格

技术优势

实际应用价值

开源与社区参与

资源链接

您可能还喜欢...

开源AI助手Glass走红

AI时代选专业

推理规模扩展定律（inference scaling law）会成为大力出奇迹的新方向吗？它能带我们走进 AGI 吗？