美团发布LongCat-Video视频生成模型，开启长视频创作新时代

模型概述

美团LongCat团队于2025年10月27日正式发布新一代视频生成模型LongCat-Video。该模型能够准确重构真实世界的运行状态，标志着美团在"世界模型"领域的重大突破。世界模型是下一代人工智能的核心引擎，帮助AI更好地理解、预测和重构真实世界动态。

核心技术特点

架构与功能

基础架构：基于先进的Diffusion Transformer（DiT）架构
核心功能：集成文生视频、图生视频、视频续写三大核心功能
任务区分：通过"条件帧数"设置有效区分不同任务

生成能力表现

分辨率与帧率：在文生视频中可输出720p、30fps高清视频
语义理解：在开源领域具有领先的语义理解和视觉呈现能力
图像保持：图生视频能严格保持参考图像属性和风格
运动表现：展现自然流畅的运动性能

突破性能力

长视频生成

时长突破：可稳定输出长达5分钟的连贯长视频
问题解决：有效避免色彩漂移、质量下降、动作断裂等常见问题
应用价值：为自动驾驶、具身智能等深度交互场景提供技术基础

高效推理优化

生成策略：采用"两阶段由粗到细生成"策略
技术组合：结合块稀疏注意力（BSA）和模型蒸馏优化
速度提升：推理速度提升10.1倍
质量保证：在处理长视频时仍保持优秀生成质量

性能表现

经过严格的内外部基准测试，LongCat-Video在文本对齐度、视觉质量、运动质量等多个维度表现优异，在当前开源领域达到SOTA（State of the Art）水平。

产业影响

创作简化：将创作者从1秒灵感直接跃升至5分钟成品
资源开放：已在GitHub和Hugging Face平台发布相关资源
行业赋能：为个人创作者提供强大工具，为视频创作行业注入新活力

技术前景

这一创新成果有望为具身智能发展提供强大的世界模拟支持，解决当前技术在物理交互能力和内容多样性方面的瓶颈。

火龙果频道

近期新闻

AI-NEWS · 2025年 10月 28日

美团发布长视频模型

美团发布LongCat-Video视频生成模型，开启长视频创作新时代

模型概述

核心技术特点

架构与功能

生成能力表现

突破性能力

长视频生成

高效推理优化

性能表现

产业影响

技术前景

您可能还喜欢...

AI-NEWS · 2025年 10月 28日

美团发布LongCat-Video视频生成模型，开启长视频创作新时代

模型概述

核心技术特点

架构与功能

生成能力表现

突破性能力

长视频生成

高效推理优化

性能表现

产业影响

技术前景

您可能还喜欢...

老程序员为何难学React？

Meta弃Llama转Claude

Cursor系统提示