智源发布Emu3.5大模型：用"下一状态预测"重构多模态智能，具身操作能力惊艳业界

核心突破：下一代状态预测（NSP）架构

发布时间：2025年10月30日
发布机构：北京智源人工智能研究院

技术架构创新

Emu3.5首次将自回归的"下一状态预测"（Next-State Prediction, NSP）引入多模态序列建模，标志着AI从"感知理解"迈向"智能操作"的关键一步。

核心机制：

将文本、图像、动作指令等多模态输入视为连续状态序列
通过预测"下一状态"实现端到端智能推理
模型不仅能理解当前场景，还能预测动作后的结果并规划最优动作路径

实际应用示例

当用户输入"将照片中的咖啡杯移到桌子右侧并调亮整体色调"时，Emu3.5能够：

准确识别物体和背景
分步骤执行移动和调整光照等复合操作
确保每个输出符合物理逻辑和视觉一致性

具身智能能力展示

在测试中，Emu3.5展现出强大的跨模态泛化能力和具身操作能力：

三大核心能力

文本-图像协同生成
- 基于复杂描述生成高细节图像
- 示例："赛博朋克风格的雨夜街道，霓虹灯在湿滑路面上的倒影"
智能图像编辑
- 支持语义级修改
- 示例："将人物服装风格改为复古西装"
- 无需手动选择操作区域
时空动态推理
- 能够连贯编辑视频帧序列
- 示例："让奔跑的人物突然停下并转身"

多模态融合新范式

技术突破点

与传统多模态模型仅对齐特征不同，Emu3.5实现了：

将文本、视觉和动作统一为可预测状态流
实现真正的跨模态自由切换和协同推理
打破信息孤岛限制

应用价值

研究人员：高效处理异构数据
普通用户：通过自然语言完成以往需要专业软件的创意任务

应用场景规划

智源宣布Emu3.5将优先应用于以下领域：

教育：智能课件生成
医疗：多模态病历分析
娱乐：AI导演

同时将持续开源部分能力，推动多模态生态系统发展。

行业意义

Emu3.5的发布不仅是技术参数的升级，更是AI角色的转变：

从被动响应的"工具"进化为主动规划的"协作者"
当模型开始预测"接下来会发生什么"时，真正开启了通往通用智能的征程

智源正以NSP架构为支点，撬动多模态AI的下一个突破。

火龙果频道

近期新闻

AI-NEWS · 2025年 10月 31日

智源发布Emu3.5大模型

智源发布Emu3.5大模型：用"下一状态预测"重构多模态智能，具身操作能力惊艳业界

核心突破：下一代状态预测（NSP）架构

技术架构创新

实际应用示例

具身智能能力展示

三大核心能力

多模态融合新范式

技术突破点

应用价值

应用场景规划

行业意义

您可能还喜欢...

AI-NEWS · 2025年 10月 31日

智源发布Emu3.5大模型：用"下一状态预测"重构多模态智能，具身操作能力惊艳业界

核心突破：下一代状态预测（NSP）架构

技术架构创新

实际应用示例

具身智能能力展示

三大核心能力

多模态融合新范式

技术突破点

应用价值

应用场景规划

行业意义

您可能还喜欢...

Cursor秒速千Token编辑

OpenAI联手三星SK

Spark-TTS：AI语音克隆定制