AI-NEWS · 2025年 10月 31日

智源发布Emu3.5大模型

智源发布Emu3.5大模型:用"下一状态预测"重构多模态智能,具身操作能力惊艳业界

核心突破:下一代状态预测(NSP)架构

发布时间:2025年10月30日
发布机构:北京智源人工智能研究院

技术架构创新

Emu3.5首次将自回归的"下一状态预测"(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从"感知理解"迈向"智能操作"的关键一步。

核心机制

  • 将文本、图像、动作指令等多模态输入视为连续状态序列
  • 通过预测"下一状态"实现端到端智能推理
  • 模型不仅能理解当前场景,还能预测动作后的结果并规划最优动作路径

实际应用示例

当用户输入"将照片中的咖啡杯移到桌子右侧并调亮整体色调"时,Emu3.5能够:

  1. 准确识别物体和背景
  2. 分步骤执行移动和调整光照等复合操作
  3. 确保每个输出符合物理逻辑和视觉一致性

具身智能能力展示

在测试中,Emu3.5展现出强大的跨模态泛化能力和具身操作能力:

三大核心能力

  1. 文本-图像协同生成

    • 基于复杂描述生成高细节图像
    • 示例:"赛博朋克风格的雨夜街道,霓虹灯在湿滑路面上的倒影"
  2. 智能图像编辑

    • 支持语义级修改
    • 示例:"将人物服装风格改为复古西装"
    • 无需手动选择操作区域
  3. 时空动态推理

    • 能够连贯编辑视频帧序列
    • 示例:"让奔跑的人物突然停下并转身"

多模态融合新范式

技术突破点

与传统多模态模型仅对齐特征不同,Emu3.5实现了:

  • 将文本、视觉和动作统一为可预测状态流
  • 实现真正的跨模态自由切换和协同推理
  • 打破信息孤岛限制

应用价值

研究人员:高效处理异构数据
普通用户:通过自然语言完成以往需要专业软件的创意任务

应用场景规划

智源宣布Emu3.5将优先应用于以下领域:

  • 教育:智能课件生成
  • 医疗:多模态病历分析
  • 娱乐:AI导演

同时将持续开源部分能力,推动多模态生态系统发展。

行业意义

Emu3.5的发布不仅是技术参数的升级,更是AI角色的转变:

  • 从被动响应的"工具"进化为主动规划的"协作者"
  • 当模型开始预测"接下来会发生什么"时,真正开启了通往通用智能的征程

智源正以NSP架构为支点,撬动多模态AI的下一个突破。

火龙果频道