AI-NEWS · 2025年 10月 28日

字节开源DreamOmni2

AI图像编辑新突破:字节跳动与香港高校联合开源DreamOmni2,解决AI理解抽象概念难题

项目概述

2025年10月27日,字节跳动与香港中文大学、香港科技大学、香港大学联合开发的DreamOmni2系统正式开源,标志着人工智能图像编辑与生成技术的最新进展。

核心技术突破

多模态指令理解

DreamOmni2系统旨在增强AI在图像处理中的指令跟随能力,实现真正的多模态指令理解。该系统能够同时理解文本指令和参考图像,显著改善了先前模型在处理抽象概念(如风格、材质和光照)方面的局限性。

创新训练流程

开发团队创建了创新的三阶段训练流程:

  1. 提取模型训练:AI能够从图像中准确提取特定元素或抽象属性
  2. 多模态指令编辑数据生成:形成包含源图像、指令、参考图像和目标图像的训练样本
  3. 数据扩展:通过进一步提取和组合生成更多参考图像,构建丰富的多模态指令生成数据集

模型架构创新

  • 提出索引编码和位置编码偏移方案,确保模型能准确识别多个输入图像
  • 引入视觉语言模型(VLM),有效弥合用户指令与模型理解之间的差距
  • 提高系统处理指令的准确性,更好地理解用户真实意图

性能表现

测试显示,DreamOmni2在多模态指令编辑任务中:

  • 超越所有对比的开源模型
  • 接近顶级商业模型水平
  • 在处理复杂指令时提供更高的准确性和一致性
  • 避免不必要的更改和图像缺陷

行业影响

  • 为AI创作提供新的可能性
  • 为相关领域研究人员提供统一的评估标准
  • 预示着AI图像编辑与生成领域的新革命
  • 将极大促进AI技术的普及和应用

其他AI新闻摘要

MiniMax开源M2模型(10月27日)

  • 专为智能体工作流和端到端编码设计
  • 采用MoE架构
  • 速度提升2倍,成本仅为Claude Sonnet的8%

01.AI重大调整(10月27日)

  • 李开复投资ToB业务
  • 任命三位新高管加速商业化突破
  • 联合创始人沈鹏飞负责国内运营和销售

Turbo AI笔记工具(10月27日)

  • 由两名20岁美国大学生创立
  • 6个月内用户从100万增长至500万
  • 实现八位数年收入和持续盈利
  • 在哈佛、MIT等顶尖大学广泛使用

AI版权争议(10月27日)

  • AI模仿作家风格的作品更受欢迎
  • 成本差异达99.7%
  • 引发美国版权和合理使用边界争议

软银追加投资OpenAI(10月27日)

  • 计划追加投资22.5亿美元
  • 总投资额达30亿美元
  • 资金将支持4月宣布的41亿美元融资计划

xAI推出虚拟女友Mika(10月27日)

  • 结合动漫角色特质
  • 甜美声音与成熟风格形成对比
  • 引发社交媒体热议

火龙果频道