AI-NEWS · 2025年 10月 29日

英伟达开源全能模型

NVIDIA开源OmniVinci全模态理解模型:仅用1/6训练数据实现突破

核心亮点

  • 性能突破:在多项多模态理解基准测试中,OmniVinci比当前顶级模型高出19.05分
  • 数据效率:仅使用0.2万亿训练token,是竞争对手1.2万亿训练数据的1/6,数据效率提升6倍
  • 开源发布:模型已在GitHub上开源

技术架构

全模态理解能力

OmniVinci旨在构建能够同时理解视觉、音频和文本信息的人工智能系统,让机器能够像人类一样通过不同感官感知和理解复杂世界。

创新架构设计

  • 全模态潜在空间:集成来自不同感官的信息,实现跨模态理解和推理
  • 组合式跨模态理解:整合图像、视频、音频和文本等异构输入
  • 统一对齐机制:将不同模态的嵌入信息整合到潜在空间中,然后输入大型语言模型

关键技术模块

  1. OmniAlignNet模块:有效对齐视觉和音频信息
  2. 时序嵌入分组:增强模型对时序信息的理解
  3. 约束旋转时序嵌入:进一步提升时序理解能力

训练策略

采用两阶段训练方法:

  1. 模态特定训练:针对单个模态进行专门训练
  2. 全模态联合训练:使用隐式和显式学习数据,显著提升模型的联合理解能力

行业意义

NVIDIA通过此次发布再次展示了在人工智能领域的技术创新能力,预示着未来的AI系统将更加智能和灵活。该模型的高数据效率特性也为资源受限环境下的AI应用提供了新的可能性。

火龙果频道