AI-NEWS · 2025年 10月 29日

英伟达开源全能模型

NVIDIA开源OmniVinci全模态理解模型：仅用1/6训练数据实现突破

核心亮点

性能突破：在多项多模态理解基准测试中，OmniVinci比当前顶级模型高出19.05分
数据效率：仅使用0.2万亿训练token，是竞争对手1.2万亿训练数据的1/6，数据效率提升6倍
开源发布：模型已在GitHub上开源

技术架构

全模态理解能力

OmniVinci旨在构建能够同时理解视觉、音频和文本信息的人工智能系统，让机器能够像人类一样通过不同感官感知和理解复杂世界。

创新架构设计

全模态潜在空间：集成来自不同感官的信息，实现跨模态理解和推理
组合式跨模态理解：整合图像、视频、音频和文本等异构输入
统一对齐机制：将不同模态的嵌入信息整合到潜在空间中，然后输入大型语言模型

关键技术模块

OmniAlignNet模块：有效对齐视觉和音频信息
时序嵌入分组：增强模型对时序信息的理解
约束旋转时序嵌入：进一步提升时序理解能力

训练策略

采用两阶段训练方法：

模态特定训练：针对单个模态进行专门训练
全模态联合训练：使用隐式和显式学习数据，显著提升模型的联合理解能力

行业意义

NVIDIA通过此次发布再次展示了在人工智能领域的技术创新能力，预示着未来的AI系统将更加智能和灵活。该模型的高数据效率特性也为资源受限环境下的AI应用提供了新的可能性。

火龙果频道

您可能还喜欢...