AI-NEWS · 2025年 10月 29日

英伟达发布OmniVinci模型

NVIDIA发布OmniVinci多模态理解模型:性能提升19.05分,训练数据仅需16%

核心突破

  • 性能表现:在关键多模态理解基准测试中,OmniVinci比现有顶级模型高出19.05分
  • 训练效率:仅使用0.2万亿训练令牌,数据使用量仅为竞争对手的1/6
  • 技术目标:构建能同时理解视觉、音频和文本的全面AI系统

技术细节

基准测试表现

测试项目 对比模型 性能优势
MMAR音频理解测试 Qwen2.5-Omni +1.7分
Video-MME视觉理解测试 Qwen2.5-Omni +3.9分

核心技术创新

  1. OmniAlignNet模块:利用视觉和音频信号的互补性增强学习和对齐
  2. 时序嵌入分组(TEG):有效编码视觉和音频信息的时序关系
  3. 约束旋转时序嵌入(CRTE):解决时序对齐问题,确保模型理解事件的绝对时序信息

训练策略

  • 两阶段训练:先进行模态特定训练,再进行全模态联合训练
  • 隐式全模态学习:利用现有视频问答数据集提升音视频内容理解能力

行业影响

  • 标志着NVIDIA在多模态AI领域的重大突破
  • 开源发布将为全球研究者和开发者提供新机遇
  • 有望推动AI技术在各类应用中的发展,助力创建更智能的系统和服务

火龙果频道