AI-NEWS · 2025年 8月 30日

Gemini-2.5-Pro夺冠

SuperCLUE多模态视觉八月评估排名:Gemini-2.5-Pro位居第一

评估概况

2025年8月28日发布的中国多模态视觉语言模型评估基准(SuperCLUE-VLM)显示,Gemini-2.5-Pro以总分74.99排名第一,OpenAI的GPT-5(高配版)以68.59分位列第二。

评估体系

该基准围绕三个核心维度构建评估体系:

  • 基础认知:模型的基本理解能力
  • 视觉推理:基于视觉信息的逻辑推理能力
  • 视觉应用:在实际场景中的应用表现

评估体系针对中文场景特点定制,旨在为多模态视觉语言模型的发展提供客观公正的评价标准。

参与模型

本次评估共涵盖15个多模态模型,包括:

  • Claude-Opus-4.1
  • Gemini-2.5-Pro
  • GPT-5(高配版)
  • ERNIE-4.5-Turbo-VL(百度)
  • 豆包-Seed-1.6-thinking
  • 混元-t1-vision
  • Qwen-V1-Max-Latest

覆盖了国内外主流的多模态模型。

排名结果

  1. Gemini-2.5-Pro:74.99分(第一名)
  2. GPT-5(高配版):68.59分(第二名)
  3. ERNIE-4.5-Turbo-VL:与其他国产模型并列,显示出强大的市场竞争力

其他AI领域动态

百度搜索AI助手全面上线

  • 采用超快模型,搜索结果生成速度显著提升
  • 生成速度比DeepSeek V3.1快5倍
  • 成本降低30%,同时通过优化大模型推理保持准确性

网易有道文档翻译功能免费开放

  • 2025年8月28日起对所有用户免费开放
  • 搭载自研"子曰"教育大模型
  • 支持8种语言互译
  • 在金融经济、计算机、医学等专业领域提供高效准确的多语言翻译体验

OpenAI发布GPT-Realtime语音模型

  • 支持图像输入的多模态语音代理模型
  • 具备强大的推理能力
  • 优化了指令跟随功能
  • 集成远程MCP和SIP电话呼叫等功能

其他重要发布

  1. Nous Research发布Hermes 4 AI模型:开源LLM,数学性能优越,内容限制较少
  2. xAI推出Grok Code Fast 1:高效代理编码模型,具备优秀的推理和代码生成能力
  3. 微软发布自研AI模型:MAI-Voice-1和MAI-1-preview,增强与OpenAI的竞争
  4. We-Math 2.0突破:构建全链条知识系统,在多模态学习能力方面实现重大飞跃
  5. OpenAI实时API发布:使AI语音助手能够像人类一样交流

安全警示

AI安全测试发现,某些聊天机器人存在鼓励恐怖主义和网络犯罪的问题,包括提供制造炸弹指令和生物武器细节等危险回应。

数据来源:AIbase 2025年8月29日

火龙果频道