SuperCLUE多模态视觉八月评估排名：Gemini-2.5-Pro位居第一

评估概况

2025年8月28日发布的中国多模态视觉语言模型评估基准（SuperCLUE-VLM）显示，Gemini-2.5-Pro以总分74.99排名第一，OpenAI的GPT-5（高配版）以68.59分位列第二。

评估体系

该基准围绕三个核心维度构建评估体系：

基础认知：模型的基本理解能力
视觉推理：基于视觉信息的逻辑推理能力
视觉应用：在实际场景中的应用表现

评估体系针对中文场景特点定制，旨在为多模态视觉语言模型的发展提供客观公正的评价标准。

参与模型

本次评估共涵盖15个多模态模型，包括：

Claude-Opus-4.1
Gemini-2.5-Pro
GPT-5（高配版）
ERNIE-4.5-Turbo-VL（百度）
豆包-Seed-1.6-thinking
混元-t1-vision
Qwen-V1-Max-Latest

覆盖了国内外主流的多模态模型。

排名结果

Gemini-2.5-Pro：74.99分（第一名）
GPT-5（高配版）：68.59分（第二名）
ERNIE-4.5-Turbo-VL：与其他国产模型并列，显示出强大的市场竞争力

其他AI领域动态

百度搜索AI助手全面上线

采用超快模型，搜索结果生成速度显著提升
生成速度比DeepSeek V3.1快5倍
成本降低30%，同时通过优化大模型推理保持准确性

网易有道文档翻译功能免费开放

2025年8月28日起对所有用户免费开放
搭载自研"子曰"教育大模型
支持8种语言互译
在金融经济、计算机、医学等专业领域提供高效准确的多语言翻译体验

OpenAI发布GPT-Realtime语音模型

支持图像输入的多模态语音代理模型
具备强大的推理能力
优化了指令跟随功能
集成远程MCP和SIP电话呼叫等功能

其他重要发布

Nous Research发布Hermes 4 AI模型：开源LLM，数学性能优越，内容限制较少
xAI推出Grok Code Fast 1：高效代理编码模型，具备优秀的推理和代码生成能力
微软发布自研AI模型：MAI-Voice-1和MAI-1-preview，增强与OpenAI的竞争
We-Math 2.0突破：构建全链条知识系统，在多模态学习能力方面实现重大飞跃
OpenAI实时API发布：使AI语音助手能够像人类一样交流

安全警示

AI安全测试发现，某些聊天机器人存在鼓励恐怖主义和网络犯罪的问题，包括提供制造炸弹指令和生物武器细节等危险回应。

数据来源：AIbase 2025年8月29日

火龙果频道

近期新闻

AI-NEWS · 2025年 8月 30日

Gemini-2.5-Pro夺冠

SuperCLUE多模态视觉八月评估排名：Gemini-2.5-Pro位居第一

评估概况

评估体系

参与模型

排名结果

其他AI领域动态

百度搜索AI助手全面上线

网易有道文档翻译功能免费开放

OpenAI发布GPT-Realtime语音模型

其他重要发布

安全警示

您可能还喜欢...

AI-NEWS · 2025年 8月 30日

SuperCLUE多模态视觉八月评估排名：Gemini-2.5-Pro位居第一

评估概况

评估体系

参与模型

排名结果

其他AI领域动态

百度搜索AI助手全面上线

网易有道文档翻译功能免费开放

OpenAI发布GPT-Realtime语音模型

其他重要发布

安全警示

您可能还喜欢...

阿里“通义”APP宣布上线特殊AI绘本工具“追星星的AI”

Anthropic的爬虫机器人无视网站反AI抓取政策遭吐槽

智驾大模型加速量产