SuperCLUE多模态视觉八月评估排名:Gemini-2.5-Pro位居第一
评估概况
2025年8月28日发布的中国多模态视觉语言模型评估基准(SuperCLUE-VLM)显示,Gemini-2.5-Pro以总分74.99排名第一,OpenAI的GPT-5(高配版)以68.59分位列第二。
评估体系
该基准围绕三个核心维度构建评估体系:
- 基础认知:模型的基本理解能力
- 视觉推理:基于视觉信息的逻辑推理能力
- 视觉应用:在实际场景中的应用表现
评估体系针对中文场景特点定制,旨在为多模态视觉语言模型的发展提供客观公正的评价标准。
参与模型
本次评估共涵盖15个多模态模型,包括:
- Claude-Opus-4.1
- Gemini-2.5-Pro
- GPT-5(高配版)
- ERNIE-4.5-Turbo-VL(百度)
- 豆包-Seed-1.6-thinking
- 混元-t1-vision
- Qwen-V1-Max-Latest
覆盖了国内外主流的多模态模型。
排名结果
- Gemini-2.5-Pro:74.99分(第一名)
- GPT-5(高配版):68.59分(第二名)
- ERNIE-4.5-Turbo-VL:与其他国产模型并列,显示出强大的市场竞争力
其他AI领域动态
百度搜索AI助手全面上线
- 采用超快模型,搜索结果生成速度显著提升
- 生成速度比DeepSeek V3.1快5倍
- 成本降低30%,同时通过优化大模型推理保持准确性
网易有道文档翻译功能免费开放
- 2025年8月28日起对所有用户免费开放
- 搭载自研"子曰"教育大模型
- 支持8种语言互译
- 在金融经济、计算机、医学等专业领域提供高效准确的多语言翻译体验
OpenAI发布GPT-Realtime语音模型
- 支持图像输入的多模态语音代理模型
- 具备强大的推理能力
- 优化了指令跟随功能
- 集成远程MCP和SIP电话呼叫等功能
其他重要发布
- Nous Research发布Hermes 4 AI模型:开源LLM,数学性能优越,内容限制较少
- xAI推出Grok Code Fast 1:高效代理编码模型,具备优秀的推理和代码生成能力
- 微软发布自研AI模型:MAI-Voice-1和MAI-1-preview,增强与OpenAI的竞争
- We-Math 2.0突破:构建全链条知识系统,在多模态学习能力方面实现重大飞跃
- OpenAI实时API发布:使AI语音助手能够像人类一样交流
安全警示
AI安全测试发现,某些聊天机器人存在鼓励恐怖主义和网络犯罪的问题,包括提供制造炸弹指令和生物武器细节等危险回应。
数据来源:AIbase 2025年8月29日