AI-NEWS · 2024年 12月 19日

指南针竞技场升级：新判官助手功能上线

CompassArena 平台升级分析

上海人工智能实验室的 OpenCompass 团队与 ModelScope 合作，最近发布了大型模型评估平台 CompassArena 的升级版。这次升级旨在为用户提供更科学、全面的模型评估体验。

主要特点和改进点：

Judge Copilot 特性：
- 引入了强大的评价模型 Compass-Judger-1-32B-Instruct，提供多维度评估、实时比较以及智能决策辅助功能。
- 使得主观评估更加准确且高效。
排行榜算法改进：
- 完全升级了原始的 Bradley-Terry 统计算法，并引入控制变量以减少混杂因素的影响。
- 确保模型排名更为科学和精准。
新增模型：
- 引入了超过 20 种新的模型，包括国内和国际商业模型以及开源模型，丰富了竞争体验。
- 新增的模型来自如 360、DeepSeek 和 Doubao 等组织。

用户反馈与性能优化

CompassArena 高度重视 Judge 模型在实际应用中的表现，并积极收集用户反馈以进一步提升其整体能力和对齐效果。
用户可通过点击“赞”和“不赞”按钮来评价 Judge 模型。
通过拟合包含控制变量的 Bradley-Terry 统计模型，估计各种外部因素的影响程度，并用几率比的形式表示。

新增具体模型：

国内商业模型：360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828
国际商业模型：claude-3.5-sonnet-20241022, gemini-exp-1121

结论：

此次 CompassArena 的升级不仅提升了评估平台的科学性和全面性，还通过新增多种模型丰富了用户体验。这些改进进一步巩固了其在人工智能模型评估领域的地位。

更多体验链接：AIbase Base 2024 版权所有

Source:https://www.aibase.com/news/14122

您可能还喜欢...