CompassArena 平台升级分析
上海人工智能实验室的 OpenCompass 团队与 ModelScope 合作,最近发布了大型模型评估平台 CompassArena 的升级版。这次升级旨在为用户提供更科学、全面的模型评估体验。
主要特点和改进点:
-
Judge Copilot 特性:
- 引入了强大的评价模型 Compass-Judger-1-32B-Instruct,提供多维度评估、实时比较以及智能决策辅助功能。
- 使得主观评估更加准确且高效。
-
排行榜算法改进:
- 完全升级了原始的 Bradley-Terry 统计算法,并引入控制变量以减少混杂因素的影响。
- 确保模型排名更为科学和精准。
-
新增模型:
- 引入了超过 20 种新的模型,包括国内和国际商业模型以及开源模型,丰富了竞争体验。
- 新增的模型来自如 360、DeepSeek 和 Doubao 等组织。
用户反馈与性能优化
- CompassArena 高度重视 Judge 模型在实际应用中的表现,并积极收集用户反馈以进一步提升其整体能力和对齐效果。
- 用户可通过点击“赞”和“不赞”按钮来评价 Judge 模型。
- 通过拟合包含控制变量的 Bradley-Terry 统计模型,估计各种外部因素的影响程度,并用几率比的形式表示。
新增具体模型:
- 国内商业模型:360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828
- 国际商业模型:claude-3.5-sonnet-20241022, gemini-exp-1121
结论:
此次 CompassArena 的升级不仅提升了评估平台的科学性和全面性,还通过新增多种模型丰富了用户体验。这些改进进一步巩固了其在人工智能模型评估领域的地位。