AI-NEWS · 2024年 12月 19日

指南针竞技场升级:新判官助手功能上线

CompassArena 平台升级分析

上海人工智能实验室的 OpenCompass 团队与 ModelScope 合作,最近发布了大型模型评估平台 CompassArena 的升级版。这次升级旨在为用户提供更科学、全面的模型评估体验。

主要特点和改进点:

  1. Judge Copilot 特性

    • 引入了强大的评价模型 Compass-Judger-1-32B-Instruct,提供多维度评估、实时比较以及智能决策辅助功能。
    • 使得主观评估更加准确且高效。
  2. 排行榜算法改进

    • 完全升级了原始的 Bradley-Terry 统计算法,并引入控制变量以减少混杂因素的影响。
    • 确保模型排名更为科学和精准。
  3. 新增模型

    • 引入了超过 20 种新的模型,包括国内和国际商业模型以及开源模型,丰富了竞争体验。
    • 新增的模型来自如 360、DeepSeek 和 Doubao 等组织。

用户反馈与性能优化

  • CompassArena 高度重视 Judge 模型在实际应用中的表现,并积极收集用户反馈以进一步提升其整体能力和对齐效果。
  • 用户可通过点击“赞”和“不赞”按钮来评价 Judge 模型。
  • 通过拟合包含控制变量的 Bradley-Terry 统计模型,估计各种外部因素的影响程度,并用几率比的形式表示。

新增具体模型:

  • 国内商业模型:360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828
  • 国际商业模型:claude-3.5-sonnet-20241022, gemini-exp-1121

结论:

此次 CompassArena 的升级不仅提升了评估平台的科学性和全面性,还通过新增多种模型丰富了用户体验。这些改进进一步巩固了其在人工智能模型评估领域的地位。

更多体验链接:AIbase Base 2024 版权所有

Source:https://www.aibase.com/news/14122