Chatbot Arena +

一个相对更全面、更难作弊的模型实力参考榜单

非常有影响力的 LLM(大语言模型)排行榜 之一,被称为 Chatbot Arena +(或简称 OpenLM Chatbot Arena)。

这是一个基于真实人类用户盲测投票的模型竞技场 + 综合排行榜,核心理念跟原来的 LMSYS Chatbot Arena(现 lmarena.ai)非常相似,但 OpenLM.ai 版本在数据规模、展示维度和附加基准上做了大量增强和商业化运营。

简单来说:
你随便写个问题 → 系统随机给你两个匿名模型回答 → 你投票选哪个更好 → 几百万次投票后用 Elo 积分(类似国际象棋排名)来给模型排序

主要特点

  • 投票数据规模更大:宣称使用 600万+ 真实人类偏好投票(lmarena 早期数据量级更小,现在也很大但侧重不同)
  • 除了经典 Arena Elo 之外,还整合了很多硬核基准,形成更全面的评价体系:
    • AAII v3(Artificial Analysis Intelligence Index)——聚合10个最难的评测:MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、AIME、LiveCodeBench、SciCode、Terminal-Bench Hard 等
    • ARC-AGI v2 ——目前最难的通用智能(流体智能)基准
    • Coding、Vision、多模态能力单独列分
  • 同时展示 开源模型专榜全模型总榜(包括闭源)
  • 排名更稳定:他们改进了 Elo 计算方法,使用 Bradley-Terry 模型 + bootstrap 重采样(1000次打乱重算),减少新模型刚上线时的分数波动