Chatbot Arena +

一个相对更全面、更难作弊的模型实力参考榜单

非常有影响力的 LLM（大语言模型）排行榜 之一，被称为 Chatbot Arena +（或简称 OpenLM Chatbot Arena）。

这是一个基于真实人类用户盲测投票的模型竞技场 + 综合排行榜，核心理念跟原来的 LMSYS Chatbot Arena（现 lmarena.ai）非常相似，但 OpenLM.ai 版本在数据规模、展示维度和附加基准上做了大量增强和商业化运营。

简单来说：
你随便写个问题 → 系统随机给你两个匿名模型回答 → 你投票选哪个更好 → 几百万次投票后用 Elo 积分（类似国际象棋排名）来给模型排序

投票数据规模更大：宣称使用 600万+ 真实人类偏好投票（lmarena 早期数据量级更小，现在也很大但侧重不同）
除了经典 Arena Elo 之外，还整合了很多硬核基准，形成更全面的评价体系：
- AAII v3（Artificial Analysis Intelligence Index）——聚合10个最难的评测：MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、AIME、LiveCodeBench、SciCode、Terminal-Bench Hard 等
- ARC-AGI v2 ——目前最难的通用智能（流体智能）基准
- Coding、Vision、多模态能力单独列分
同时展示 开源模型专榜 和 全模型总榜（包括闭源）
排名更稳定：他们改进了 Elo 计算方法，使用 Bradley-Terry 模型 + bootstrap 重采样（1000次打乱重算），减少新模型刚上线时的分数波动