LMArena Leaderboard

LMArena排行榜,覆盖了文本、视觉、图像生成、视频生成等多种任务模型评分

LMArena 排行榜 介绍

LMArena 排行榜是 AI 模型评估领域的一个重要基准平台,它专注于通过用户驱动的盲测比较来排名领先的 AI 模型,包括大型语言模型(LLM)、视觉模型和多模态生成模型。该排行榜于 2023 年左右推出,已成为评估 AI 模型实际表现的社区标准,帮助开发者、研究者和用户了解模型在真实交互中的相对优势。它覆盖了文本、视觉、图像生成、视频生成等多种任务,强调透明度和社区参与。

目的

排行榜的核心目的是提供一个公平、动态的 AI 模型比较工具。它通过聚合用户投票来追踪 AI 技术的进步,避免传统基准测试(如 MMLU 或 HumanEval)的静态局限性,转而聚焦于“真实世界”表现。这有助于揭示模型在复杂提示、创意任务或专业领域(如编码、数学)的强弱,帮助推动 AI 创新。

工作原理

  • 盲测比较:用户在平台上输入提示(prompt),系统随机选择两个模型生成响应,但不显示模型名称。用户匿名投票选出“更好”的响应(或平局)。
  • Elo 评分系统:借鉴国际象棋排名方法,每个模型起始 Elo 分数为 1000。获胜提升分数,失败降低分数,高分表示更强模型。分数基于成千上万次投票迭代计算,反映相对性能。
  • 动态更新:排行榜实时刷新(如文本类别最近 1 天更新),模型开发者可提交新版本参与。

关键特性

  • 多类别竞技场:包括文本(Text)、网页开发(WebDev)、视觉(Vision)、文本到图像(Text-to-Image)、图像编辑(Image Edit)、搜索(Search)、文本到视频(Text-to-Video)和图像到视频(Image-to-Video)等。
  • 子指标:在整体排名外,还有专家级提示(Expert)、硬提示(Hard Prompts)、编码(Coding)、数学(Math)、创意写作(Creative Writing)、指令跟随(Instruction Following)和长查询(Longer Query)等细分。
  • 投票统计:每个模型显示投票数(如数万票),确保可靠性。
  • 社区驱动:用户可免费参与投票或提交提示,数据来源于全球用户互动。

方法论

数据完全来自平台上的用户生成内容和投票。模型由开发者(如 OpenAI、Google、Anthropic、xAI)提交,系统确保盲测公平。Elo 算法考虑投票置信度(置信区间)和样本大小。类别任务针对特定技能设计,例如编码竞技场测试编程生成,视觉竞技场评估图像理解。

数据来源

  • 用户互动:数百万次匿名投票和提示提交。
  • 模型提供者:包括 Gemini、Grok、Claude 等前沿模型。
  • 无偏见设计:盲测避免品牌偏好,确保排名基于输出质量。

LMArena是排行榜的核心平台,一个在线“竞技场”供用户实时测试模型。它的重要性在于:

  • 用户中心:不同于实验室基准,它捕捉实际使用场景的偏好。
  • 推动创新:排名影响模型迭代,例如开发者根据弱点优化。
  • 行业标准:被视为 AI 评估的“黄金标准”,引用率高,促进开源合作。