LLM Leaderboard

前最专注“后饱和时代”模型硬核能力的实时排行榜,专门追踪2024年4月后发布的SOTA模型

目前 AI 领域非常实用且更新较活跃的 LLM(大语言模型)排行榜之一,官方名称为 LLM Leaderboard 2025

这个排行榜的主要特点和目的

Vellum AI 打造的这个榜单主要聚焦于2024年4月之后发布的最新的 SOTA(State-of-the-Art)模型版本,专门挑选尚未饱和、非过时的困难基准来进行比较,避免使用像 MMLU 这种已经被刷到天花板的旧基准。

数据来源非常混合且相对可信:

  • 模型厂商自己公布的技术报告
  • Vellum 自己独立跑的评测
  • 开源社区的第三方验证

目前最核心的几个分类排行(2025年11月25日最新数据)

排名维度主要基准当前Top模型(大致排名)备注
纯推理能力GPQA Diamond1. GPT 5.2 ≈92.4%<br>2. Gemini 3 Pro ≈91.9%<br>3. GPT 5.1 ≈88.1%最难的纯推理基准之一
高中数学(竞赛级别)AIME 20251. GPT 5.2 & Gemini 3 Pro 100%<br>3. Kimi K2 Thinking ≈99.1%基本满分内卷非常严重
代理式编码(真实工程)SWE Bench1. Claude Sonnet 4.5 ≈82%<br>2. Claude Opus 4.5 ≈80.9%<br>3. GPT 5.2 ≈80%最接近真实软件工程的基准
整体最难人类终极考试Humanity's Last Exam1. Gemini 3 Pro ≈45.8%<br>2. Kimi K2 Thinking ≈44.9%目前最难的综合基准
视觉推理(纯视觉ARC)ARC-AGI 2Claude Opus 4.5 领先明显(378分)分数体系不同,视觉最强
多语言综合推理MMMLUGemini 3 Pro & Claude Opus 4.5 领先多语言能力较强

其他实用排行维度

  • 最快模型(tokens/s):很多开源/蒸馏模型碾压(部分能跑到2000+ t/s)
  • 最低延迟(TTFT Time to First Token):对实时应用很重要
  • 最便宜模型($/1M tokens):开源模型通常大幅领先闭源

特色功能(非常实用)

  • 可以任意选两个模型横向对比(上下文长度、知识截止日期、输入输出价格、最大输出token、延迟、速度等一目了然)
  • 提供44个基准的动态图表展示
  • 有专门的Open LLM Leaderboard(只看开源模型)
  • 有专门的Best LLM for Coding子榜单