目前 AI 领域非常实用且更新较活跃的 LLM(大语言模型)排行榜之一,官方名称为 LLM Leaderboard 2025。
这个排行榜的主要特点和目的
Vellum AI 打造的这个榜单主要聚焦于2024年4月之后发布的最新的 SOTA(State-of-the-Art)模型版本,专门挑选尚未饱和、非过时的困难基准来进行比较,避免使用像 MMLU 这种已经被刷到天花板的旧基准。
数据来源非常混合且相对可信:
- 模型厂商自己公布的技术报告
- Vellum 自己独立跑的评测
- 开源社区的第三方验证
目前最核心的几个分类排行(2025年11月25日最新数据)
| 排名维度 | 主要基准 | 当前Top模型(大致排名) | 备注 |
|---|---|---|---|
| 纯推理能力 | GPQA Diamond | 1. GPT 5.2 ≈92.4%<br>2. Gemini 3 Pro ≈91.9%<br>3. GPT 5.1 ≈88.1% | 最难的纯推理基准之一 |
| 高中数学(竞赛级别) | AIME 2025 | 1. GPT 5.2 & Gemini 3 Pro 100%<br>3. Kimi K2 Thinking ≈99.1% | 基本满分内卷非常严重 |
| 代理式编码(真实工程) | SWE Bench | 1. Claude Sonnet 4.5 ≈82%<br>2. Claude Opus 4.5 ≈80.9%<br>3. GPT 5.2 ≈80% | 最接近真实软件工程的基准 |
| 整体最难人类终极考试 | Humanity's Last Exam | 1. Gemini 3 Pro ≈45.8%<br>2. Kimi K2 Thinking ≈44.9% | 目前最难的综合基准 |
| 视觉推理(纯视觉ARC) | ARC-AGI 2 | Claude Opus 4.5 领先明显(378分) | 分数体系不同,视觉最强 |
| 多语言综合推理 | MMMLU | Gemini 3 Pro & Claude Opus 4.5 领先 | 多语言能力较强 |
其他实用排行维度
- 最快模型(tokens/s):很多开源/蒸馏模型碾压(部分能跑到2000+ t/s)
- 最低延迟(TTFT Time to First Token):对实时应用很重要
- 最便宜模型($/1M tokens):开源模型通常大幅领先闭源
特色功能(非常实用)
- 可以任意选两个模型横向对比(上下文长度、知识截止日期、输入输出价格、最大输出token、延迟、速度等一目了然)
- 提供44个基准的动态图表展示
- 有专门的Open LLM Leaderboard(只看开源模型)
- 有专门的Best LLM for Coding子榜单