LLM Leaderboard - 前最专注“后饱和时代”模型硬核能力的实时排行榜，专门追踪2024年4月后发布的SOTA模型

目前 AI 领域非常实用且更新较活跃的 LLM（大语言模型）排行榜之一，官方名称为 LLM Leaderboard 2025。

Vellum AI 打造的这个榜单主要聚焦于2024年4月之后发布的最新的 SOTA（State-of-the-Art）模型版本，专门挑选尚未饱和、非过时的困难基准来进行比较，避免使用像 MMLU 这种已经被刷到天花板的旧基准。

数据来源非常混合且相对可信：

排名维度	主要基准	当前Top模型（大致排名）	备注
纯推理能力	GPQA Diamond	1. GPT 5.2 ≈92.4%<br>2. Gemini 3 Pro ≈91.9%<br>3. GPT 5.1 ≈88.1%	最难的纯推理基准之一
高中数学（竞赛级别）	AIME 2025	1. GPT 5.2 & Gemini 3 Pro 100%<br>3. Kimi K2 Thinking ≈99.1%	基本满分内卷非常严重
代理式编码（真实工程）	SWE Bench	1. Claude Sonnet 4.5 ≈82%<br>2. Claude Opus 4.5 ≈80.9%<br>3. GPT 5.2 ≈80%	最接近真实软件工程的基准
整体最难人类终极考试	Humanity's Last Exam	1. Gemini 3 Pro ≈45.8%<br>2. Kimi K2 Thinking ≈44.9%	目前最难的综合基准
视觉推理（纯视觉ARC）	ARC-AGI 2	Claude Opus 4.5 领先明显（378分）	分数体系不同，视觉最强
多语言综合推理	MMMLU	Gemini 3 Pro & Claude Opus 4.5 领先	多语言能力较强