LLM-Perf Leaderboard

专注于大语言模型(LLM)推理性能的排行榜

LLM 性能排行榜(LLM-Perf Leaderboard),也被称为“硬件性能榜”或“推理性能榜”。

这是一个专注于大语言模型(LLM)推理性能的排行榜,主要对比同一模型在不同硬件、不同后端、不同量化/优化方式下的实际速度与资源消耗,而不是模型能力强弱。

它主要测什么?(核心指标)

  • 延迟(Latency):TTFT(Time to First Token)、每 token 延迟、p50/p90/p99 等
  • 吞吐量(Throughput):tokens/s(最重要、最常看的指标)
  • 显存占用(VRAM usage)
  • 内存占用(RAM)
  • 功耗/能耗(部分场景会测 Energy)
  • 加载时间(Model load time)

支持的对比维度(非常丰富)

你可以自由筛选/排序以下组合:

硬件:

  • NVIDIA A100 / H100 / H200 / L40S / RTX 4090 / 3090 / 4090 等消费级/专业卡
  • 多卡配置(8×H100、4×A100 等)

后端/推理框架:

  • PyTorch(原生)
  • vLLM
  • TensorRT-LLM
  • Hugging Face TGI(Text Generation Inference)
  • llama.cpp
  • exllama v2
  • Transformers + BetterTransformer / torch.compile
  • ONNX Runtime / ORT
  • OpenVINO 等

优化方式:

  • fp16 / bf16 / fp8
  • AWQ / GPTQ / bitsandbytes 4bit/8bit
  • FP8动态/静态量化
  • Flash Attention / xformers / sdpa 等 attention 优化

一句话总结区别:
想知道哪个模型最聪明 → Open LLM Leaderboard
想知道本地部署哪个模型最快/最省显存 → LLM-Perf Leaderboard ← 就是它!

谁应该重点关注这个榜?

  • 本地部署/自建推理服务团队
  • 显存紧张想上大模型的个人开发者(70B/72B/405B 量化后谁最快)
  • 采购服务器/显卡前想做性能对比
  • 推理框架/量化方案开发者(想看看自家优化到底快多少)
  • 成本敏感的企业(想在 H100 和 4090×8 之间做性价比取舍)