LLM 性能排行榜(LLM-Perf Leaderboard),也被称为“硬件性能榜”或“推理性能榜”。
这是一个专注于大语言模型(LLM)推理性能的排行榜,主要对比同一模型在不同硬件、不同后端、不同量化/优化方式下的实际速度与资源消耗,而不是模型能力强弱。
它主要测什么?(核心指标)
- 延迟(Latency):TTFT(Time to First Token)、每 token 延迟、p50/p90/p99 等
- 吞吐量(Throughput):tokens/s(最重要、最常看的指标)
- 显存占用(VRAM usage)
- 内存占用(RAM)
- 功耗/能耗(部分场景会测 Energy)
- 加载时间(Model load time)
支持的对比维度(非常丰富)
你可以自由筛选/排序以下组合:
硬件:
- NVIDIA A100 / H100 / H200 / L40S / RTX 4090 / 3090 / 4090 等消费级/专业卡
- 多卡配置(8×H100、4×A100 等)
后端/推理框架:
- PyTorch(原生)
- vLLM
- TensorRT-LLM
- Hugging Face TGI(Text Generation Inference)
- llama.cpp
- exllama v2
- Transformers + BetterTransformer / torch.compile
- ONNX Runtime / ORT
- OpenVINO 等
优化方式:
- fp16 / bf16 / fp8
- AWQ / GPTQ / bitsandbytes 4bit/8bit
- FP8动态/静态量化
- Flash Attention / xformers / sdpa 等 attention 优化
一句话总结区别:
想知道哪个模型最聪明 → Open LLM Leaderboard
想知道本地部署哪个模型最快/最省显存 → LLM-Perf Leaderboard ← 就是它!
谁应该重点关注这个榜?
- 本地部署/自建推理服务团队
- 显存紧张想上大模型的个人开发者(70B/72B/405B 量化后谁最快)
- 采购服务器/显卡前想做性能对比
- 推理框架/量化方案开发者(想看看自家优化到底快多少)
- 成本敏感的企业(想在 H100 和 4090×8 之间做性价比取舍)