vLLM是一个开源的高性能大语言模型(LLM)推理和serving引擎,旨在让LLM的部署和推理变得简单、快速且成本低廉。
它最初由加州大学伯克利分校(UC Berkeley)的Sky Computing Lab开发,现已成为一个由学术界和工业界共同推动的社区项目,获得了包括a16z、红帽、NVIDIA、Google Cloud、AMD等众多大厂的支持。
核心定位与口号
Easy, Fast, and Cheap LLM serving for everyone
- 易用:最广泛的开源模型支持 + OpenAI兼容API,几乎零成本迁移
- 高速:业内顶尖的吞吐量(throughput)
- 廉价:大幅提升硬件利用率,显著降低推理成本
主要特点与技术亮点
-
PagedAttention(核心创新)
- 借鉴操作系统虚拟内存和分页机制管理注意力机制的Key-Value Cache
- 几乎零内存浪费,支持更大的batch size和更长的上下文
- 极大提升GPU内存利用率和整体吞吐量
-
连续批处理(Continuous Batching)
- 动态批处理,而不是静态批次
- 显著降低延迟,尤其在真实生产负载(多用户、不同长度请求)下表现优异
-
高吞吐量与低成本
- 相比传统Hugging Face Transformers等框架,吞吐量可提升2-24倍(视模型和场景)
- 在相同硬件上服务更多用户,或用更少的GPU跑更大模型
-
极致兼容性
- 模型:支持几乎所有主流开源LLM(Llama、Mistral、Qwen、DeepSeek、Gemma、GLM等),包括多模态、量化模型(AWQ、GPTQ、FP8等)
- 硬件:CUDA、ROCm(AMD)、XPU、CPU等多平台统一接口
- 支持分布式推理(tensor parallel、pipeline parallel等)
-
OpenAI兼容API
- 可以直接替换掉OpenAI接口,几行命令就能把本地/自托管模型变成ChatGPT风格的API服务
- 支持流式输出(streaming)、工具调用、结构化输出等现代特性
-
其他高级功能
- 前缀缓存(Prefix Caching / Automatic Prefix Caching)
- 多模态支持(视觉语言模型)
- 量化、稀疏注意力、Mamba等新型架构
- 生产级特性:多主机serving、监控、日志等
适用场景
- 企业/团队自建ChatGPT式内部服务
- 高并发在线推理(客服、写作助手、代码助手等)
- 研究和开发阶段快速验证各种开源模型
- 需要极致性价比的GPU集群推理部署