vLLM

高性能开源大语言模型推理引擎，通过 PagedAttention 和连续批处理技术，实现极致吞吐量和性价比，让开源 LLM 部署又快又省

vLLM是一个开源的高性能大语言模型（LLM）推理和serving引擎，旨在让LLM的部署和推理变得简单、快速且成本低廉。

它最初由加州大学伯克利分校（UC Berkeley）的Sky Computing Lab开发，现已成为一个由学术界和工业界共同推动的社区项目，获得了包括a16z、红帽、NVIDIA、Google Cloud、AMD等众多大厂的支持。

Easy, Fast, and Cheap LLM serving for everyone

PagedAttention（核心创新）
- 借鉴操作系统虚拟内存和分页机制管理注意力机制的Key-Value Cache
- 几乎零内存浪费，支持更大的batch size和更长的上下文
- 极大提升GPU内存利用率和整体吞吐量
连续批处理（Continuous Batching）
- 动态批处理，而不是静态批次
- 显著降低延迟，尤其在真实生产负载（多用户、不同长度请求）下表现优异
高吞吐量与低成本
- 相比传统Hugging Face Transformers等框架，吞吐量可提升2-24倍（视模型和场景）
- 在相同硬件上服务更多用户，或用更少的GPU跑更大模型
极致兼容性
- 模型：支持几乎所有主流开源LLM（Llama、Mistral、Qwen、DeepSeek、Gemma、GLM等），包括多模态、量化模型（AWQ、GPTQ、FP8等）
- 硬件：CUDA、ROCm（AMD）、XPU、CPU等多平台统一接口
- 支持分布式推理（tensor parallel、pipeline parallel等）
OpenAI兼容API
- 可以直接替换掉OpenAI接口，几行命令就能把本地/自托管模型变成ChatGPT风格的API服务
- 支持流式输出（streaming）、工具调用、结构化输出等现代特性
其他高级功能
- 前缀缓存（Prefix Caching / Automatic Prefix Caching）
- 多模态支持（视觉语言模型）
- 量化、稀疏注意力、Mamba等新型架构
- 生产级特性：多主机serving、监控、日志等