vLLM

高性能开源大语言模型推理引擎,通过 PagedAttention 和连续批处理技术,实现极致吞吐量和性价比,让开源 LLM 部署又快又省

vLLM是一个开源的高性能大语言模型(LLM)推理和serving引擎,旨在让LLM的部署和推理变得简单、快速且成本低廉

它最初由加州大学伯克利分校(UC Berkeley)的Sky Computing Lab开发,现已成为一个由学术界和工业界共同推动的社区项目,获得了包括a16z、红帽、NVIDIA、Google Cloud、AMD等众多大厂的支持。

核心定位与口号

Easy, Fast, and Cheap LLM serving for everyone

  • 易用:最广泛的开源模型支持 + OpenAI兼容API,几乎零成本迁移
  • 高速:业内顶尖的吞吐量(throughput)
  • 廉价:大幅提升硬件利用率,显著降低推理成本

主要特点与技术亮点

  1. PagedAttention(核心创新)

    • 借鉴操作系统虚拟内存和分页机制管理注意力机制的Key-Value Cache
    • 几乎零内存浪费,支持更大的batch size和更长的上下文
    • 极大提升GPU内存利用率和整体吞吐量
  2. 连续批处理(Continuous Batching)

    • 动态批处理,而不是静态批次
    • 显著降低延迟,尤其在真实生产负载(多用户、不同长度请求)下表现优异
  3. 高吞吐量与低成本

    • 相比传统Hugging Face Transformers等框架,吞吐量可提升2-24倍(视模型和场景)
    • 在相同硬件上服务更多用户,或用更少的GPU跑更大模型
  4. 极致兼容性

    • 模型:支持几乎所有主流开源LLM(Llama、Mistral、Qwen、DeepSeek、Gemma、GLM等),包括多模态、量化模型(AWQ、GPTQ、FP8等)
    • 硬件:CUDA、ROCm(AMD)、XPU、CPU等多平台统一接口
    • 支持分布式推理(tensor parallel、pipeline parallel等)
  5. OpenAI兼容API

    • 可以直接替换掉OpenAI接口,几行命令就能把本地/自托管模型变成ChatGPT风格的API服务
    • 支持流式输出(streaming)、工具调用、结构化输出等现代特性
  6. 其他高级功能

    • 前缀缓存(Prefix Caching / Automatic Prefix Caching)
    • 多模态支持(视觉语言模型)
    • 量化、稀疏注意力、Mamba等新型架构
    • 生产级特性:多主机serving、监控、日志等

适用场景

  • 企业/团队自建ChatGPT式内部服务
  • 高并发在线推理(客服、写作助手、代码助手等)
  • 研究和开发阶段快速验证各种开源模型
  • 需要极致性价比的GPU集群推理部署