土薯工具 Toolshu.com 登錄 用戶注冊

vLLM 高效大模型推理庫 vLLM 高效大模型推理庫

https://docs.vllm.ai/

-s後自動跳轉...

網站介紹

vLLM 高效大模型推理庫

官方主頁:https://docs.vllm.ai/

核心優勢

  • 極速低延遲:PagedAttention 與連續批處理帶來高達 23× 的吞吐量提升,顯著降低 p50 延遲。
  • 極致易用:一行命令即可啓動兼容 OpenAI 的高併發 API 服務器,無縫對接 HuggingFace 模型。
  • 全面量化:原生支持 GPTQ、AWQ、INT4/8、FP8 等多種量化格式,節省顯存並提升速度。
  • 硬件廣泛:NVIDIA GPU、AMD GPU/CPU、Intel CPU、Gaudi、IBM Power、TPU、AWS Trainium/Inferentia 全覆蓋。
  • 高級特性:並行採樣、束搜索、推測解碼、分塊預填充、前綴緩存、多 LoRA 支持、流式輸出。

主要功能

  • 分佈式推理:支持張量並行、流水線並行、數據並行與專家並行,輕鬆擴展至多機多卡。
  • 企業級接口:OpenAI 風格 RESTful API,包含 chat/completions、completions 等端點。
  • 社區生態:由 UC Berkeley 發起,彙集全球學術界與工業界貢獻,持續迭代。

閱讀官方文檔、博客、論文或參與 Meetup,快速體驗 vLLM 帶來的極致推理性能!