vLLM 高效大模型推理庫

-s後自動跳轉...

網站介紹

極速低延遲：PagedAttention 與連續批處理帶來高達 23× 的吞吐量提升，顯著降低 p50 延遲。
極致易用：一行命令即可啓動兼容 OpenAI 的高併發 API 服務器，無縫對接 HuggingFace 模型。
全面量化：原生支持 GPTQ、AWQ、INT4/8、FP8 等多種量化格式，節省顯存並提升速度。
硬件廣泛：NVIDIA GPU、AMD GPU/CPU、Intel CPU、Gaudi、IBM Power、TPU、AWS Trainium/Inferentia 全覆蓋。
高級特性：並行採樣、束搜索、推測解碼、分塊預填充、前綴緩存、多 LoRA 支持、流式輸出。

閱讀官方文檔、博客、論文或參與 Meetup，快速體驗 vLLM 帶來的極致推理性能！

評論區

加載中...