vLLM 高效大模型推理库

-s后自动跳转...

网站介绍

极速低延迟：PagedAttention 与连续批处理带来高达 23× 的吞吐量提升，显著降低 p50 延迟。
极致易用：一行命令即可启动兼容 OpenAI 的高并发 API 服务器，无缝对接 HuggingFace 模型。
全面量化：原生支持 GPTQ、AWQ、INT4/8、FP8 等多种量化格式，节省显存并提升速度。
硬件广泛：NVIDIA GPU、AMD GPU/CPU、Intel CPU、Gaudi、IBM Power、TPU、AWS Trainium/Inferentia 全覆盖。
高级特性：并行采样、束搜索、推测解码、分块预填充、前缀缓存、多 LoRA 支持、流式输出。

阅读官方文档、博客、论文或参与 Meetup，快速体验 vLLM 带来的极致推理性能！

评论区

加载中...