土薯工具 Toolshu.com 登录 用户注册

vLLM 高效大模型推理库 vLLM 高效大模型推理库

https://docs.vllm.ai/

-s后自动跳转...

网站介绍

vLLM 高效大模型推理库

官方主页:https://docs.vllm.ai/

核心优势

  • 极速低延迟:PagedAttention 与连续批处理带来高达 23× 的吞吐量提升,显著降低 p50 延迟。
  • 极致易用:一行命令即可启动兼容 OpenAI 的高并发 API 服务器,无缝对接 HuggingFace 模型。
  • 全面量化:原生支持 GPTQ、AWQ、INT4/8、FP8 等多种量化格式,节省显存并提升速度。
  • 硬件广泛:NVIDIA GPU、AMD GPU/CPU、Intel CPU、Gaudi、IBM Power、TPU、AWS Trainium/Inferentia 全覆盖。
  • 高级特性:并行采样、束搜索、推测解码、分块预填充、前缀缓存、多 LoRA 支持、流式输出。

主要功能

  • 分布式推理:支持张量并行、流水线并行、数据并行与专家并行,轻松扩展至多机多卡。
  • 企业级接口:OpenAI 风格 RESTful API,包含 chat/completions、completions 等端点。
  • 社区生态:由 UC Berkeley 发起,汇集全球学术界与工业界贡献,持续迭代。

阅读官方文档、博客、论文或参与 Meetup,快速体验 vLLM 带来的极致推理性能!