跳转至

nano vllm GeeeekExplorer

GeeeekExplorer nano-vllm GitHub Repo stars

Nano-vLLM 是一个从零构建的轻量级 vLLM 实现,核心功能如下:

  1. 高效推理:提供与 vLLM 相媲美的离线推理速度,基准测试显示吞吐量更优。
  2. 简洁代码:实现代码清晰易读,总计仅约 1,200 行 Python。
  3. 优化套件:内置前缀缓存、张量并行、Torch 编译及 CUDA Graph 等优化技术。
  4. 接口兼容:API 设计与 vLLM 基本一致,便于直接使用和迁移。