Skip to content

vllm-omni

项目核心内容总结:

功能:vLLM-Omni 是一个扩展自 vLLM 的框架,支持全模态(文本、图像、视频、音频)模型的推理与服务,适用于自回归(AR)和非自回归(如 Diffusion Transformers)架构,可输出多模态结果。

主要特性

  • 高效性能:基于 vLLM 的高效 KV 缓存管理、流水线执行重叠、动态资源分配,提升吞吐量。
  • 灵活易用:支持异构流水线抽象、Hugging Face 模型集成、分布式推理(张量/流水线/数据/专家并行)、流式输出、OpenAI 兼容 API。
  • 全模态支持:兼容主流开源模型(如 Qwen-Omni、Qwen-Image)。

使用方法

  • 通过文档链接(Read the Docs)获取安装指南、快速入门教程及支持模型列表。

许可证:Apache License 2.0。