LMCache LMCache
LMCache LMCache
¶
LMCache 是一个面向大型语言模型(LLM)服务引擎的扩展组件,旨在通过 KV 缓存复用降低首字延迟(TTFT)并提高吞吐量,特别是在长上下文场景中。它支持在整个数据中心范围(涵盖 GPU、CPU、磁盘及 S3)内存储和复用任意服务引擎实例中的可重用文本 KV 缓存,利用零 CPU 拷贝、NIXL、GDS 等技术节省 GPU 算力并减少用户响应延迟。该项目与 vLLM 及 SGLang 等主流推理平台深度集成,配合 vLLM 使用可减少 3-10 倍的延迟。主要功能包括:vLLM v1 集成(支持 CPU KVCache 卸载、解耦预填充、P2P KVCache 共享)、SGLang 集成及多种存储后端支持(CPU、磁盘、NIXL)。