Skip to content

llama-swap

项目名称:llama-swap

项目功能
llama-swap 是一个用 Go 编写的高性能工具,允许用户在同一台机器上运行多个本地 LLM 模型,并在需要时动态切换模型,而无需重启应用程序。它支持所有 OpenAI API 兼容的服务器,如 llama.cpp、vllm、tabbyAPI 等,具备灵活的模型管理与自动切换能力。

使用方法

  • 提供多种安装方式:Docker、Homebrew、WinGet、预编译二进制文件、源码编译。
  • 配置文件简单,只需一个 YAML 文件即可定义模型及其启动命令。
  • 可通过 Web UI 实时监控日志、管理模型。
  • 支持 API 密钥限制访问,提供多个 API 端点用于模型管理与日志查看。

主要特性

  • 简单部署:一个二进制文件,一个配置文件,无外部依赖。
  • 模型热切换:根据请求自动加载或切换模型。
  • 支持多种模型服务器:兼容 OpenAI、Anthropic API,支持 llama-server 等特定端点。
  • Web UI 界面:提供实时日志监控、模型控制、请求历史查看。
  • 高级功能:支持模型分组、自动卸载、预加载、端口自动分配、请求过滤、环境变量设置等。
  • Docker 支持:提供多种平台的容器镜像,支持非 root 运行。
  • 反向代理配置建议:提供 nginx 配置示例,确保流式请求正常工作。
  • CLI 日志监控:支持通过命令行查看或流式读取模型与系统日志。

适用场景
适用于本地部署多个 LLM 模型的用户,需要灵活切换模型以满足不同任务需求,同时希望简化部署与管理流程。