ktransformers

项目核心内容总结：
KTransformers 是一个基于 CPU-GPU 异构计算的高效大语言模型（LLM）推理与微调框架，包含两个核心模块：

kt-kernel（高性能推理内核）
- 功能：提供 CPU/GPU 优化的推理加速，支持混合专家（MoE）模型、量化（INT4/INT8）、多 GPU/多并发等。
- 特性：
  - 支持 Intel AMX/AVX 加速、AMD ROCm、Ascend NPU 等硬件。
  - 支持 DeepSeek-V3/R1、Qwen3-Next、Kimi-K2 等主流模型。
  - 可通过 Python API 集成至 SGLang 等框架。
- 使用方法：
  Terminal window
```
cd kt-kernel
pip install .
```
kt-sft（微调框架）
- 功能：与 LLaMA-Factory 集成，支持超大规模 MoE 模型（如 671B 参数 DeepSeek-V3）的高效微调。
- 特性：
  - 支持 LoRA 微调、异构加速（CPU/GPU 混合）。
  - 资源占用低，70GB GPU 内存即可微调 671B 模型。
- 使用方法：
  Terminal window
```
cd kt-sft
USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
```

主要优势：