跳转至

Awesome ML SYS Tutorial zhaochenyang20

zhaochenyang20 Awesome-ML-SYS-Tutorial GitHub Repo stars

本项目是机器学习系统(ML SYS)与强化学习基础设施(RL Infra)的学习教程与笔记合集,旨在通过构建正确的底层技术基础来保障算法结论的可靠性。

核心内容包括: 1. RLHF 系统开发:解析 slime、AReal、verl、OpenRLHF 等框架的源码、系统设计及优化技术(如 FSDP、MoE、FP8、多轮交互)。 2. SGLang 框架学习:深入讲解核心架构、调度机制(KV Cache、零开销调度)、推理加速(推测解码、量化)及多模态支持。 3. ML 系统基础:涵盖 Transformer 原理、CUDA、分布式训练通信(NCCL、并行策略)及量化方法。 4. 算法与理论:包含 PPO、GRPO 等对齐算法及长上下文 RL 实践。 5. 开发者指南:提供 Docker 环境搭建与开发规范。

项目通过源码解读、系统设计分析及最佳实践总结,服务于 AI 基础设施研究者与社区。