跳转至

Documentation

RLinf RLinf

RLinf RLinf

RLinf RLinf ¶

RLinf 是面向具身智能与代理智能的灵活可扩展开源强化学习基础设施。其核心功能包括：

高效分布式训练：支持 PPO、GRPO、SAC 等多种强化学习算法，隐藏分布式编程复杂性，支持多 GPU 节点无缝扩展及 FSDP、Megatron 等后端集成。
丰富的模型支持：涵盖 VLA（如π₀、OpenVLA）、VLM、世界模型及自定义策略的强化学习微调与监督微调（SFT）。
广泛的场景适配：兼容 ManiSkill、IsaacLab 等仿真器及 Franka、XSquare 等真实机器人，支持实机在线学习与 Sim-Real 协同训练。
智能体应用：支持代码生成、数学推理及搜索任务的在线强化学习，涵盖单代理与多代理场景。