Back to all

stable-baselines3

by damody

10Feb 6, 2026Visit Source
生產就緒的強化學習演算法(PPO、SAC、DQN、TD3、DDPG、A2C),具有類似 scikit-learn 的 API。用於標準 RL 實驗、快速原型設計和文件完善的演算法實作。最適合搭配 Gymnasium 環境的單一代理 RL。對於高效能平行訓練、多代理系統或自訂向量化環境,請改用 pufferlib。