hugging-face-model-trainer

Name: hugging-face-model-trainer
Brand: MuleRun
Author: purpose

by purpose

00Feb 6, 2026Visit Source

当用户想要在Hugging Face Jobs基础设施上使用TRL（Transformer Reinforcement Learning）训练或微调语言模型时，应使用此技能。涵盖SFT、DPO、GRPO和奖励建模训练方法，以及用于本地部署的GGUF转换。包括关于TRL Jobs包、带有PEP 723格式的UV脚本、数据集准备和验证、硬件选择、成本估算、Trackio监控、Hub身份验证和模型持久化的指导。当涉及云GPU训练、GGUF转换或用户提及在Hugging Face Jobs上训练而无需本地GPU设置时，应调用此技能。