Back to all

hugging-face-model-trainer

by purpose

00Feb 6, 2026Visit Source
当用户想要在Hugging Face Jobs基础设施上使用TRL(Transformer Reinforcement Learning)训练或微调语言模型时,应使用此技能。涵盖SFT、DPO、GRPO和奖励建模训练方法,以及用于本地部署的GGUF转换。包括关于TRL Jobs包、带有PEP 723格式的UV脚本、数据集准备和验证、硬件选择、成本估算、Trackio监控、Hub身份验证和模型持久化的指导。当涉及云GPU训练、GGUF转换或用户提及在Hugging Face Jobs上训练而无需本地GPU设置时,应调用此技能。