MuleRun
Chat
Resources
Pricing
Back to all
evaluation
by
MenglinFang
Run
3
0
Feb 6, 2026
Visit Source
通用产品功能评估方法论与工具集。用于:(1) 设计新功能的评估标准体系,(2) 创建评分Prompt实现LLM-as-a-Judge,(3) 分析人工与模型评分一致性,(4) 迭代优化评估标准和Prompt。适用于AI功能评测、对话质量评估、软硬件产品体验评估等场景。当用户需要设计评估体系、创建评分标准、分析评测数据或优化评测流程时使用此skill。