evaluation

Name: evaluation
Brand: MuleRun
Author: MenglinFang

by MenglinFang

30Feb 6, 2026Visit Source

通用产品功能评估方法论与工具集。用于：(1) 设计新功能的评估标准体系，(2) 创建评分Prompt实现LLM-as-a-Judge，(3) 分析人工与模型评分一致性，(4) 迭代优化评估标准和Prompt。适用于AI功能评测、对话质量评估、软硬件产品体验评估等场景。当用户需要设计评估体系、创建评分标准、分析评测数据或优化评测流程时使用此skill。