# evaluation > 通用产品功能评估方法论与工具集。用于:(1) 设计新功能的评估标准体系,(2) 创建评分Prompt实现LLM-as-a-Judge,(3) 分析人工与模型评分一致性,(4) 迭代优化评估标准和Prompt。适用于AI功能评测、对话质量评估、软硬件产品体验评估等场景。当用户需要设计评估体系、创建评分标准、分析评测数据或优化评测流程时使用此skill。 - Author: MenglinFang - Repository: fangmenglin918-web/evaluation-skill - Version: 20260122184109 - Stars: 3 - Forks: 0 - Last Updated: 2026-02-06 - Source: https://github.com/fangmenglin918-web/evaluation-skill - Web: https://mule.run/skillshub/@@fangmenglin918-web/evaluation-skill~evaluation:20260122184109 --- --- name: evaluation description: 通用产品功能评估方法论与工具集。用于:(1) 设计新功能的评估标准体系,(2) 创建评分Prompt实现LLM-as-a-Judge,(3) 分析人工与模型评分一致性,(4) 迭代优化评估标准和Prompt。适用于AI功能评测、对话质量评估、软硬件产品体验评估等场景。当用户需要设计评估体系、创建评分标准、分析评测数据或优化评测流程时使用此skill。 --- # 通用评估方法论 Skill ## 核心理念 **评估 = 将模型/产品输出的"不确定性"转化为"工程化可控"的度量手段** 评估体系的三大价值: 1. **从体感到量化**:将模糊的"感觉变好了"转化为具体指标 2. **防止打地鼠**:通过回归测试确保新功能不破坏已有能力 3. **支撑LLM-as-a-Judge**:用强模型评测弱模型,实现分钟级迭代 ## 方法论流程(PDCA循环) ``` 定义功能 → 拆解维度 → 制定标准 → 人工打分基准 ↑ ↓ 循环迭代 ← 一致性对比 ← 模型跑分 ← Prompt优化 ← 标准优化 ``` ## 快速参考 | 任务 | 操作 | |------|------| | 设计评估体系 | 见下方"Step 1-3",参考 `references/dimension_design.md` | | 创建评分Prompt | 见"Step 4",使用 `assets/prompt_template.md` | | 计算一致性指标 | 运行 `scripts/calculate_consistency.py` | | 分析评分差异 | 运行 `scripts/analyze_discrepancy.py` | | 红线问题检测 | 参考 `assets/redline_template.md` | --- ## Step 1: 做定义 明确评估对象的本质: - **是什么**:功能的核心定义和边界 - **为谁服务**:目标用户和使用场景 - **什么算好**:好/坏的直觉判断标准 **输出物**:功能定义文档(1-2段话) --- ## Step 2: 拆解评估维度 将"好不好"拆解为可独立评估的维度。推荐采用层级结构: **通用维度框架**(根据产品类型选用): | 一级维度 | 适用说明 | 二级维度示例 | |---------|---------|-------------| | 基础效果(底线) | 所有产品必选 | 安全性、事实准确性、相关性 | | 内容质量(核心价值) | 信息输出类 | 深度、可理解性、信息密度 | | 交互体验(用户感受) | 交互类产品 | 流畅度、响应策略、上下文管理 | | 情感连接(情绪价值) | 陪伴/服务类 | 共情度、立场、人设一致性 | | 表达风格(呈现方式) | 内容生成类 | 自然度、表达张力、格式规范 | **维度设计原则**: - 底线维度:一票否决,触犯即最低分 - 核心维度:决定主要分数 - 加分维度:区分优秀与卓越 详细指南见 `references/dimension_design.md` --- ## Step 3: 制定评分标准 ### 3.1 评分档位设计 推荐5级评分制(0-4分),平衡区分度与易用性: | 分数 | 定义 | 占比预期 | |-----|------|---------| | 0分 | 红线/致命问题 | <5% | | 1分 | 无价值/严重缺陷 | <10% | | 2分 | 有瑕疵/明显问题 | ~15% | | 3分 | 合格/标准答案 | ~60% | | 4分 | 惊艳/卓越表现 | <10% | ### 3.2 标准制定要点 每个分数档位需包含: - **判定条件**:触发该分数的具体行为 - **锚点示例**:2-3个典型案例 - **边界说明**:与相邻分数的区分点 **关键原则**: - 红线问题优先检查,一票否决 - 按"倒金字塔"顺序判定:0分→1分→2分→3分→4分 - 分数通胀遏制:4分应极度稀缺 详细模板见 `assets/rubric_template.md` --- ## Step 4: 创建评分Prompt ### 4.1 Prompt设计原则(吴恩达方法论) **原则一:明确具体的指令** - 使用分隔符区分输入部分 - 要求结构化输出(JSON) - 提供Few-shot示例 - 说明边界条件处理 **原则二:给足思考时间** - 要求先分析再打分 - 制定打分步骤(Step-by-Step) - 强制自检清单 ### 4.2 Prompt核心结构 ``` 1. 角色设定(严苛的审计员) 2. 任务背景(评估场景和目标) 3. 评分档位定义(0-4分详细条款) 4. 打分流程(倒金字塔筛选) 5. 输入格式说明 6. 输出格式规范(JSON) 7. 典型案例参考 ``` 完整模板见 `assets/prompt_template.md` --- ## Step 5: 建立人工打分基准 ### 5.1 执行要点 - **独立评估**:每样本至少2人独立打分 - **差异标记**:分歧≥2分标记为争议样本 - **争议解决**:讨论达成共识或多数决 - **原因记录**:记录争议原因和最终依据 - **维度标注**:记录触发的具体维度,便于后续分析 ### 5.2 基准质量要求 - 评估者间Kappa > 0.6 - 样本覆盖各类典型场景和边界情况 - 每个评分有清晰的依据记录 --- ## Step 6: 一致性分析与迭代 ### 6.1 核心指标 | 指标 | 计算方法 | 目标阈值 | |-----|---------|---------| | 完全一致率 | 分数完全相同占比 | ≥70% | | 相邻一致率 | 差距≤1分占比 | ≥90% | | Cohen's Kappa | 校正随机一致性 | ≥0.6 | | MAE | 平均绝对误差 | ≤0.5 | 使用 `scripts/calculate_consistency.py` 计算 ### 6.2 差异分析 识别以下模式: - **系统性偏高/偏低**:调整Prompt严格程度 - **特定类型误判**:增加针对性说明 - **边界判定不准**:强化边界案例 使用 `scripts/analyze_discrepancy.py` 分析 ### 6.3 迭代策略 - 每次只改1-2个问题点 - 设定时间盒(1-2周/轮) - 连续3轮提升<1%时考虑收敛 - 保持独立验证集避免过拟合 --- ## 实践经验 1. **小步迭代**:每次只优化1-2个问题,便于归因 2. **量化驱动**:用数据说话,设定明确目标 3. **边界案例是关键**:80%不一致来自20%边界情况 4. **人机协同**:人定标准和审核,模型批量执行 --- ## 资源索引 - `references/dimension_design.md` - 维度拆解详细指南 - `references/consistency_metrics.md` - 一致性指标详解 - `assets/rubric_template.md` - 评分细则模板 - `assets/prompt_template.md` - 评分Prompt模板 - `assets/redline_template.md` - 红线检测Prompt模板 - `scripts/calculate_consistency.py` - 一致性计算 - `scripts/analyze_discrepancy.py` - 差异分析