advanced-evaluation

Name: advanced-evaluation
Brand: MuleRun
Author: Co5mos

by Co5mos

00Feb 7, 2026Visit Source

This skill should be used when the user asks to "implement LLM-as-judge", "compare model outputs", "create evaluation rubrics", "mitigate evaluation bias", or mentions direct scoring, pairwise comparison, position bias, evaluation pipelines, or automated quality assessment.