Second Brain

❯

❯

cleanup 2026 04 17 conversation flush bulk

❯

❯

❯

llm as judge eval isolation prevents charitable grading

llm-as-judge-eval-isolation-prevents-charitable-grading

Apr 07, 20261 min read

agent/orchestration
agent/claude-code

llm-as-judge-eval-isolation-prevents-charitable-grading

When the same agent generates and judges outputs, it grades charitably because it knows the prompt intent. Fix: strip all prompt context before presenting outputs to the judge — judge sees ONLY raw output + criterion text. This is called eval isolation and is critical for unbiased LLM-as-Judge scoring in autoresearch loops.

Related

clawteam-openclaw-multi-agent-swarm-evaluation
2026-04-04-oracle-001-self-architecture-analysis
enterprise-capability-expansion-5-pillars-from-digital-employee-analysis
autoresearch-v2-5-0-upgrade-8-gaps-absorbed
claude-agent-sdk-rate-limit-event-unknown-type-error
autoresearch-plateau-breaker-after-5-stale-runs
item-level-failure-detection-separates-prompt-from-test-item
autoresearch-criteria-health-check-at-experiment-10
autoresearch-llm-judge-context-blind-eval

Graph View

llm-as-judge-eval-isolation-prevents-charitable-grading
Related

Backlinks

claude-agent-sdk-rate-limit-event-unknown-type-error
autoresearch-criteria-health-check-at-experiment-10
autoresearch-llm-judge-context-blind-eval
autoresearch-plateau-breaker-after-5-stale-runs
item-level-failure-detection-separates-prompt-from-test-item
autoresearch-v2-5-0-upgrade-8-gaps-absorbed

Created with Quartz v4.5.2 © 2026

CIOS
Mission Control