Second Brain

❯

❯

cleanup 2026 04 17 conversation flush bulk

❯

❯

❯

item level failure detection separates prompt from test item

item-level-failure-detection-separates-prompt-from-test-item

Apr 07, 20261 min read

agent/orchestration
agent/claude-code

item-level-failure-detection-separates-prompt-from-test-item

In autoresearch loops, an item that fails 100% of the time across all prompt variants is a broken test item, not evidence of a bad prompt. Flagging item-level failure separately from prompt-level failure prevents discarding good prompts based on bad test data. Track per-item fail rates alongside per-experiment scores.

Related

clawteam-openclaw-multi-agent-swarm-evaluation
2026-04-04-oracle-001-self-architecture-analysis
autoresearch-validation-set-prevents-score-noise
autoresearch-v2-5-0-upgrade-8-gaps-absorbed
llm-as-judge-eval-isolation-prevents-charitable-grading
autoresearch-item-level-failure-vs-bad-prompt

Graph View

item-level-failure-detection-separates-prompt-from-test-item
Related

Backlinks

llm-as-judge-eval-isolation-prevents-charitable-grading
autoresearch-item-level-failure-vs-bad-prompt
autoresearch-validation-set-prevents-score-noise
autoresearch-v2-5-0-upgrade-8-gaps-absorbed

Created with Quartz v4.5.2 © 2026

CIOS
Mission Control