feat: step-level quality signals + accuracy-effort observability metric

## Context

Two complementary findings on improving engine observability:

1. **[AgentProcessBench](https://huggingface.co/papers/2603.14465)** -- 1,000 trajectories, 8,509 human-labeled step annotations. Ternary step labeling (correct/neutral-exploratory/incorrect) with error-propagation rules. Current stagnation detection operates at task level only.
2. **[MADQA Benchmark](https://huggingface.co/papers/2603.12180)** -- Agents trapped in loops despite having answers. Novel accuracy-effort trade-off metric (outcome quality vs steps consumed).

## Action Items

- [ ] Add step-level quality signals to approval gate triggers (not just task-boundary outcomes)
- [ ] Implement ternary step classification: correct / neutral-exploratory / incorrect
- [ ] Expose accuracy-effort ratio in observability layer (task quality / normalized steps)
- [ ] Wire accuracy-effort metric into budget module for cost-per-outcome analysis
- [ ] Address finding: weaker models terminate early, inflating "correct step" ratios (trap for HR performance tracking)

## References

- [AgentProcessBench](https://huggingface.co/papers/2603.14465)
- [MADQA Benchmark](https://huggingface.co/papers/2603.12180)
- Research log entry #27 (2026-03-14)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: step-level quality signals + accuracy-effort observability metric #697

Context

Action Items

References

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

feat: step-level quality signals + accuracy-effort observability metric #697

Description

Context

Action Items

References

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions