feat: implement quality scoring Layers 2+3 -- LLM judge and human override

## Summary

Implement quality scoring Layers 2 and 3. Layer 1 (CI signals) is already implemented. Consolidates #230 (LLM judge) and #231 (human override).

## Design Spec Reference

- **SS8.3** Performance Tracking -- D2

## Layer 2: LLM judge (formerly #230)

- Small-model LLM judge from a different model family than the agent being scored
- Evaluates task output against acceptance criteria
- Integration with `QualityScoringStrategy` protocol
- Cost target: ~1 EUR/day
- Specific model to be evaluated at implementation time

## Layer 3: Human override via API (formerly #231)

- API endpoint for human quality score override
- Highest weight in the scoring composite
- Integration with `QualityScoringStrategy` protocol and `PerformanceTracker`
- Dashboard UI for submitting overrides

## Dependencies

- API authentication (already implemented)
- #230 original deps (five-pillar evaluation framework -- #1017, CLOSED)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: implement quality scoring Layers 2+3 -- LLM judge and human override #230

Summary

Design Spec Reference

Layer 2: LLM judge (formerly #230)

Layer 3: Human override via API (formerly #231)

Dependencies

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

feat: implement quality scoring Layers 2+3 -- LLM judge and human override #230

Description

Summary

Design Spec Reference

Layer 2: LLM judge (formerly #230)

Layer 3: Human override via API (formerly #231)

Dependencies

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions