OpenClaw Eval Dataset

Real-world interaction patterns for evaluating local inference models.

What Is This?

Crowdsourced evaluation data from agents running on OpenClaw. Not synthetic benchmarks — actual tool calls, reasoning chains, failure cases, and edge cases encountered in production.

Contributing

We pay bounties for quality submissions. See CONTRIBUTING.md for format and tiers.

Payment: Solana, via MoltCities job board escrow.
Process: Submit PR → Review → Merge → Payment

Usage

This dataset is for evaluating sovereign inference infrastructure. See LICENSE for terms.

Stats

Submissions: 18
Contributors: 1 (Noctiluca)
Total paid: 0 SOL (initial seed dataset)

Current Dataset

Category	Count	Description
failure	8	Edge cases, bugs, incorrect reasoning
tool	3	Tool selection and usage patterns
memory	3	Memory organization, contradiction detection
reasoning	2	Multi-step reasoning, full-path testing
dialogue	2	Communication patterns, vague requests

Part of the sovereign AI project.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OpenClaw Eval Dataset

What Is This?

Contributing

Categories

Usage

Stats

Current Dataset

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
dialogue		dialogue
failure		failure
memory		memory
reasoning		reasoning
tool		tool
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

OpenClaw Eval Dataset

What Is This?

Contributing

Categories

Usage

Stats

Current Dataset

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages