doany.ai — Agent Eval Pipeline

The Pipeline

DISCOVER

Crawl registries & build unified skill catalog

GitHub skills.sh Community

ANALYZE

Parse SKILL.md, classify & score complexity

Metadata Dependencies

EVALUATE

Sandbox test in Claude Code & capture metrics

3,200+ Scenarios 5D Scoring

PUBLISH

Push to CDN & update search index in <2 min

Vercel Blob Embed Cards

Key Metrics

850+

Skills Indexed

3,200+

Eval Scenarios

~45m

Full Pipeline

<2m

Publish Latency

87%

Average Correctness Score

5-Dimensional Scoring

Meets specification

All deliverables present

Production-grade output

Token & tool economy

No leaks or destructive ops

What Makes It Unique

No manual curation — crawls & deduplicates across registries

Real isolated sessions with full tool-call capture

Auto-retests as models improve — always fresh scores

Vercel Blob push with instant search index updates

Drop-in integration for partner ecosystems