Home / Skills / tools / eval-harness-kit

eval-harness-kit

maintained by aufrank

star 0 account_tree 1 verified_user MIT License

Overview Implementation Examples History

Build and run deterministic evaluation suites for agent workflows (single-turn or agentic). Use when you need reproducible eval runs with manifests, graders, metrics, and JSONL logs for capability or regression tracking.

Key Features

Comprehensive skill evaluation and performance tracking
Community-driven ratings and reviews
Easy integration with Claude Code
Regular updates and maintenance

Quick Start

TopRank Skills install aufrank/eval-harness-kit

chat Comments (0)

chat_bubble_outline

No comments yet. Be the first to share your thoughts!

Skill Details

GitHub Stars 0

GitHub Forks 1

Created Jan 2026

Last Updated 4 months ago

tools tools llm ai

Related Skills

ai-sdk

vercel

star 22.3k

chevron_right

planning-with-files

OthmanAdi

star 13.5k

chevron_right

ui-skills

baptisteArno

star 9.7k

chevron_right

biomni

K-Dense-AI

star 8.6k

chevron_right

building-agents

adenhq

star 8.6k

chevron_right

Build your own?

Join 12,000+ developers contributing to the Claude ecosystem.

Sign in to Comment

eval-harness-kit

Key Features

Quick Start

chat Comments (0)

Skill Details

Related Skills

ai-sdk

planning-with-files

ui-skills

biomni

building-agents

Build your own?