제로이밸

ZeroEval

실사용 데이터 기반의 자동 평가와 프롬프트 최적화로 스스로 개선되는 AI 에이전트 구축 플랫폼

유료WebPython SDK오픈소스

웹사이트 방문하기zeroeval.com

레플리케이트와(과) 비교하기

소개

ZeroEval은 보정된 LLM 판사와 자동 프롬프트 최적화 기능을 통해 스스로 개선되는 AI 에이전트를 구축할 수 있는 도구입니다. SDK를 통해 OpenAI, Anthropic, LangChain 등의 LLM 호출을 자동으로 추적하며, 별도의 설정 없이 기존 코드베이스에 적용할 수 있습니다. 사용자는 운영 환경에서 에이전트의 출력을 평가하기 위해 맞춤형 루브릭이나 패스/실패 기준을 적용하는 LLM 판사를 정의할 수 있습니다. 판사가 잘못된 판단을 내릴 경우 사용자가 피드백을 제공하여 이를 교정하면, 시스템은 사용자의 품질 기준에 맞춰 학습합니다. 또한 사용자 불만이나 실패 사례를 분석하여 프롬프트를 자동으로 재작성하고, 버전 기록을 통해 검토한 후 원클릭으로 배포할 수 있습니다. 이 도구는 에이전트 기반 애플리케이션을 개발하는 개발자 및 AI 엔지니어를 대상으로 하며, 가격 정보는 제공되지 않습니다.

활용 워크플로우

입력

운영 환경의 실시간 LLM 추론 트레이스 (ZeroEval SDK)사용자 정의 평가 루브릭 및 성과 지표(KPI)최종 사용자의 정성적/정량적 피드백 (Thumbs up/down)기존 에이전트 시스템 프롬프트 및 구성 파일

제로이밸

SDK 및 OpenTelemetry를 통한 멀티턴 에이전트 실행 단계 자동 추적설정된 루브릭 기반의 LLM 판사(Judge)를 활용한 결과물 자동 점수화판사의 오판에 대한 사용자 교정 및 RLHF 기반 판사 로직 보정(Calibration)실패 사례의 패턴 분석을 통한 프롬프트 자동 재작성 및 DSPy 기반 최적화

출력

실패 패턴이 해결된 자가 최적화(Auto-optimized) 프롬프트사용자 품질 기준에 정렬된 보정된 LLM 판사 모델에이전트 성능 추이 및 루브릭별 점수 분석 리포트회귀 테스트를 위한 검증된 골든 데이터셋(Golden Dataset)

판사 정렬 워크플로우 (Judge Alignment)

LLM 판사가 인간의 의도와 다르게 평가할 경우, 사용자의 수정 의견을 학습하여 판사의 평가 정확도를 높입니다.

자동 프롬프트 배포 (One-click Deployment)

최적화된 프롬프트를 버전 관리 시스템과 연동하여 운영 환경에 즉시 반영하거나 롤백합니다.

핵심 차별점: 사용자 피드백이 판사를 교육하고, 그 판사가 다시 프롬프트를 최적화하는 폐쇄 루프(Closed-loop) 구조를 통해 운영 중인 에이전트를 자가 학습시킵니다.

주요 기능

SDK 및 MCP(Model Context Protocol) 연동 자동화
인간의 피드백을 통한 LLM 판사 보정(Calibration)
DSPy 기반의 자동 프롬프트 최적화
Cursor/Claude Code 등 AI 코딩 에이전트를 위한 Skills 지원

장점 & 단점

웹검색을 통해 수집된 사용자 피드백 정보입니다

장점

SDK 두 줄만 추가하면 기존 코드에 바로 통합 가능, 설정 파일 불필요
OpenAI, Anthropic, LangChain 등 주요 제공자의 호출을 자동으로 추적
인간 피드백을 통해 판정 기준이 학습되어 품질 기준에 맞춰 개선됨
피드백 패턴을 분석해 프롬프트 자동 재작성, 승인율 78%→94% 향상 사례
수십 개의 중간 도구 호출이 있는 멀티 턴 에이전트를 특화 지원
DeepSeek-R1, SimPO 등 주요 연구에서 제로샷 추론 평가 기준으로 인용

단점

Llama-3 등 모델이 제로샷에서 JSON 형식 출력 요구사항 충족에 어려움 겪음
LangSmith나 Braintrust 같은 기존 도구에 비해 상대적으로 초기 단계
오픈소스 프레임워크가 특정 작업만 지원, GPQA나 AIME 등 더 다양한 작업 필요
로컬 설치 시 conda 환경과 vLLM 설정 필요로 비개발자에게 진입 장벽 높음

가격 정보

유료시작 가격: 월 $15

유료 플랜은 월 $15부터 시작하며, 별도의 무료 플랜은 제공되지 않습니다. LLM 모델 평가 및 최적화를 위한 도구를 제공하며, API 사용량에 따라 추가 비용이 발생할 수 있습니다.

가격표 확인하기

활용 사례

멀티턴 에이전트의 도구 호출 및 추론 과정 검증
사용자 불만 사항 기반의 프롬프트 제약 조건 자동 추가
운영 환경에서의 에이전트 성능 실시간 모니터링 및 자동 개선

대상 사용자

AI 개발자엔지니어링 팀

연동 서비스

OpenAIAnthropicLangChainLangGraphHugging FaceOpenTelemetryGoogle Gemini

AI 에이전트의 신뢰성을 높이기 위한 평가 및 모니터링 B2B SaaS 솔루션입니다. 오픈소스 SDK를 통한 추적 기능은 무료로 시작할 수 있으나, 프로덕션 데이터 기반의 자동 프롬프트 최적화, 정교한 LLM 평가(Judge) 및 대시보드 관리 기능을 사용하려면 데모 예약을 통한 기업용 플랜 구독이 필요한 유료 방식입니다.

AI 모델 평가. LLM 벤치마크, 품질 테스트

개발 활동

2024. 8. 3.

최근 커밋

링크