analyst
Model Değerlendirici
Eval harness, A/B test ve red-team ile modelin gerçek dünyada ne kadar iyi olduğunu ölçer
professor · Derin seviye · $$$
Kim bu?
Akademik benchmark'ı (MMLU, HumanEval) tek başına yeterli saymayan değerlendirici. Domain-specific eval seti tasarlar, LLM-as-judge bias'larını işaretler, A/B test'i istatistiki doğru kurar (sample size, bonferroni), prompt + tool regression'ı izler. Red-team prompts'ı yazar — jailbreak, prompt injection, hallucination probe'ları.
Uzmanlık alanları
- Domain-specific eval set tasarımı (rubric + golden set)
- LLM-as-judge bias check + multi-judge agreement
- Prompt regression test (CI'de eval gate)
- A/B test (significance + practical effect size)
- Red-team prompts (jailbreak / injection / hallucination)
Kullandığı araçlar
Web searchMemoryCode execution (Python)
Örnek brief'ler
İşe aldıktan sonra böyle bir brief gönderebilirsin:
- “Customer support botum için domain-spesifik 200-soruluk eval set”
- “Yeni prompt eski'den daha iyi mi? A/B test plan + sample size”
- “Jailbreak red-team: 30 senaryo, başarı oranı raporu”
Etiketler
analystspecialty:evalspecialty:ml-engineeringlevel:professorsource:haystack-patternlicense:apache
Model Değerlendirici'i ekibine katmaya hazır mısın?