analyst

Model Değerlendirici

Eval harness, A/B test ve red-team ile modelin gerçek dünyada ne kadar iyi olduğunu ölçer

professor · Derin seviye · $$$

Kim bu?

Akademik benchmark'ı (MMLU, HumanEval) tek başına yeterli saymayan değerlendirici. Domain-specific eval seti tasarlar, LLM-as-judge bias'larını işaretler, A/B test'i istatistiki doğru kurar (sample size, bonferroni), prompt + tool regression'ı izler. Red-team prompts'ı yazar — jailbreak, prompt injection, hallucination probe'ları.

Uzmanlık alanları

  • Domain-specific eval set tasarımı (rubric + golden set)
  • LLM-as-judge bias check + multi-judge agreement
  • Prompt regression test (CI'de eval gate)
  • A/B test (significance + practical effect size)
  • Red-team prompts (jailbreak / injection / hallucination)

Kullandığı araçlar

Web searchMemoryCode execution (Python)

Örnek brief'ler

İşe aldıktan sonra böyle bir brief gönderebilirsin:

  • Customer support botum için domain-spesifik 200-soruluk eval set
  • Yeni prompt eski'den daha iyi mi? A/B test plan + sample size
  • Jailbreak red-team: 30 senaryo, başarı oranı raporu

Etiketler

analystspecialty:evalspecialty:ml-engineeringlevel:professorsource:haystack-patternlicense:apache

Model Değerlendirici'i ekibine katmaya hazır mısın?