Zum Hauptinhalt springen

Autor für Evaluierungsszenarien (m/w/d)

Anzahl der Bewerber anzeigen

Projektspezifikation

Tagessatzspanne
Tagessatz 288 - 640€
Remote-Arbeitsanteil
Remoteanteil 100%
Erforderliche Sprachen
Sprachen
Englisch(Verhandlungssicher)

Projektexpertise

Industrien
Informationstechnologie (IT)
Bereichen
Qualitätssicherung

Beschreibung

Wir suchen jemanden, der realistische und strukturierte Evaluierungsszenarien für auf LLM basierende Agenten entwerfen kann. Du erstellst Testfälle, die menschliche Aufgaben simulieren, und definierst eine Gold-Standard-Verhaltensweise, mit der Agentenaktionen verglichen werden. Du sorgst dafür, dass jedes Szenario klar definiert, gut bewertet und einfach auszuführen sowie wiederzuverwenden ist. Du brauchst einen scharfen analytischen Verstand, Aufmerksamkeit fürs Detail und Interesse daran, wie KI-Agenten Entscheidungen treffen.

Obwohl jedes Projekt einzigartig ist, umfasst deine Arbeit typischerweise:

  • Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen
  • Den goldenen Pfad und akzeptables Agentenverhalten festlegen
  • Arbeitsschritte, erwartete Ausgaben und Randfälle annotieren
  • Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und zu verbessern
  • Agentenausgaben überprüfen und Tests entsprechend anpassen

Anforderungen

  • Bachelor- und/oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, Künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder anderen verwandten Bereichen.
  • Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotation.
  • Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
  • Starke schriftliche Kommunikationsfähigkeiten in Englisch.
  • Sicher im Umgang mit strukturierten Formaten wie JSON/YAML zur Szenariobeschreibung.
  • Fähigkeit, erwartete Agentenverhalten (Gold-Pfade) und Bewertungslogik zu definieren.
  • Grundkenntnisse in Python und JS.
  • Neugierig und offen im Umgang mit KI-generierten Inhalten, Agenten-Logs und promptbasiertem Verhalten.
  • Du bist bereit, neue Methoden zu lernen, kannst schnell zwischen Aufgaben und Themen wechseln und manchmal mit herausfordernden, komplexen Richtlinien arbeiten.
  • Unser Freelance-Job ist vollständig remote, du brauchst nur Laptop, Internetverbindung, Zeit und Motivation für die Herausforderung.

Wünschenswert

  • Erfahrung im Schreiben manueller oder automatisierter Testfälle.
  • Vertrautheit mit LLM-Fähigkeiten und typischen Ausfallmodi.
  • Verständnis von Bewertungsmetriken (Precision, Recall, Coverage, Reward-Funktionen).
Projekt-Abonnieren-Symbol

Du bewirbst Dich dieses Mal nicht?

Lass Dich über ähnliche Projekte informieren, die zu Deiner Erfahrung passen.

Häufig gestellte Fragen

Das Projekt ist vollständig remote und bietet volle örtliche Flexibilität.
Das Projekt ist 100% remote. Sie können von jedem beliebigen Ort aus arbeiten.
Das Projekt bietet einen Tagessatz von 288 - 640€, was einem Stundensatz von 36 - 80€/h entspricht.
Das Projekt erfordert folgende Sprachen: Englisch (Verhandlungssicher).
Das Projekt ist der folgenden Industrie zuzuordnen: Informationstechnologie (IT).
Das Projekt umfasst den folgenden Geschäftsbereich: Qualitätssicherung.
Ja! Empfehlen Sie einen Freelancer für das Projekt und verdienen Sie 30% der FRATCH-Gewinne, jedes Mal wenn dieser vermittelt wird — für die Dauer des Projekts. Teilen Sie einfach Ihren Einladungslink mit einem Kollegen.
Um sich für das Projekt zu bewerben, klicken Sie auf die Bewerben-Schaltfläche auf der Projektseite. Wir leiten Ihren Lebenslauf an den Kunden weiter und melden uns innerhalb von wenigen Tagen bei Ihnen.
Veröffentlicht:

Ähnliche Projekte

KI-Evaluationsberater (m/w/d)

Ab 95%
440 - 480€/Tag

Freiberufliche/r Elektroingenieur/in mit Python-Erfahrung (m/w/d)

Ab 95%
120 - 384€/Tag

Freiberuflicher Automotive-Ingenieur (mit Python) – Qualitätssicherung / KI-Trainer

Ab 95%
120 - 384€/Tag

Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)

Ab 95%
120 - 384€/Tag

KI-Berater - Machine Learning (m/w/d)

100%
216 - 360€/Tag

KI-Berater - Data Science (m/w/d)

München, Deutschland
Ab 95%
320 - 400€/Tag

Senior Business Analyst (m/w/d)

Wien, Österreich
Bis zu 50%

Implementation Lead (w/m/d)

100%
904 - 1104€/Tag

Senior Projektmanager Kundeninteraktion

München, Deutschland
100%
752 - 800€/Tag

Entwicklung TM1 Planning Analytics Und Schnittstellen (m/w/d)

Deutschland
Bis zu 100%

Data Engineer (m/w/d)

München, Deutschland
Ab 95%
800€/Tag

Freelance Product Owner für Point Of Sale App

Berlin, Deutschland
752 - 848€/Tag

Hardware Product Manager (m/w/d)

Berlin, Deutschland
60 - 80%
560 - 720€/Tag

ERP-Transformation Manager (m/w/d)

Eisenach, Deutschland
40 - 70%

E-Commerce Listing Designer (m/w/d)

100%
200 - 240€/Tag

Senior Cloud Developer Typesript (m/w/d)

100%
904 - 1104€/Tag

Experte für Prozessautomatisierung in Kanzleiumgebungen (m/w/d)

Deutschland
Ab 95%

Commissioning & Qualification (C&Q) Engineer (m/w/d)

München, Deutschland
Bis zu 100%

Produktmanager - Kommerzielle Bewertung (m/w/d)

Berlin, Deutschland
40 - 80%

Java IT-Architekt (m/w/d)

Deutschland
Bis zu 100%

Freelance E-Ingenieur (m/w/d)

Deutschland
40 - 60%

Managementberater (Senior Level) (m/w/d)

München, Deutschland
Bis zu 100%
904 - 952€/Tag

Cybersicherheitsberater – Produktsicherheit & regulatorische Compliance (m/w/d)

Deutschland
Bis zu 100%

Leiter Automatisierung und KI-Transformation (m/w/d)

Rednitzhembach, Deutschland
Bis zu 100%

Interims-Leiter Buchhaltung / Head Of (m/w/d)

Deutschland
Bis zu 100%

Datenbank Administrator (m/w/d)

100%
904 - 1104€/Tag

Senior Projektmanager HR / Compensation & Data (m/w/d)

München, Deutschland
40 - 60%

M&A Berater (m/w/d)

Deutschland
Bis zu 100%

Kreativer Web-UI-Designer & Umsetzer (m/w/d)

100%
200 - 240€/Tag

Interim Manager CTO / CIO / Transformation / Technische Führung (m/w/d)

München, Deutschland
30 - 90%