Autor für Evaluierungsszenarien (m/w/d)

Tagessatz 288 - 640€

Remoteanteil 100%

Sprachen

Englisch (Verhandlungssicher)

Industrie

Informationstechnologie (IT)

Bereich

Qualitätssicherung

Beschreibung

Wir suchen jemanden, der realistische und strukturierte Evaluierungsszenarien für LLM-basierte Agenten entwerfen kann. Du erstellst Testfälle, die menschenähnliche Aufgaben simulieren, und definierst den Goldstandard, um Agentenaktionen damit zu vergleichen. Du sorgst dafür, dass jedes Szenario klar definiert, gut bewertet und einfach auszuführen sowie wiederzuverwenden ist. Dafür brauchst du einen scharfen analytischen Verstand, ein Auge fürs Detail und Interesse daran, wie KI-Agenten Entscheidungen treffen.

Obwohl jedes Projekt einzigartig ist, gehören zu deinen typischen Aufgaben:

Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen.
Den Goldstandard und akzeptables Agentenverhalten definieren.
Aufgabenschritte, erwartete Ergebnisse und Randfälle annotieren.
Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und Klarheit zu verbessern.
Agentenausgaben prüfen und Tests entsprechend anpassen.

Anforderungen

Bachelor- oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder verwandten Bereichen.
Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotierung.
Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
Starke schriftliche Kommunikationsfähigkeiten in Englisch.
Souveräner Umgang mit strukturierten Formaten wie JSON/YAML zur Beschreibung von Szenarien.
Fähigkeit, erwartetes Agentenverhalten (Goldpfade) und Bewertungslogik zu definieren.
Grundkenntnisse in Python und JS.
Neugierig und offen für die Arbeit mit KI-generierten Inhalten, Agentenprotokollen und prompt-basiertem Verhalten.
Bereit, neue Methoden zu erlernen, schnell zwischen Aufgaben und Themen zu wechseln und manchmal mit komplexen, anspruchsvollen Richtlinien zu arbeiten.
Unsere freiberufliche Rolle ist vollständig remote, du brauchst nur einen Laptop, Internetverbindung, verfügbare Zeit und Begeisterung für die Herausforderung.

Nice to Have

Erfahrung im Schreiben manueller oder automatisierter Testfälle.
Vertrautheit mit LLM-Fähigkeiten und typischen Fehlerbildern.
Verständnis von Bewertungsmetriken (Precision, Recall, Abdeckung, Reward-Funktionen).

Du bewirbst dich dieses Mal nicht?

Lass dich über ähnliche Projekte informieren, die zu deiner Erfahrung passen.

Häufig gestellte Fragen

Das Projekt ist vollständig remote und bietet volle örtliche Flexibilität.

Das Projekt ist 100% remote. Sie können von jedem beliebigen Ort aus arbeiten.

Das Projekt bietet einen Tagessatz von 288 - 640€, was einem Stundensatz von 36 - 80€/h entspricht.

Das Projekt erfordert folgende Sprachen: Englisch (Verhandlungssicher).

Das Projekt ist der folgenden Industrie zuzuordnen: Informationstechnologie (IT).

Das Projekt umfasst den folgenden Geschäftsbereich: Qualitätssicherung.

Ja! Empfehlen Sie einen Freelancer für das Projekt und verdienen Sie 30% der FRATCH-Gewinne, jedes Mal wenn dieser vermittelt wird — für die Dauer des Projekts. Teilen Sie einfach Ihren Einladungslink mit einem Kollegen.

Um sich für das Projekt zu bewerben, klicken Sie auf die Bewerben-Schaltfläche auf der Projektseite. Wir leiten Ihren Lebenslauf an den Kunden weiter und melden uns innerhalb von wenigen Tagen bei Ihnen.

Schließ Dich anderen Experten an, die bereits Teil unseres Netzwerks sind