Zum Hauptinhalt springen

Autor für Evaluierungsszenarien (m/w/d)

Projektspezifikation

Tagessatzspanne
Tagessatz 288 - 640€
Remote-Arbeitsanteil
Remoteanteil 100%
Erforderliche Sprachen
Sprachen
Englisch (Verhandlungssicher)

Projektexpertise

Industrie
Informationstechnologie (IT)
Bereich
Qualitätssicherung

Beschreibung

Wir suchen jemanden, der realistische und strukturierte Evaluierungsszenarien für LLM-basierte Agenten entwerfen kann. Du erstellst Testfälle, die menschenähnliche Aufgaben simulieren, und definierst den Goldstandard, um Agentenaktionen damit zu vergleichen. Du sorgst dafür, dass jedes Szenario klar definiert, gut bewertet und einfach auszuführen sowie wiederzuverwenden ist. Dafür brauchst du einen scharfen analytischen Verstand, ein Auge fürs Detail und Interesse daran, wie KI-Agenten Entscheidungen treffen.

Obwohl jedes Projekt einzigartig ist, gehören zu deinen typischen Aufgaben:

  • Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen.
  • Den Goldstandard und akzeptables Agentenverhalten definieren.
  • Aufgabenschritte, erwartete Ergebnisse und Randfälle annotieren.
  • Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und Klarheit zu verbessern.
  • Agentenausgaben prüfen und Tests entsprechend anpassen.

Anforderungen

  • Bachelor- oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder verwandten Bereichen.
  • Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotierung.
  • Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
  • Starke schriftliche Kommunikationsfähigkeiten in Englisch.
  • Souveräner Umgang mit strukturierten Formaten wie JSON/YAML zur Beschreibung von Szenarien.
  • Fähigkeit, erwartetes Agentenverhalten (Goldpfade) und Bewertungslogik zu definieren.
  • Grundkenntnisse in Python und JS.
  • Neugierig und offen für die Arbeit mit KI-generierten Inhalten, Agentenprotokollen und prompt-basiertem Verhalten.
  • Bereit, neue Methoden zu erlernen, schnell zwischen Aufgaben und Themen zu wechseln und manchmal mit komplexen, anspruchsvollen Richtlinien zu arbeiten.
  • Unsere freiberufliche Rolle ist vollständig remote, du brauchst nur einen Laptop, Internetverbindung, verfügbare Zeit und Begeisterung für die Herausforderung.

Nice to Have

  • Erfahrung im Schreiben manueller oder automatisierter Testfälle.
  • Vertrautheit mit LLM-Fähigkeiten und typischen Fehlerbildern.
  • Verständnis von Bewertungsmetriken (Precision, Recall, Abdeckung, Reward-Funktionen).

Du bewirbst dich dieses Mal nicht?

Lass dich über ähnliche Projekte informieren, die zu deiner Erfahrung passen.

Häufig gestellte Fragen

Das Projekt ist vollständig remote und bietet volle örtliche Flexibilität.

Das Projekt ist 100% remote. Sie können von jedem beliebigen Ort aus arbeiten.

Das Projekt bietet einen Tagessatz von 288 - 640€, was einem Stundensatz von 36 - 80€/h entspricht.

Das Projekt erfordert folgende Sprachen: Englisch (Verhandlungssicher).

Das Projekt ist der folgenden Industrie zuzuordnen: Informationstechnologie (IT).

Das Projekt umfasst den folgenden Geschäftsbereich: Qualitätssicherung.

Ja! Empfehlen Sie einen Freelancer für das Projekt und verdienen Sie 30% der FRATCH-Gewinne, jedes Mal wenn dieser vermittelt wird — für die Dauer des Projekts. Teilen Sie einfach Ihren Einladungslink mit einem Kollegen.

Um sich für das Projekt zu bewerben, klicken Sie auf die Bewerben-Schaltfläche auf der Projektseite. Wir leiten Ihren Lebenslauf an den Kunden weiter und melden uns innerhalb von wenigen Tagen bei Ihnen.
Veröffentlicht:·Aktualisiert:

Ähnliche Projekte

MBB-Berater für KI-Training (m/w/d)

Deutschland
Ab 95%
Ab 800€/Tag
Professionelle Dienstleistungen

Forward Deployed Engineer für KI-Implementierung (m/w/d)

München, Deutschland
Ab 90%
Informationstechnologie (IT)

Senior/Lead Ingenieur (Freelance/Vertrag) (m/w/d)

München, Deutschland
Ab 95%
Informationstechnologie (IT)

Backend Developer (.NET) (m/w/d)

100%
904 - 1104€/Tag
Informationstechnologie (IT)

Entwicklung TM1 Planning Analytics Und Schnittstellen (m/w/d)

Deutschland
Bis zu 100%
Informationstechnologie (IT)

B2B Product Manager (m/w/d)

100%
800 - 1000€/Tag
Informationstechnologie (IT)

Data Engineer (m/w/d)

München, Deutschland
Ab 95%
800€/Tag
Informationstechnologie (IT)

Freiberuflicher Product Owner für Point-of-Sale-App

Berlin, Deutschland
752 - 848€/Tag
Bank- und Finanzwesen
Einzelhandel
Informationstechnologie (IT)

IT-Enterprise Architekt (m/w/d)

100%
904 - 1104€/Tag
Informationstechnologie (IT)

Hardware Product Manager (m/w/d)

Berlin, Deutschland
60 - 80%
560 - 720€/Tag
Einzelhandel

Beratung im Bereich PMO und Steuerungslogik für das GenAI-Programm

Montabaur, Deutschland
Ab 95%
800 - 904€/Tag
Professionelle Dienstleistungen

ERP-Transformation Manager (m/w/d)

Eisenach, Deutschland
40 - 70%
Bauwesen

Produktmanager - Digital Customer Service (Control Center & Chatbot)

Montabaur, Deutschland
Ab 95%
800 - 848€/Tag
Informationstechnologie (IT)

E-Commerce Listing Designer (m/w/d)

100%
200 - 240€/Tag
Einzelhandel

Senior Cloud Developer Typesript (m/w/d)

100%
904 - 1104€/Tag
Informationstechnologie (IT)

Commissioning- und Qualifizierungsingenieur (C&Q) (m/w/d)

München, Deutschland
Bis zu 100%
Pharmazeutika

Java IT-Architekt (m/w/d)

Deutschland
Bis zu 100%
Bank- und Finanzwesen

Senior UX Designer (m/w/d)

100%
Informationstechnologie (IT)

Freelance E-Ingenieur (m/w/d)

Deutschland
40 - 60%
Fertigung

Backend Entwickler

Deutschland
Bis zu 100%
520 - 560€/Tag
Informationstechnologie (IT)

OpenSearch-Berater (m/w/d)

Karlsruhe, Deutschland
Ab 95%
Informationstechnologie (IT)
Professionelle Dienstleistungen

Cyber Security Consultant – Product Security & Regulatory Compliance (m/w/d)

Deutschland
Bis zu 100%
Gesundheitswesen

Leiter Automatisierung und KI-Transformation (m/w/d)

Rednitzhembach, Deutschland
Bis zu 100%
Informationstechnologie (IT)

Interims Geschäftsführer Franchise Holding Food Delivery (m/w/d)

Deutschland
Bis zu 80%
Lebensmittel und Getränke

Interim Accounting Lead / Head Of (m/w/d)

Deutschland
Bis zu 100%

Interims-Projektleiter Freileitungsbau (m/w/d)

Deutschland
Energie

Campaign Manager (m/w/d)

100%
Pharmazeutika
Werbung

Engine Designer / Entwickler (m/w/d)

Deutschland
Automotive

Configuration Management Consultant (m/w/d)

100%
904 - 1104€/Tag
Bank- und Finanzwesen

Fullstack Entwickler (m/w/d) Kotlin, React, CI/CD, Devops

100%
904 - 1104€/Tag
Informationstechnologie (IT)