Projektspezifikation
Tagessatz 288 - 640€
Remoteanteil 100%
Sprachen
Englisch(Verhandlungssicher)
Projektexpertise
Industrien
Informationstechnologie (IT)
Bereichen
Qualitätssicherung
Beschreibung
Wir suchen jemanden, der realistische und strukturierte Evaluierungsszenarien für auf LLM basierende Agenten entwerfen kann. Du erstellst Testfälle, die menschliche Aufgaben simulieren, und definierst eine Gold-Standard-Verhaltensweise, mit der Agentenaktionen verglichen werden. Du sorgst dafür, dass jedes Szenario klar definiert, gut bewertet und einfach auszuführen sowie wiederzuverwenden ist. Du brauchst einen scharfen analytischen Verstand, Aufmerksamkeit fürs Detail und Interesse daran, wie KI-Agenten Entscheidungen treffen.
Obwohl jedes Projekt einzigartig ist, umfasst deine Arbeit typischerweise:
- Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen
- Den goldenen Pfad und akzeptables Agentenverhalten festlegen
- Arbeitsschritte, erwartete Ausgaben und Randfälle annotieren
- Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und zu verbessern
- Agentenausgaben überprüfen und Tests entsprechend anpassen
Anforderungen
- Bachelor- und/oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, Künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder anderen verwandten Bereichen.
- Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotation.
- Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
- Starke schriftliche Kommunikationsfähigkeiten in Englisch.
- Sicher im Umgang mit strukturierten Formaten wie JSON/YAML zur Szenariobeschreibung.
- Fähigkeit, erwartete Agentenverhalten (Gold-Pfade) und Bewertungslogik zu definieren.
- Grundkenntnisse in Python und JS.
- Neugierig und offen im Umgang mit KI-generierten Inhalten, Agenten-Logs und promptbasiertem Verhalten.
- Du bist bereit, neue Methoden zu lernen, kannst schnell zwischen Aufgaben und Themen wechseln und manchmal mit herausfordernden, komplexen Richtlinien arbeiten.
- Unser Freelance-Job ist vollständig remote, du brauchst nur Laptop, Internetverbindung, Zeit und Motivation für die Herausforderung.
Wünschenswert
- Erfahrung im Schreiben manueller oder automatisierter Testfälle.
- Vertrautheit mit LLM-Fähigkeiten und typischen Ausfallmodi.
- Verständnis von Bewertungsmetriken (Precision, Recall, Coverage, Reward-Funktionen).
Du bewirbst Dich dieses Mal nicht?
Lass Dich über ähnliche Projekte informieren, die zu Deiner Erfahrung passen.
Häufig gestellte Fragen
Wo befindet sich das Projekt?
Das Projekt ist vollständig remote und bietet volle örtliche Flexibilität.
Wie ist die Remote-Arbeitsregelung für das Projekt?
Das Projekt ist 100% remote. Sie können von jedem beliebigen Ort aus arbeiten.
Wie hoch ist der Tagessatz für das Projekt?
Das Projekt bietet einen Tagessatz von 288 - 640€, was einem Stundensatz von 36 - 80€/h entspricht.
Welche Sprachkenntnisse werden für das Projekt benötigt?
Das Projekt erfordert folgende Sprachen: Englisch (Verhandlungssicher).
Welche Industrien sind für das Projekt relevant?
Das Projekt ist der folgenden Industrie zuzuordnen: Informationstechnologie (IT).
Welche Geschäftsbereiche deckt das Projekt ab?
Das Projekt umfasst den folgenden Geschäftsbereich: Qualitätssicherung.
Nicht verfügbar? Kann ich trotzdem von dem Projekt profitieren?
Ja! Empfehlen Sie einen Freelancer für das Projekt und verdienen Sie 30% der FRATCH-Gewinne, jedes Mal wenn dieser vermittelt wird — für die Dauer des Projekts. Teilen Sie einfach Ihren Einladungslink mit einem Kollegen.
Wie kann man sich für das Projekt bewerben?
Um sich für das Projekt zu bewerben, klicken Sie auf die Bewerben-Schaltfläche auf der Projektseite. Wir leiten Ihren Lebenslauf an den Kunden weiter und melden uns innerhalb von wenigen Tagen bei Ihnen.
Veröffentlicht: