Projekte-Überschrift Symbol

Projektliste

Autor für Evaluierungsszenarien (m/w/d)

100%
290 - 640€/Tag
Informationstechnologie (IT)

KI-Evaluationsberater (m/w/d)

Ab 95%
440 - 480€/Tag
Informationstechnologie (IT)

Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)

Ab 95%
120 - 380€/Tag
Informationstechnologie (IT)

Freiberuflicher Automotive Engineer (mit Python) – Qualitätssicherung / KI-Trainer

Ab 95%
120 - 380€/Tag
Informationstechnologie (IT)

Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)

Ab 95%
120 - 380€/Tag
Informationstechnologie (IT)

KI-Berater - Machine Learning (m/w/d)

100%
220 - 360€/Tag
Informationstechnologie (IT)

Vibe Coding Web Scraping Experte (m/w/d)

100%
200 - 240€/Tag
Informationstechnologie (IT)

KI-Berater – Data Science (m/w/d)

München, Deutschland
Ab 95%
320 - 400€/Tag
Informationstechnologie (IT)
Professionelle Dienstleistungen

Area-Produktmanager (m/w/d)

München, Deutschland
Bis zu 80%
750 - 810€/Tag
Einzelhandel
Telekommunikation

Senior Projektmanager Kundeninteraktion

München, Deutschland
100%
750 - 800€/Tag
Informationstechnologie (IT)
Professionelle Dienstleistungen

Entwicklung TM1 Planning Analytics Und Schnittstellen (m/w/d)

Deutschland
Bis zu 100%
Informationstechnologie (IT)

Data Engineer (m/w/d)

München, Deutschland
Ab 95%
800€/Tag
Informationstechnologie (IT)

Freiberuflicher Product Owner für POS-App

Berlin, Deutschland
750 - 850€/Tag
Bank- und Finanzwesen
Einzelhandel
Informationstechnologie (IT)

Adobe Experience Cloud Consultant (m/w/d)

München, Deutschland
Ab 95%
700 - 750€/Tag
Telekommunikation

ERP-Transformation Manager (m/w/d)

Eisenach, Deutschland
40 - 70%
Bauwesen

Senior Cloud Developer Typesript (m/w/d)

100%
900 - 1100€/Tag
Informationstechnologie (IT)

Experte für Prozessautomatisierung in Kanzleiumgebungen (m/w/d)

Deutschland
Ab 95%
Professionelle Dienstleistungen

Inbetriebnahme & Qualifizierungsingenieur (C&Q) (m/w/d)

München, Deutschland
Bis zu 100%
Pharmazeutika

Java IT-Architekt (m/w/d)

Deutschland
Bis zu 100%
Bank- und Finanzwesen

Freelance E-Ingenieur (m/w/d)

Deutschland
40 - 60%
Fertigung

Auditor Soziale Compliance (m/w/d)

100%
Professionelle Dienstleistungen

Projektleitung (Schwerpunkt Projektsteuerung) (m/w/d)

Deutschland
Bis zu 90%
Regierung und öffentliche Verwaltung

Managementberater (Senior Level) (m/w/d)

München, Deutschland
Bis zu 100%
900 - 950€/Tag
Professionelle Dienstleistungen

Cyber-Sicherheitsberater – Produktsicherheit & Regulatorische Compliance (m/w/d)

Deutschland
Bis zu 100%
Gesundheitswesen

Interim Accounting Lead / Leiter Rechnungswesen (m/w/d)

Deutschland
Bis zu 100%

Bilanzbuchhalter (m/w/d)

Hamburg, Deutschland
Bis zu 80%
Schönheit und Kosmetik

Bauleiter nach LBO - Civil und TGA (m/w/d)

Berlin, Deutschland
800€/Tag
Bauwesen
Energie
Versorgungsdienstleistungen

Auditor – FSC® und PEFC Chain of Custody (m/w/d)

100%
Fertigung
Professionelle Dienstleistungen

ISO 20121 Auditor (w/m/d)

100%
Professionelle Dienstleistungen

Interim Staff Product Manager (m/w/d)

Berlin, Deutschland
60 - 80%
100€/Tag
Informationstechnologie (IT)

Sicherheits- und Gesundheitsschutzkoordinator (SiGeKo) und Sicherheitsfachkraft (SiFa) (m/w/d)

Hamburg, Deutschland
0%
Bauwesen

Sales Manager für ein Medienunternehmen (m/f/d)

Hamburg, Deutschland
Ab 80%
750 - 830€/Tag
Informationstechnologie (IT)
Professionelle Dienstleistungen

Senior IT Projektmanager (m/w/d) für ein Energieunternehmen

München, Deutschland
Ab 80%
750 - 830€/Tag
Energie
Informationstechnologie (IT)

um Zugang zu weiteren Projekten zu erhalten, die Deinen Fähigkeiten entsprechen!

Weitere Projekte Hintergrund

Autor für Evaluierungsszenarien (m/w/d)

Anzahl der Bewerber anzeigen
Stundensatz
Tagessatz 290 - 640€
Remote-Arbeit
Remoteanteil 100%
Sprachen
Sprachen
English (Verhandlungssicher)
Industrien
Informationstechnologie (IT)
Bereichen
Qualitätssicherung
Beschreibung

Wir suchen jemanden, der realistische und strukturierte Evaluierungsszenarien für auf LLM basierende Agenten entwerfen kann. Du erstellst Testfälle, die menschliche Aufgaben simulieren, und definierst eine Gold-Standard-Verhaltensweise, mit der Agentenaktionen verglichen werden. Du sorgst dafür, dass jedes Szenario klar definiert, gut bewertet und einfach auszuführen sowie wiederzuverwenden ist. Du brauchst einen scharfen analytischen Verstand, Aufmerksamkeit fürs Detail und Interesse daran, wie KI-Agenten Entscheidungen treffen.

Obwohl jedes Projekt einzigartig ist, umfasst deine Arbeit typischerweise:

  • Strukturierte Testszenarien basierend auf realen Aufgaben entwerfen
  • Den goldenen Pfad und akzeptables Agentenverhalten festlegen
  • Arbeitsschritte, erwartete Ausgaben und Randfälle annotieren
  • Mit Entwicklern zusammenarbeiten, um deine Szenarien zu testen und zu verbessern
  • Agentenausgaben überprüfen und Tests entsprechend anpassen
Anforderungen
  • Bachelor- und/oder Masterabschluss in Informatik, Software Engineering, Data Science / Datenanalyse, Künstliche Intelligenz / Machine Learning, Computerlinguistik / Natural Language Processing (NLP), Informationssysteme oder anderen verwandten Bereichen.
  • Erfahrung in QA, Softwaretests, Datenanalyse oder NLP-Annotation.
  • Gutes Verständnis von Testdesign-Prinzipien (z. B. Reproduzierbarkeit, Abdeckung, Randfälle).
  • Starke schriftliche Kommunikationsfähigkeiten in Englisch.
  • Sicher im Umgang mit strukturierten Formaten wie JSON/YAML zur Szenariobeschreibung.
  • Fähigkeit, erwartete Agentenverhalten (Gold-Pfade) und Bewertungslogik zu definieren.
  • Grundkenntnisse in Python und JS.
  • Neugierig und offen im Umgang mit KI-generierten Inhalten, Agenten-Logs und promptbasiertem Verhalten.
  • Du bist bereit, neue Methoden zu lernen, kannst schnell zwischen Aufgaben und Themen wechseln und manchmal mit herausfordernden, komplexen Richtlinien arbeiten.
  • Unser Freelance-Job ist vollständig remote, du brauchst nur Laptop, Internetverbindung, Zeit und Motivation für die Herausforderung.

Wünschenswert

  • Erfahrung im Schreiben manueller oder automatisierter Testfälle.
  • Vertrautheit mit LLM-Fähigkeiten und typischen Ausfallmodi.
  • Verständnis von Bewertungsmetriken (Precision, Recall, Coverage, Reward-Funktionen).

Frequently asked questions

Das Projekt ist vollständig remote und bietet volle örtliche Flexibilität.
Das Projekt ist 100% remote. Sie können von jedem beliebigen Ort aus arbeiten.
Das Projekt bietet einen Tagessatz von 290 - 640€, was einem Stundensatz von 36 - 80€/h entspricht.
Das Projekt erfordert folgende Sprachen: English (Verhandlungssicher).
Das Projekt ist der folgenden Industrie zuzuordnen: Informationstechnologie (IT).
Das Projekt umfasst den folgenden Geschäftsbereich: Qualitätssicherung.
Ja! Empfehlen Sie einen Freelancer für das Projekt und verdienen Sie 30% der FRATCH-Gewinne, jedes Mal wenn dieser vermittelt wird — für die Dauer des Projekts. Teilen Sie einfach Ihren Einladungslink mit einem Kollegen.
Um sich für das Projekt zu bewerben, klicken Sie auf die Bewerben-Schaltfläche auf der Projektseite. Wir leiten Ihren Lebenslauf an den Kunden weiter und melden uns innerhalb von wenigen Tagen bei Ihnen.

Ähnliche Projekte

KI-Evaluationsberater (m/w/d)

Ab 95%
440 - 480€/Tag

Freiberuflicher Elektroingenieur mit Python-Erfahrung (m/w/d)

Ab 95%
120 - 380€/Tag

Freiberuflicher Automotive Engineer (mit Python) – Qualitätssicherung / KI-Trainer

Ab 95%
120 - 380€/Tag

Freiberuflicher Maschinenbauingenieur mit Python-Erfahrung (m/w/d)

Ab 95%
120 - 380€/Tag

KI-Berater - Machine Learning (m/w/d)

100%
220 - 360€/Tag

Vibe Coding Web Scraping Experte (m/w/d)

100%
200 - 240€/Tag

KI-Berater – Data Science (m/w/d)

München, Deutschland
Ab 95%
320 - 400€/Tag

Area-Produktmanager (m/w/d)

München, Deutschland
Bis zu 80%
750 - 810€/Tag

Senior Projektmanager Kundeninteraktion

München, Deutschland
100%
750 - 800€/Tag

Entwicklung TM1 Planning Analytics Und Schnittstellen (m/w/d)

Deutschland
Bis zu 100%

Data Engineer (m/w/d)

München, Deutschland
Ab 95%
800€/Tag

Freiberuflicher Product Owner für POS-App

Berlin, Deutschland
750 - 850€/Tag

Adobe Experience Cloud Consultant (m/w/d)

München, Deutschland
Ab 95%
700 - 750€/Tag

ERP-Transformation Manager (m/w/d)

Eisenach, Deutschland
40 - 70%

Senior Cloud Developer Typesript (m/w/d)

100%
900 - 1100€/Tag

Experte für Prozessautomatisierung in Kanzleiumgebungen (m/w/d)

Deutschland
Ab 95%

Inbetriebnahme & Qualifizierungsingenieur (C&Q) (m/w/d)

München, Deutschland
Bis zu 100%

Java IT-Architekt (m/w/d)

Deutschland
Bis zu 100%

Freelance E-Ingenieur (m/w/d)

Deutschland
40 - 60%

Auditor Soziale Compliance (m/w/d)

100%

Projektleitung (Schwerpunkt Projektsteuerung) (m/w/d)

Deutschland
Bis zu 90%

Managementberater (Senior Level) (m/w/d)

München, Deutschland
Bis zu 100%
900 - 950€/Tag

Cyber-Sicherheitsberater – Produktsicherheit & Regulatorische Compliance (m/w/d)

Deutschland
Bis zu 100%

Interim Accounting Lead / Leiter Rechnungswesen (m/w/d)

Deutschland
Bis zu 100%

Bilanzbuchhalter (m/w/d)

Hamburg, Deutschland
Bis zu 80%

Bauleiter nach LBO - Civil und TGA (m/w/d)

Berlin, Deutschland
800€/Tag

Auditor – FSC® und PEFC Chain of Custody (m/w/d)

100%

ISO 20121 Auditor (w/m/d)

100%

Interim Staff Product Manager (m/w/d)

Berlin, Deutschland
60 - 80%
100€/Tag

Sicherheits- und Gesundheitsschutzkoordinator (SiGeKo) und Sicherheitsfachkraft (SiFa) (m/w/d)

Hamburg, Deutschland
0%