← Zurück zu Jobs
Beschreibung
Fachgebiete (Professoren)
Das Team sucht Professoren aus den Bereichen Finanzwesen, Rechnungswesen, Rechtswissenschaften und anderen Fachdienstleistungsbereichen, die an einem Projekt mitwirken möchten, das die Bewertung von Pioniermodellen mit Schwerpunkt auf Codierung und agentenbasierten Arbeitsabläufen unterstützt. Sie werden anspruchsvolle Benchmark-Aufgaben entwerfen und validieren, um Lücken in der Argumentation und Problemlösung eines Zielmodells aufzudecken und zu diagnostizieren.
Tägliche Aufgaben
- Aufgabenentwurf und -entwicklung: Entwerfen Sie anspruchsvolle, praxisnahe und fachspezifische Probleme, die als Grundlage für agentische Aufgaben dienen. Die Probleme sollten so konstruiert sein, dass sie auf bestimmte Ausfälle bei Kernfähigkeiten abzielen, die in einem Frontier-KI-Modell identifiziert wurden
- Erstellung von Spezifikationen und Golden Solutions: Integrieren Sie die Probleme in eine agentische Entwicklungsumgebung und bereiten Sie alle erforderlichen Komponenten mit Python vor, darunter:
- Detaillierte Anweisungen und eine Übersicht über die erforderliche Aufgabe
- Eine Golden Solution, die den Anweisungen folgt
- Spezifische Beratungen und Rückmeldungen mit domänenspezifischem Wissen
- Bewertung und Analyse: Bewerten Sie die Leistung des Cross-Modells bei den Aufgaben
- Identifizierung von Verbesserungspotenzial: Identifizieren Sie Aufgaben, bei denen das Zielmodell nicht alle Tests besteht, und klassifizieren Sie den Fehler dabei konkret als Fehler im logischen Schlussfolgern
- Verlust-Extraktion: Analysieren Sie die Schritte des Agenten (Agent-Trajektorie), um Muster des Verlusts von Kernfähigkeiten zu beobachten und aus dem Modell zu extrahieren. 3. Kern
Details
Category
General
Location
Remote
Employment Type
Independent Contractor
Posted
11.4.2026
Ähnliche Angebote
Review
→Is Mercor Legit?
Pay Data
→How Much Do AI Jobs Pay?
Guide
→How to Get Started