← Zurück zu Jobs
Beschreibung
1\. Aufgabenübersicht Wir suchen erfahrene Forscher und technische Experten, die an einem Projekt mitwirken, das die Bewertung von Pioniermodellen mit Schwerpunkt auf agentenbasierten Arbeitsabläufen unterstützt. Sie entwerfen und validieren anspruchsvolle Benchmark-Aufgaben in den Bereichen Data Science, maschinelles Lernen, Finanzen und Programmierung, um Lücken in der Argumentation und Problemlösung eines Ziel-STEM-Modells aufzudecken und zu diagnostizieren. Im Mittelpunkt der Arbeit steht die Erstellung robuster, praxisnaher Aufgaben mit ausführbaren Tests und die anschließende Analyse des Verhaltens von Modellen und Agenten.
2\. Hauptaufgaben
- Entwurf anspruchsvoller, praxisnaher MINT-Probleme
- Implementierung jeder Aufgabe in einer agentenbasierten Entwicklungsumgebung unter Verwendung von Python
3\. Kernqualifikationen
- Fundierte Fachkenntnisse in den Bereichen Data Science, maschinelles Lernen, Finanzen und/oder Python-basierte Programmierung
- Aktiver Doktorand oder frischgebackener Doktorand (an einer führenden US-amerikanischen Hochschule)
- Fundierter Forschungshintergrund in zukunftsweisenden MINT-Themen
- Verfügbarkeit von mindestens 30 Stunden pro Woche, vorwiegend an Wochentagen
- Nachgewiesene technische Leistungen wie hochwertige Open-Source-Beiträge (insbesondere in agentischen / LLM-Tooling-Ökosystemen)
- Sicherer Umgang mit der Auswertung von Agentenverhaltensprotokollen zur Diagnose von Fehlermodi, die über oberflächliche Fehler hinausgehen
4\. Mehr über die Stelle
- Anfänglicher Schwerpunkt: Agent-Workflows für MINT-Aufgaben
- Vertrautheit mit Agent-Frameworks und OSS-Ökosystemen ist von Vorteil (Beispiele sind LangChain, MetaGPT, AutoGen, AutoGPT, CrewAI, LlamaIndex, BabyAGI, SuperAGI, CAMEL, AgentGPT, D
Details
Category
AI Evaluation
Location
Remote
Employment Type
Independent Contractor
Languages Required
🇺🇸 English
Posted
2.4.2026
Ähnliche Angebote
Review
→Is Mercor Legit?
Pay Data
→How Much Do AI Jobs Pay?
Guide
→How to Get Started