← Voltar aos Trabalhos
Descrição
1\. Visão geral da função Procuramos investigadores experientes e especialistas técnicos para contribuir num projeto que apoia um esforço de avaliação de modelos de vanguarda centrado em fluxos de trabalho agênicos. Irá conceber e validar tarefas de benchmarking desafiantes nas áreas de ciência de dados, aprendizagem automática, finanças e programação para ajudar a identificar e diagnosticar lacunas de raciocínio e resolução de problemas num modelo STEM alvo. O trabalho centra-se na criação de tarefas robustas e reais com testes executáveis e, posteriormente, na análise do comportamento do modelo/agente.
2\. Principais responsabilidades
- Conceber problemas STEM desafiantes e do mundo real
- Implementar cada tarefa num ambiente de desenvolvimento agênico utilizando Python
3\. Qualificações essenciais
- Profundo conhecimento em ciência de dados, aprendizagem automática, finanças e/ou programação baseada em Python
- Doutoramento em curso ou recém-concluído (em uma das melhores universidades dos EUA)
- Sólida experiência de investigação em tópicos de ponta em STEM
- Capacidade de se dedicar de forma fiável a mais de 30 horas por semana, principalmente durante a semana
- Resultados técnicos comprovados, tais como contribuições de código aberto de alta qualidade (especialmente em ecossistemas de ferramentas de agentes / LLM)
- Facilidade em ler e raciocinar sobre registos de comportamento de agentes para diagnosticar modos de falha para além de erros superficiais
4\. Mais sobre a oportunidade - Área de foco inicial: fluxos de trabalho de agentes para tarefas STEM - É útil ter familiaridade com frameworks de agentes e ecossistemas de OSS (exemplos incluem LangChain, MetaGPT, AutoGen, AutoGPT, CrewAI, LlamaIndex, BabyAGI, SuperAGI, CAMEL, AgentGPT, D
Details
Category
AI Evaluation
Location
Remote
Employment Type
Independent Contractor
Languages Required
🇺🇸 English
Posted
02/04/2026
Oportunidades Relacionadas
Review
→Is Mercor Legit?
Pay Data
→How Much Do AI Jobs Pay?
Guide
→How to Get Started