← Back to Gigs

博士级评估员

AI Evaluation$70 - $120 per hour

立即申请 →

职位描述

1\. 职位概述我们正在寻找经验丰富的研究人员和技术专家，参与一个支持前沿模型评估的项目，该项目专注于代理工作流。您将设计并验证数据科学、机器学习、金融和编程领域的具有挑战性的基准任务，以帮助发现并诊断目标STEM模型在推理和问题解决方面的不足。工作重点在于构建具有可执行测试的、稳健的现实世界任务，并分析模型/智能体的行为。## 2\. 主要职责 - 设计具有挑战性的、贴近现实的STEM问题 - 使用Python在代理开发环境中实现每个任务

3\. 核心资质 - 在数据科学、机器学习、金融和/或基于Python的编程方面拥有深厚造诣

在读或近期毕业的博士（美国顶尖院校） - 在前沿STEM领域拥有扎实的研究背景 - 能够每周稳定投入30小时以上，主要在工作日 - 具备经证实的技术产出，例如高质量的开源贡献（尤其在代理/LLM工具生态系统中） - 能够熟练阅读并分析代理行为日志，以诊断超越表面错误的故障模式

4\. 职位详情 - 初期工作重点：STEM任务的智能体工作流 - 熟悉智能体框架和开源生态系统者优先（例如 LangChain、MetaGPT、AutoGen、AutoGPT、CrewAI、LlamaIndex、BabyAGI、SuperAGI、CAMEL、AgentGPT、D

Details

Category

AI Evaluation

Location

Remote

Employment Type

Independent Contractor

Languages Required

🇺🇸 English

Posted

2026/4/2

立即申请 →

相关机会

中文（台灣 - 繁體）AI 訓練

$15 - $40 per hour

Japanese AI Training

$15 - $40 per hour

Korean AI Training

$15 - $40 per hour

Full Stack Software Engineer for AI Training

$15 - $40 per hour

Full Stack Software Engineer for AI Training

$15 - $40 pay.null

View similar gigs →

Is Mercor Legit?

How Much Do AI Jobs Pay?

How to Get Started