← Back to Gigs
职位描述
1\. 职位概述 我们正在寻找经验丰富的研究人员和技术专家,参与一个支持前沿模型评估的项目,该项目专注于代理工作流。您将设计并验证数据科学、机器学习、金融和编程领域的具有挑战性的基准任务,以帮助发现并诊断目标STEM模型在推理和问题解决方面的不足。工作重点在于构建具有可执行测试的、稳健的现实世界任务,并分析模型/智能体的行为。## 2\. 主要职责 - 设计具有挑战性的、贴近现实的STEM问题 - 使用Python在代理开发环境中实现每个任务
3\. 核心资质 - 在数据科学、机器学习、金融和/或基于Python的编程方面拥有深厚造诣
- 在读或近期毕业的博士(美国顶尖院校) - 在前沿STEM领域拥有扎实的研究背景 - 能够每周稳定投入30小时以上,主要在工作日 - 具备经证实的技术产出,例如高质量的开源贡献(尤其在代理/LLM工具生态系统中) - 能够熟练阅读并分析代理行为日志,以诊断超越表面错误的故障模式
4\. 职位详情 - 初期工作重点:STEM任务的智能体工作流 - 熟悉智能体框架和开源生态系统者优先(例如 LangChain、MetaGPT、AutoGen、AutoGPT、CrewAI、LlamaIndex、BabyAGI、SuperAGI、CAMEL、AgentGPT、D
Details
Category
AI Evaluation
Location
Remote
Employment Type
Independent Contractor
Languages Required
🇺🇸 English
Posted
2026/4/2
相关机会
Review
→Is Mercor Legit?
Pay Data
→How Much Do AI Jobs Pay?
Guide
→How to Get Started