← Back to Gigs

博士级评估员

AI Evaluation$70 - $120 per hour
立即申请 →

职位描述

1\. 职位概述 我们正在寻找经验丰富的研究人员和技术专家,参与一个支持前沿模型评估的项目,该项目专注于代理工作流。您将设计并验证数据科学、机器学习、金融和编程领域的具有挑战性的基准任务,以帮助发现并诊断目标STEM模型在推理和问题解决方面的不足。工作重点在于构建具有可执行测试的、稳健的现实世界任务,并分析模型/智能体的行为。## 2\. 主要职责 - 设计具有挑战性的、贴近现实的STEM问题 - 使用Python在代理开发环境中实现每个任务

3\. 核心资质 - 在数据科学、机器学习、金融和/或基于Python的编程方面拥有深厚造诣

  • 在读或近期毕业的博士(美国顶尖院校) - 在前沿STEM领域拥有扎实的研究背景 - 能够每周稳定投入30小时以上,主要在工作日 - 具备经证实的技术产出,例如高质量的开源贡献(尤其在代理/LLM工具生态系统中) - 能够熟练阅读并分析代理行为日志,以诊断超越表面错误的故障模式

4\. 职位详情 - 初期工作重点:STEM任务的智能体工作流 - 熟悉智能体框架和开源生态系统者优先(例如 LangChain、MetaGPT、AutoGen、AutoGPT、CrewAI、LlamaIndex、BabyAGI、SuperAGI、CAMEL、AgentGPT、D

Details

Category

AI Evaluation

Location

Remote

Employment Type

Independent Contractor

Languages Required

🇺🇸 English

Posted

2026/4/2