← Back to Gigs
职位描述
职位简介
这是一个与前八大前沿实验室的研究人员直接合作的绝佳机会。该职位的核心目标是通过设计、验证和分析具有挑战性的基准任务,提升目标前沿模型在STEM领域中的推理和问题解决能力。
主要职责
- 任务设计与开发:设计具有挑战性的、基于真实世界的数据科学问题,作为 Colab Bench 任务的基础。
- 内容生成:将问题整合到 Agentic 开发环境中,使用 Python 准备所有必要组件,包括: - 详细说明及所需任务的概述。
- 遵循说明的黄金解法。
- 必要的环境,包括数据集、Python 库和元数据。
- 包含单元测试的测试笔记本,解决方案必须通过这些测试。
- 评估与分析:评估跨模型在任务中的表现
- 瓶颈识别:识别目标模型未能通过所有测试的任务,并具体将失败归类为逻辑推理失败
- 能力缺失分析:分析智能体的操作步骤(智能体轨迹),从中观察并提取模型核心能力缺失的模式。
资格要求与招聘
- 专业方向:申请人必须在数据科学、机器学习、金融和编程方面具备扎实的专业知识,并拥有前沿STEM领域的深厚背景。
- 目标候选人:我们正在积极招聘
Details
Category
STEM Tutoring
Location
Remote
Employment Type
Independent Contractor
Skills
PythonData SciencePyTorchMachine Learning
Posted
2026/4/13