← Back to Gigs

软件工程、数据科学及系统设计专家,Swift(5年以上经验)

Code Evaluation$60 - $100 per hour
立即申请 →

职位描述

工作地点: 美国境内及境外

工作类型: 全职或兼职合同制

所需语言能力: 英语职位背景 该职位将与顶尖 AI 团队合作,致力于提升通用对话式 AI 系统的质量、实用性和可靠性。这些系统广泛应用于各类日常及专业场景,其有效性取决于其对真实用户提问的响应是否清晰、准确且富有帮助。在编程和软件工程领域,对话式AI系统必须展现正确的推理能力、强大的问题解决能力,并遵循现实世界的工程最佳实践。本项目专注于评估并优化模型在各类编程任务及不同复杂度层面上对代码的推理、解决方案生成以及技术概念解释的能力。工作内容

  • 评估大型语言模型(LLM)生成的针对编程和软件工程查询的响应,评估其准确性、推理过程、清晰度及完整性
  • 进行事实核查,使用可信的公开来源和权威参考资料 - 通过执行代码并使用适当工具验证输出结果来进行准确性测试
  • 标注模型响应,识别其优势、待改进之处以及事实或概念上的不准确之处 - 评估代码质量、可读性、算法正确性及解释质量 - 确保 **模型

Details

Category

Code Evaluation

Location

Remote

Employment Type

Independent Contractor

Languages Required

🇺🇸 English

Posted

2026/4/2