← Back to Gigs
职位描述
工作地点: 美国境内及境外
工作类型: 全职或兼职合同制
所需语言能力: 英语职位背景 本职位将与顶尖人工智能团队合作,致力于提升通用对话式人工智能系统的质量、实用性和可靠性。这些系统广泛应用于各类日常及专业场景,其有效性取决于其对真实用户提问的响应是否清晰、准确且富有帮助。在编程和软件工程领域,对话式AI系统必须展现正确的推理能力、强大的问题解决能力,并遵循现实世界的工程最佳实践。本项目专注于评估和优化模型在各类编程任务及不同复杂度层面上对代码的推理、解决方案生成以及技术概念解释的能力。工作内容
- 评估大型语言模型(LLM)生成的针对编程和软件工程查询的响应,评估其准确性、推理过程、清晰度及完整性
- 进行事实核查,使用可信的公开来源和权威参考资料 - 通过执行代码并使用适当工具验证输出结果来进行准确性测试
- 标注模型响应,指出其优势、待改进之处以及事实或概念上的不准确之处 - 评估代码质量、可读性、算法正确性及解释质量 - 确保**模型
Details
Category
Code Evaluation
Location
Remote
Employment Type
Independent Contractor
Languages Required
🇺🇸 English
Posted
2026/4/2