← Back to Gigs
仕事内容
専門分野(教授)
当チームでは、コーディングおよびエージェント型ワークフローに焦点を当てたフロンティアモデルの評価プロジェクトに貢献いただける、金融、会計、法学、その他の専門サービス分野の教授を募集しています。対象モデルにおける推論や問題解決の課題を明らかにし、診断するための、難易度の高いベンチマークタスクを設計・検証していただきます。
日常業務
- タスクの設計と開発:エージェント型タスクの基盤となる、挑戦的で実世界的なドメイン固有の問題を設計します。問題は、最先端AIモデルにおいて特定された中核能力の喪失による失敗をターゲットとするように構築する必要があります
- 仕様書およびゴールデンソリューションの作成:問題をエージェント型開発環境に統合し、Pythonを使用して以下の必要なコンポーネントをすべて準備します:
- 詳細な指示書および必要なタスクの概要
- 指示に従ったゴールデンソリューション
- ドメイン固有の知識に基づく具体的な相談およびフィードバック
- 評価と分析:タスクに対する対象モデルのパフォーマンスを評価する
- 改善余地の特定:対象モデルがすべてのテストに合格できなかったタスクを特定し、特にその失敗を論理的推論の失敗として分類する
- 能力喪失パターンの抽出:エージェントのステップ(エージェントの軌跡)を分析し、モデルから中核能力の喪失パターンを観察・抽出する。 3. 中核
Details
Category
General
Location
Remote
Employment Type
Independent Contractor
Posted
2026/4/11