Miembro del equipo de simulación de ataques de IA — Pruebas adversarias de IA (nivel avanzado); inglés y portugués brasileño

General$28.74 per hour

Descripción

Ubicación: Remoto; restringido a EE. UU. y Brasil

Tipo: Contrato a tiempo completo o a tiempo parcial

Conocimientos lingüísticos requeridos: Inglés y portugués brasileño. Para este puesto se requiere un dominio nativo del inglés y del portugués brasileño.

Por qué existe este puesto

En Mercor, creemos que la IA más segura es aquella que ya ha sido atacada... por nosotros. Estamos formando un equipo rojo para este proyecto: expertos en datos humanos que analizan modelos de IA con entradas adversarias, detectan vulnerabilidades y generan los datos del equipo rojo que hacen que la IA sea más segura para nuestros clientes.

Este proyecto implica revisar los resultados de la IA que tocan temas delicados como sesgos, desinformación o comportamientos dañinos. Todo el trabajo se basa en texto, y la participación en proyectos de mayor sensibilidad es opcional y cuenta con el respaldo de directrices claras y recursos de bienestar. Antes de exponerte a cualquier contenido, se te comunicarán claramente los temas.

Qué harás

Modelos y agentes de IA conversacional del equipo rojo: jailbreaks, inyecciones de prompts, casos de uso indebido, explotación de sesgos, manipulación de múltiples turnos
Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos
Aplicar estructura: seguir taxonomías, puntos de referencia y guías para mantener la coherencia en las pruebas
Documentar de forma reproducible: elaborar informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar

Quién eres