Experto en indicaciones adversarias

General$39 - $65 per hour

Descripción

Descripción general

Como experto en indicaciones adversarias, podrás participar en proyectos centrados en analizar grandes modelos de lenguaje para detectar modos de fallo y resultados perjudiciales. Tu trabajo consistirá en elaborar indicaciones y escenarios para poner a prueba los mecanismos de seguridad de los modelos, explorar formas creativas de eludir las restricciones y documentar sistemáticamente los resultados. Pensarás como un adversario para descubrir puntos débiles, al tiempo que colaborarás con ingenieros e investigadores de seguridad para compartir hallazgos y mejorar las defensas del sistema.

Acerca de

Handshake AI

Detalles

Las tarifas por hora van desde los 45 $ hasta los 65 $, dependiendo de