Un grupo de investigadores ha descubierto cómo los modelos de inteligencia artificial (IA) que generan imágenes a partir de texto pueden ser manipulados para generar contenido perturbador. Mediante el uso de un método llamado “SneakyPrompt”, estos modelos pueden ignorar sus filtros de seguridad y generar imágenes de personas desnudas, cuerpos desmembrados y otras escenas violentas y sexuales.
El trabajo de estos investigadores, que será presentado en el Simposio de Seguridad y Privacidad de IEEE en mayo del próximo año, resalta lo fácil que es lograr que los modelos de IA generativos no respeten sus propios límites y políticas, también conocido como “jailbreaking”. Además, demuestra lo difícil que es evitar que estos modelos generen contenido inapropiado, ya que se basan en grandes cantidades de datos que incluyen este tipo de contenido.
Todos los modelos de IA generativa más importantes disponen de filtros de seguridad para prevenir que los usuarios les pidan generar imágenes pornográficas, violentas o inapropiadas. Estos modelos no generarán imágenes a partir de instrucciones que contengan términos sensibles como “desnudo”, “asesinato” o “sexy”. Sin embargo, el método “SneakyPrompt” utiliza el aprendizaje por refuerzo para crear instrucciones escritas que parecen un sinsentido garabateado para nosotros, pero que los modelos de IA reconocen como solicitudes ocultas para generar imágenes perturbadoras.
Este método aprovecha la forma en que los modelos de IA procesan las instrucciones, convirtiéndolas en tokens, es decir, fragmentos de palabras o caracteres. “SneakyPrompt” ajusta repetidamente los tokens de una instrucción para intentar forzar al modelo a generar imágenes prohibidas. Esta técnica permite generar este tipo de imágenes más rápidamente y de una manera que los humanos ni siquiera imaginarían intentar.
“Estamos utilizando el aprendizaje por refuerzo para tratar el texto en estos modelos como una caja negra”, explica Yinzhi Cao, profesor asistente en la Universidad de Johns Hopkins. “Repetidamente probamos el modelo y observamos su respuesta. Luego ajustamos nuestras entradas y creamos un bucle hasta que finalmente pueda generar el material no deseado que queremos mostrar”.
Esta forma de “jailbreaking” pone de manifiesto las limitaciones de las medidas de seguridad implementadas por Stability AI y OpenAI, los creadores de estos modelos. A pesar de advertir a los usuarios sobre el uso inapropiado o dañino de sus tecnologías, “SneakyPrompt” ha demostrado que es posible evadir estos filtros y guiar al modelo para generar imágenes perjudiciales.
Preguntas frecuentes (FAQ)
¿Es posible eliminar por completo la generación de imágenes inapropiadas?
Dado el constante avance de las amenazas de seguridad, es prácticamente imposible proteger los modelos de IA de forma absoluta. Sin embargo, los investigadores esperan que su estudio impulse a las empresas de IA a desarrollar y implementar filtros de seguridad más sólidos.
¿Existen soluciones potenciales para proteger mejor los modelos de IA generativos?
Una posible solución sería implementar nuevos filtros que evalúen los tokens de las instrucciones en lugar de la oración completa. Otra defensa potencial implicaría bloquear instrucciones que contengan palabras que no se encuentren en los diccionarios. Sin embargo, el equipo de investigación ha descubierto que incluso combinaciones sin sentido de palabras en inglés estándar podrían utilizarse como instrucciones para generar imágenes sexuales.
El descubrimiento de esta vulnerabilidad destaca la importancia de seguir investigando y mejorando las medidas de seguridad en los modelos de IA generativos. Al comprender las debilidades existentes, se podrán desarrollar soluciones más efectivas para protegerse de los riesgos potenciales asociados con este tipo de tecnología.