En el último año, los generadores de imágenes de inteligencia artificial han experimentado una popularidad sin precedentes. Con solo unos clics, se pueden crear todo tipo de imágenes, incluso imágenes deshumanizadoras y memes de odio. La investigadora Yiting Qu, del equipo del Dr. Yang Zhang del CISPA, ha investigado la proporción de estas imágenes entre los generadores de imágenes de IA más populares y cómo se puede prevenir su creación con filtros efectivos.
Su artículo, “Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models”, está disponible en el servidor de preimpresión arXiv y se presentará próximamente en la Conferencia ACM sobre Seguridad Informática y de Comunicaciones.
Cuando las personas hablan de generadores de imágenes de IA en la actualidad, a menudo se refieren a los llamados modelos de texto a imagen. Esto significa que los usuarios pueden generar una imagen digital ingresando cierta información textual en un modelo de IA. El tipo de texto de entrada determina no solo el contenido de la imagen, sino también el estilo. Cuanto más amplio sea el material de entrenamiento del generador de imágenes de IA, más posibilidades de generación de imágenes tendrán los usuarios.
Entre los generadores de texto a imagen más conocidos se encuentran Stable Diffusion, Latent Diffusion o DALL·E. “Las personas utilizan estas herramientas de IA para dibujar todo tipo de imágenes”, dice la investigadora Yiting Qu del CISPA. “Sin embargo, he descubierto que algunas también las utilizan para generar imágenes pornográficas o perturbadoras, por ejemplo. Por lo tanto, los modelos de texto a imagen llevan un riesgo”. Esto se vuelve especialmente problemático cuando estas imágenes se comparten en plataformas convencionales, donde se difunden ampliamente, agrega Qu.
La noción de ‘imágenes inseguras’
El hecho de que los generadores de imágenes de IA puedan generar imágenes con contenido inhumano o pornográfico con instrucciones simples se denomina “imágenes inseguras” según Qu y sus colegas. “Actualmente, no existe una definición universal en la comunidad de investigación sobre qué es y qué no es una imagen insegura. Por lo tanto, adoptamos un enfoque basado en datos para definir qué son las imágenes inseguras”, explica Qu.
“Para nuestro análisis, generamos miles de imágenes usando Stable Diffusion”, continúa. “Luego, las agrupamos y clasificamos en diferentes conjuntos según su significado. Los cinco conjuntos principales incluyen imágenes con contenido sexualmente explícito, violento, perturbador, de odio y político”.
Para cuantificar concretamente el riesgo de que los generadores de imágenes de IA generen imágenes de odio, Qu y sus colegas alimentaron cuatro de los generadores de imágenes de IA más conocidos, Stable Diffusion, Latent Diffusion, DALL·E 2 y DALL·E mini, con conjuntos específicos de cientos de entradas de texto llamadas “prompts”. Los conjuntos de entradas de texto provenían de dos fuentes: la plataforma en línea 4chan, popular en círculos de extrema derecha, y el sitio web Lexica.
“Elegimos estas dos fuentes porque se han utilizado en trabajos anteriores que investigan el contenido inseguro en línea”, explica Qu. El objetivo era descubrir si los generadores de imágenes producían “imágenes inseguras” a partir de estas indicaciones. En los cuatro generadores, el 14,56% de todas las imágenes generadas se clasificaron como “imágenes inseguras”. La mayor proporción, el 18,92%, se encontró en Stable Diffusion.
Funciones de filtrado para bloquear la generación de imágenes
Una forma de prevenir la difusión de imágenes inhumanas es programar los generadores de imágenes de IA para que no generen estas imágenes en primer lugar o para que no las produzcan. “Puedo usar el ejemplo de Stable Diffusion para explicar cómo funciona esto”, dice Qu. “Se definen varias palabras inseguras, como desnudez. Luego, cuando se genera una imagen, se calcula la distancia entre la imagen y la palabra definida como insegura, como desnudez. Si esa distancia es menor que un umbral, la imagen se reemplaza por un campo de color negro”.
El hecho de que se generaran tantas imágenes inseguras en el estudio de Qu sobre Stable Diffusion muestra que los filtros existentes no hacen adecuadamente su trabajo. Por lo tanto, la investigadora desarrolló su propio filtro, que obtuvo una tasa de acierto mucho más alta en comparación.
Sin embargo, prevenir la generación de imágenes no es la única opción, como explica Qu. “Proponemos tres soluciones que siguen la cadena de suministro de los modelos de texto a imagen. Primero, los desarrolladores deberían seleccionar cuidadosamente los datos de entrenamiento en la fase de entrenamiento o ajuste, es decir, reducir el número de imágenes inciertas”. Esto se debe a que las “imágenes inseguras” en el entrenamiento