En los últimos meses, el debate sobre el arte generado por inteligencia artificial ha generado opiniones encontradas entre quienes le prestan atención. Empresarios entusiastas aseguran que la IA significa que nunca más tendrán que pagar a un artista creativo, mientras que los defensores del arte por amor al arte afirman que una computadora nunca podría entender la Verdad y la Belleza.
Pero no son solo las computadoras las que hacen el trabajo: también hay una intervención humana. Por un lado, el material utilizado para entrenar a los generadores de imágenes de IA proviene de obras de arte creadas por artistas humanos, lo que ha llevado a demandas legales. Por otro lado, darle indicaciones a una herramienta de IA para generar una imagen es más complicado que simplemente decirle a la computadora que dibuje algo. Un buen guía humano debe aprender los entresijos de cómo funciona cada modelo y guiarlo para que produzca el tipo de imagen que desean.
Investigaciones recientes muestran que los estadounidenses que aprenden sobre herramientas de IA se están enseñando a sí mismos, a menudo a través de fuentes y comunidades en línea. Y los mejores guías ingenieros parecen estar en Reddit. Hay un subreddit importante para cada tipo de generador, incluyendo Midjourney, Stable Diffusion y DALLE-3, junto con varios otros donde los usuarios debaten, comparten y mejoran las indicaciones. Un universo conectado de wikis, tutoriales de YouTube e influencers completan el mundo institucional emergente del arte generado por IA.
Tomemos una imagen conocida como “Spiral Town”, generada por un usuario llamado Ugleh y publicada en el subreddit de StableDiffusion en septiembre. Muchos de los comentarios en la publicación original de Spiral Town son personas que le dicen a Ugleh dónde vieron por primera vez la imagen viral: “un grupo de hongos en Facebook”, dice uno, mientras que otro menciona otro subreddit no relacionado con la IA. Ugleh parece tener sentimientos encontrados al respecto: “Me da igual, para ser honesto. Solo pasé unos 10 minutos en esta foto”.
Mientras otros elogian a Ugleh y comparten enlaces a sus propios tutoriales de YouTube sobre cómo crear imágenes similares a Spiral Town, algunos comentaristas insisten en que Ugleh debería ser tratado como un “artista real”. Es cierto, generar la imagen de Spiral Town puede haber tomado minutos, pero eso no significa que crear este tipo de obras no requiera habilidad. De hecho, gran parte de la audiencia del subreddit parece estar compuesta por personas que intentan desarrollar precisamente esas habilidades. Casi todas las publicaciones en el subreddit de Stable Diffusion tienen un indicador al lado de su título que dice “Workflow Incluido”, lo que significa que explica el procedimiento utilizado para crear la imagen.
Un trabajo posterior de Ugleh parece haber llevado más de 10 minutos. La imagen a cuadros a continuación se creó a partir de la sencilla indicación “Escena de un pueblo medieval con calles concurridas y un castillo a lo lejos”. Además de esta indicación, se añadieron quince líneas de modificadores complicados y a veces indescifrables, incluyendo uno que instruye a la IA para que la imagen no parezca un “mal anime”.
Las dos imágenes de pueblos medievales fueron creadas por Ugleh utilizando QR Monster, una herramienta adicional para Stable Diffusion. QR Monster se basa en ControlNet, una “arquitectura de red neuronal” desarrollada en febrero pasado por investigadores que permite a Stable Diffusion ser más precisamente condicionado y controlado.
ControlNet permite a un usuario darle dos indicaciones diferentes a Stable Diffusion, en las que trabaja al mismo tiempo. Los desarrolladores detrás de QR Monster utilizaron esta capacidad para crear un paquete que permitiría que la IA genere tanto un código QR como una imagen por separado. Así, supongamos que tienes un restaurante de pizza, podrías hacer una imagen de una pizza generada por IA en la que los pepperonis formen un código QR escaneable para tu menú.
Ugleh utilizó QR Monster para crear “Spiral Town”, pero en lugar de insertar un código QR, proporcionó una espiral como segunda indicación para incorporarla a la imagen del pueblo medieval. QR Monster empaquetó la funcionalidad de “hacer dos imágenes al mismo tiempo” de una manera que permitiría a las empresas utilizarla fácilmente. Sin embargo, los entusiastas del arte de IA tomaron la tecnología y la utilizaron a su manera.
Esto se inscribe en un patrón más amplio de los artistas de IA que se oponen a cualquier cosa que huela a negocios. Una semana después de que los proyectos de Ugleh con QR Monster se hicieran virales, un usuario llamado Pintjaguar produjo un conjunto de imágenes que utilizaban la herramienta para incrustar logotipos de empresas como Nike, Bayer y Exxon en imágenes generadas por IA de deforestación, talleres de sudor y derrames de petróleo. Si bien el gesto político puede ser torpe, el sentimiento es generalizado: la comunidad unida de artistas de IA busca desarrollar la tecnología a su manera.
Esto va más allá de QR Monster. El usuario que generó una imagen viral de IA del Papa Francisco vistiendo una chaqueta blanca de Balenciaga utilizando Midjourney instruyó a la IA para que renderice la foto como si hubiera sido “tomada con una cámara Canon EOS R con un lente de 50 mm f/1.8, apertura f/2.2, velocidad de obturación de 1/200s, ISO 100 y luz natural”, describiendo una serie de otras condiciones y requisitos específicos para su apariencia. En una entrevista con Buzzfeed, el usuario compartió que era un obrero de la construcción del área de Chicago que fue criado como católico y se adentró en la creación de arte de IA mientras “lidiaba con el dolor” después de la muerte de su hermano.
Si todo este proceso de ingeniería de indicaciones y desarrollo de código colaborativo se considera arte es otra cuestión. Al menos es una habilidad técnica que se extiende entre una comunidad de personas que no son profesionales pero realmente disfrutan jugando con los modelos por diversión. La historia del arte de IA no es solo