Impulsando la generación de imágenes a través de inteligencia artificial

Impulsando la generación de imágenes a través de inteligencia artificial

Noticias

La inteligencia artificial ha avanzado significativamente en la generación de imágenes a partir de texto en los últimos años. Transformar descripciones escritas en representaciones visuales tiene diversas aplicaciones, desde la creación de contenido hasta ayudar a personas con discapacidad visual y contar historias. Sin embargo, los investigadores han enfrentado dos obstáculos importantes: la falta de datos de alta calidad y los problemas de derechos de autor relacionados con los conjuntos de datos recopilados de internet.

En una investigación reciente, un equipo de investigadores ha propuesto la idea de construir un conjunto de datos de imágenes bajo una licencia Creative Commons (CC) y utilizarlo para entrenar modelos de difusión abierta que superen al modelo Stable Diffusion 2 (SD2). Para lograr esto, es necesario superar dos desafíos importantes:

1. Ausencia de subtítulos: Aunque las fotos CC de alta resolución tienen licencia abierta, a menudo carecen de descripciones textuales, es decir, los subtítulos necesarios para el entrenamiento de modelos generativos de texto a imagen. El modelo encuentra difícil comprender y producir imágenes basadas en texto en ausencia de subtítulos.

2. Escasez de fotos CC: En comparación con conjuntos de datos más grandes y propietarios como LAION, las fotos CC son más escasas a pesar de ser un recurso importante. Esta escasez plantea la pregunta de si hay suficientes datos para entrenar modelos de alta calidad con éxito.

Para abordar estos desafíos, el equipo ha utilizado técnicas de transferencia de aprendizaje y ha creado subtítulos sintéticos excelentes utilizando un modelo preentrenado. Luego, han combinado estos subtítulos con una selección cuidadosamente elegida de fotos CC. Este método es simple y aprovecha la capacidad del modelo para generar texto a partir de fotos u otros datos. Han creado un conjunto de datos de fotos y subtítulos ficticios que se pueden utilizar para entrenar modelos generativos que traducen palabras en imágenes.

El equipo ha desarrollado un método de entrenamiento eficiente en términos de recursos computacionales y de datos para abordar el segundo desafío. Con menos datos, este método tiene como objetivo alcanzar la misma calidad que los modelos SD2 actuales. Solo se necesita alrededor del 3% de los datos utilizados para entrenar SD2, lo que equivale a aproximadamente 70 millones de ejemplos. Esto sugiere que hay suficientes fotos CC disponibles para entrenar modelos de alta calidad de manera eficiente.

El equipo ha entrenado varios modelos de texto a imagen utilizando estos datos y el procedimiento de entrenamiento eficiente. Estos modelos, conocidos como la familia CommonCanvas, representan un avance importante en el campo de los modelos generativos. Pueden generar imágenes con una calidad comparable a la de los modelos SD2.

Para facilitar la colaboración y fomentar más investigaciones, el equipo ha puesto a disposición de manera gratuita el modelo CommonCanvas entrenado, las fotos CC, los subtítulos generados artificialmente y el conjunto de datos CommonCatalog en GitHub.

FAQ:

1. ¿Cuál es la importancia de los subtítulos en el entrenamiento de modelos generativos de texto a imagen?
Los subtítulos proporcionan la descripción textual necesaria para que el modelo comprenda y pueda generar imágenes basadas en texto.

2. ¿Cómo supera el equipo el desafío de la escasez de fotos CC?
El equipo utiliza técnicas de transferencia de aprendizaje y combina fotos CC con subtítulos sintéticos generados por un modelo preentrenado.

3. ¿Cuántos datos se necesitan para entrenar modelos generativos de alta calidad?
El equipo descubrió que solo se necesitan alrededor del 3% de los datos utilizados para entrenar modelos SD2 actuales, lo que sugiere que hay suficientes fotos CC disponibles.