La Generación de Imágenes Sintéticas Aumenta el Rendimiento de los Modelos de Aprendizaje Automático

La Generación de Imágenes Sintéticas Aumenta el Rendimiento de los Modelos de Aprendizaje Automático

Noticias

Un nuevo estudio del Instituto Tecnológico de Massachusetts (MIT) ha revelado que los modelos de aprendizaje automático (ML) entrenados exclusivamente con imágenes sintéticas superan a sus contrapartes entrenadas con imágenes reales a gran escala.

En este estudio, las imágenes sintéticas son creadas utilizando modelos de texto a imagen, como el Stable Diffusion, y mediante una estrategia llamada “aprendizaje contrastivo multi-positivo”, el equipo de investigación logró entrenar modelos de ML utilizando estas imágenes sintéticas generadas por inteligencia artificial.

Este avance del MIT va más allá de una mejora en el rendimiento. La amenaza existencial que enfrentan los modelos de IA de todo tipo es que el stock de datos está creciendo a un ritmo más lento del necesario para entrenar los modelos de IA. La investigación reciente muestra que los datos de texto podrían agotarse en 2026, y los datos de imagen en 2030. Las soluciones propuestas son utilizar los datos existentes de manera más eficiente o aprovechar la generación de datos sintéticos.

“La capacidad de producir imágenes sintéticas diversas de alta calidad según se necesite podría ayudar a reducir los costos y recursos engorrosos asociados con los métodos tradicionales de recolección de datos”, afirmó Fan, estudiante de doctorado en ingeniería eléctrica del MIT y líder del proyecto, en una entrevista con MIT News.

La versión mejorada del equipo de investigación, StableRep+, superó a los modelos tradicionales no solo en precisión sino también en eficiencia, utilizando 20 millones de imágenes sintéticas en comparación con 50 millones de imágenes reales.

Sin embargo, los investigadores reconocen algunos desafíos, como el ritmo lento de generación de imágenes, las discrepancias semánticas entre los estímulos de texto y las imágenes, posibles sesgos y complejidades en la atribución de imágenes.

“Uno de los sueños del aprendizaje de modelos generativos ha sido poder generar datos útiles para el entrenamiento de modelos discriminatorios”, comentó David Fleet, investigador de Google DeepMind y profesor de ciencias de la computación en la Universidad de Toronto, en una entrevista con MIT sobre el artículo. “Si bien hemos visto algunos indicios de vida, el sueño ha sido esquivo, especialmente en dominios complejos a gran escala como las imágenes de alta resolución. Este artículo proporciona evidencia convincente, por primera vez que yo sepa, de que el sueño se está convirtiendo en realidad. Muestran que el aprendizaje contrastivo a partir de cantidades masivas de datos sintéticos de imágenes puede producir representaciones que superan a aquellas aprendidas a partir de datos reales a gran escala, con el potencial de mejorar infinidad de tareas de visión computacional”.

Preguntas frecuentes

1. ¿Qué es el aprendizaje automático (ML)?
El aprendizaje automático (ML) es un campo de la inteligencia artificial que se enfoca en el desarrollo de algoritmos y modelos que permiten a las máquinas aprender y mejorar su rendimiento a partir de datos, sin ser programadas explícitamente para cada tarea.

2. ¿Qué son las imágenes sintéticas?
Las imágenes sintéticas son imágenes generadas por computadora mediante algoritmos y modelos de IA en lugar de ser capturadas por cámaras en la realidad. Estas imágenes se crean artificialmente y pueden ser utilizadas para entrenar modelos de ML.

3. ¿Qué es el aprendizaje contrastivo?
El aprendizaje contrastivo es una técnica de entrenamiento de modelos de ML donde se busca maximizar las similitudes entre ejemplos similares y minimizar las similitudes entre ejemplos diferentes. Esto ayuda al modelo a aprender a distinguir entre diferentes clases u objetos.

4. ¿Cuáles son los desafíos del uso de imágenes sintéticas?
Algunos desafíos del uso de imágenes sintéticas incluyen la velocidad de generación de imágenes, las discrepancias semánticas entre los estímulos de texto y las imágenes, posibles sesgos en los datos sintéticos y la complejidad en la atribución de imágenes a fuentes reales. Estos desafíos deben abordarse para garantizar la eficacia y precisión de los modelos de ML entrenados con imágenes sintéticas.