La inteligencia artificial (IA) se encuentra en su punto más alto de popularidad, pero los investigadores están advirtiendo que la industria podría estar agotando los datos de entrenamiento, que son el combustible que alimenta a los potentes sistemas de IA. Esto podría ralentizar el crecimiento de los modelos de IA, especialmente los modelos de lenguaje grandes, y podría incluso alterar la trayectoria de la revolución de la IA.
Pero, ¿por qué la falta potencial de datos es un problema considerando que hay tanto en la web? ¿Y hay alguna manera de abordar el riesgo?
La importancia de los datos de alta calidad para la IA
Necesitamos una gran cantidad de datos para entrenar algoritmos de IA potentes, precisos y de alta calidad. Por ejemplo, ChatGPT fue entrenado con 570 gigabytes de datos de texto, o aproximadamente 300 mil millones de palabras. Del mismo modo, el algoritmo de difusión estable (que está detrás de muchas aplicaciones de generación de imágenes de IA como DALL-E, Lensa y Midjourney) fue entrenado con el conjunto de datos LIAON-5B, que consta de 5.8 mil millones de pares de imágenes y texto. Si un algoritmo se entrena con una cantidad insuficiente de datos, producirá salidas inexactas o de baja calidad.
La calidad de los datos de entrenamiento también es importante. Los datos de baja calidad, como publicaciones en redes sociales o fotografías borrosas, son fáciles de obtener, pero no son suficientes para entrenar modelos de IA de alto rendimiento. Los textos tomados de plataformas de redes sociales pueden estar sesgados o contener desinformación o contenido ilegal que el modelo podría replicar. Por ejemplo, cuando Microsoft intentó entrenar a su bot de IA utilizando contenido de Twitter, aprendió a producir salidas racistas y misóginas.
¿Tenemos suficientes datos?
La industria de la IA ha estado entrenando sistemas de IA en conjuntos de datos cada vez más grandes, por eso ahora tenemos modelos de alto rendimiento como ChatGPT o DALL-E 3. Al mismo tiempo, la investigación muestra que las existencias de datos en línea están creciendo mucho más lento que los conjuntos de datos utilizados para el entrenamiento de IA.
Según un artículo publicado el año pasado por un grupo de investigadores, si las tendencias actuales de entrenamiento de IA continúan, se agotarán los datos de texto de alta calidad antes de 2026. También estiman que los datos de lenguaje de baja calidad se agotarán en algún momento entre 2030 y 2050, y los datos de imagen de baja calidad entre 2030 y 2060.
¿Deberíamos preocuparnos?
Si bien los puntos anteriores podrían alarmar a algunos fanáticos de la IA, la situación puede no ser tan grave como parece. Hay muchas incógnitas sobre cómo se desarrollarán los modelos de IA en el futuro, así como algunas formas de abordar el riesgo de escasez de datos.
Una oportunidad es que los desarrolladores de IA mejoren los algoritmos para que utilicen los datos que ya tienen de manera más eficiente. Es probable que en los próximos años puedan entrenar sistemas de IA de alto rendimiento utilizando menos datos y posiblemente menos potencia computacional. Esto también ayudaría a reducir la huella de carbono de la IA.
Otra opción es utilizar la IA para crear datos sintéticos y entrenar sistemas. En otras palabras, los desarrolladores pueden generar los datos que necesitan, seleccionándolos para adaptarse a su modelo de IA particular. Varios proyectos ya están utilizando contenido sintético, a menudo obtenido de servicios generadores de datos como Mostly AI. Esto se volverá más común en el futuro.
Los desarrolladores también están buscando contenido fuera del espacio gratuito en línea, como el que poseen los grandes editores y los repositorios offline. Piensa en los millones de textos publicados antes de Internet. Si estuvieran disponibles digitalmente, podrían proporcionar una nueva fuente de datos para proyectos de IA.
News Corp, uno de los mayores propietarios de contenido de noticias del mundo (que tiene la mayoría de su contenido detrás de un muro de pago), ha dicho recientemente que está negociando acuerdos de contenido con desarrolladores de IA. Estos acuerdos obligarían a las empresas de IA a pagar por los datos de entrenamiento, en lugar de obtenerlos en su mayoría de forma gratuita de Internet hasta ahora. Los creadores de contenido se han manifestado en contra del uso no autorizado de su contenido para entrenar modelos de IA, y algunos han demandado a empresas como Microsoft, OpenAI y Stability AI. Ser remunerados por su trabajo puede ayudar a restablecer parte del desequilibrio de poder que existe entre los creativos y las empresas de IA.