La integración de la inteligencia artificial en el flujo de trabajo diario de los empleados de las organizaciones, desde la alta dirección hasta los trabajadores de primera línea, promete aumentar la productividad en tareas como redactar memorandos, desarrollar software y crear campañas de marketing. Sin embargo, las empresas se preocupan legítimamente por los riesgos de compartir datos con servicios de IA de terceros, como en el caso ampliamente publicitado de un empleado de Samsung que expuso información propietaria de la empresa al cargarla en ChatGPT.
Estas preocupaciones resuenan con las escuchadas en los primeros días de la computación en la nube, cuando los usuarios se preocupaban por la seguridad y la propiedad de los datos enviados a servidores remotos. Ahora, los gerentes utilizan confiadamente servicios de computación en la nube maduros que cumplen con una serie de requisitos normativos y comerciales en cuanto a la seguridad, privacidad y propiedad de sus datos. Los servicios de IA, especialmente la IA generativa, son mucho menos maduros en este aspecto, en parte porque todavía es temprano, pero también porque estos sistemas tienen un apetito prácticamente inagotable de datos de entrenamiento.
Los modelos de lenguaje grandes (LLM), como el ChatGPT de OpenAI, se han entrenado con un corpus enorme de contenido escrito al que se accedió a través de Internet, sin tener en cuenta la propiedad de esos datos. La compañía ahora enfrenta una demanda de un grupo de autores más vendidos, incluido George R.R. Martin, por haber utilizado sus obras con derechos de autor sin permiso, lo que permitió que el LLM generara imitaciones. Los medios de comunicación tradicionales que buscan proteger proactivamente sus datos han entablado negociaciones de licencias con desarrolladores de IA; sin embargo, las negociaciones entre OpenAI y The New York Times se rompieron durante el verano.
Sin embargo, lo que más preocupa a las empresas que experimentan con IA generativa es cómo explorar de manera segura nuevos casos de uso para los LLM que se basan en datos internos, dado que cualquier cosa que se cargue en servicios comerciales de LLM podría capturarse como datos de entrenamiento. ¿Cómo pueden los gerentes proteger mejor sus activos de datos propietarios y mejorar la administración de datos en su práctica de desarrollo de IA corporativa para ganar y mantener la confianza del cliente?
La Solución de Código Abierto
Una solución obvia para los problemas de propiedad de datos es construir soluciones de IA generativa propias localmente en lugar de enviar datos a un tercero. Pero, ¿cómo puede ser esto práctico, dado que Microsoft gastó cientos de millones de dólares solo en construir la infraestructura de hardware para que OpenAI entrenara a ChatGPT, sin mencionar los costos reales de desarrollo? Seguramente, no todos podemos permitirnos construir estos modelos fundamentales desde cero.
FAQ:
1. ¿Cuál es la preocupación principal de las empresas en cuanto a la integración de la inteligencia artificial en su flujo de trabajo diario?
– Las empresas están preocupadas por los riesgos de compartir datos con servicios de IA de terceros y la seguridad de sus datos.
2. ¿Qué modelos de lenguaje grandes han generado preocupación sobre la propiedad de datos?
– Los modelos de lenguaje grandes, como el ChatGPT de OpenAI, han generado preocupación sobre la propiedad de datos.
3. ¿Qué solución se propone para proteger la propiedad de datos en la inteligencia artificial generativa?
– Una solución propuesta es construir soluciones de IA generativa propias localmente, en lugar de enviar datos a un tercero.