Microsoft se asocia con Nvidia en TensorRT-LLM para impulsar la integración de IA generativa en Windows

Microsoft se asocia con Nvidia en TensorRT-LLM para impulsar la integración de IA generativa en Windows

Noticias

En el marco de la conferencia Ignite 2023, Microsoft ha anunciado una emocionante asociación con Nvidia en TensorRT-LLM para potenciar la aplicación de IA generativa en Windows. Esta colaboración promete revolucionar las experiencias de los usuarios en computadoras de escritorio y portátiles equipados con Windows y GPU RTX.

La nueva versión de TensorRT-LLM está diseñada para brindar soporte a nuevos y poderosos modelos de lenguaje, lo que facilitará el acceso a cargas de trabajo exigentes de IA. Pero hay algo aún más interesante: la API de chat de OpenAI será compatible con esta versión, lo que permitirá la ejecución de aplicaciones de IA localmente, sin necesidad de depender de la nube. Esta innovadora función estará disponible en PC y estaciones de trabajo con GPU RTX y un mínimo de 8 GB de VRAM.

La biblioteca TensorRT-LLM de Nvidia, lanzada recientemente, ha demostrado mejorar significativamente el rendimiento de los modelos de lenguaje grandes (LLM) utilizando los Tensor Cores presentes en las tarjetas gráficas RTX. Esta biblioteca ofrece a los desarrolladores una API de Python que les permite definir LLM y crear motores TensorRT de manera más rápida y sencilla, sin necesidad de un profundo conocimiento de C++ o CUDA.

En la versión 0.6.0 de TensorRT-LLM, los desarrolladores podrán disfrutar de AI Workbench, un conjunto de herramientas unificado que simplificará la creación, prueba y personalización de modelos de IA generativa y LLM preentrenados. Esta plataforma también permitirá una mayor optimización de la colaboración y la implementación, asegurando un desarrollo eficiente y escalable de modelos.

Además, Nvidia y Microsoft, conscientes de la importancia de apoyar a los desarrolladores de IA, han introducido mejoras en DirectML. Estas optimizaciones acelerarán los modelos de IA fundamentales, como Llama 2 y Stable Diffusion, brindando a los desarrolladores más opciones de implementación y elevando los estándares de rendimiento.

Con la nueva actualización de TensorRT-LLM, se espera una mejora sustancial en la velocidad de inferencia, hasta cinco veces más rápida. Asimismo, se ha ampliado la compatibilidad con otros LLM populares, como Mistral 7B y Nemotron-3 8B, y se ha extendido la posibilidad de utilizar LLM locales rápidos y precisos en una variedad más amplia de dispositivos portátiles con Windows.

La integración de TensorRT-LLM para Windows con la API de chat de OpenAI a través de un nuevo contenedor permitirá que innumerables proyectos y aplicaciones de IA se ejecuten localmente en PC equipadas con RTX. Esto eliminará la necesidad de depender de servicios en la nube y garantizará la seguridad y privacidad de los datos en las PC con Windows 11.

FAQ

¿Cuándo se anunció la asociación entre Microsoft y Nvidia?

La asociación entre Microsoft y Nvidia fue anunciada durante la conferencia Ignite 2023.

¿Qué es TensorRT-LLM?

TensorRT-LLM es una biblioteca lanzada por Nvidia que mejora el rendimiento de los modelos de lenguaje grandes utilizando los Tensor Cores presentes en las tarjetas gráficas RTX.

¿Qué es AI Workbench?

AI Workbench es un conjunto de herramientas unificado que facilita la creación, prueba y personalización rápida de modelos de IA generativa y LLM preentrenados.

¿Qué mejoras se han introducido en DirectML?

Se han introducido mejoras en DirectML que aceleran los modelos de IA fundamentales, como Llama 2 y Stable Diffusion, proporcionando a los desarrolladores más opciones de implementación y estableciendo nuevos estándares de rendimiento.