Intel Gaudi 2: El rendimiento y la relación rendimiento/precio que desafían a NVIDIA en MLPerf Training V3.1

Intel Gaudi 2: El rendimiento y la relación rendimiento/precio que desafían a NVIDIA en MLPerf Training V3.1

Noticias

MLPerf Training v3.1 ha revelado sus resultados y, aunque no fue la ronda más emocionante, hubo dos resultados destacados. En primer lugar, NVIDIA utilizó MLPerf para presentar su última supercomputadora de generación Hopper, denominada NVIDIA Eos. Por otro lado, Intel sorprendió al destacar el excelente rendimiento/precio del acelerador Intel Gaudi 2, en una ocasión poco común donde ambas compañías coinciden en resaltar sus logros.

MLPerf Training v3.1 consiste en nueve pruebas diferentes que se ejecutaron en 209 resultados y 83 configuraciones diferentes entre las categorías de divisones cerrada y abierta. Sin embargo, solamente dos configuraciones fueron presentadas en la categoría abierta, cada una con un resultado único y distinto. La mayoría de los resultados, 195 de 209, correspondieron a las GPU de NVIDIA. Sin embargo, Intel demostró su capacidad al presentar seis resultados utilizando los procesadores Intel Xeon Sapphire Rapids, estableciendo así un referente en rendimiento de CPU en la industria.

La novedad más destacada fue la revelación de la supercomputadora NVIDIA Eos, con un sistema que consta de 10,752 GPU NVIDIA H100 conectadas a través de la tecnología Quantum-2 InfiniBand a una velocidad de 400Gbps. Este poderoso sistema tendría un valor de mercado superior a los $400 millones de dólares.

En una comparación directa con 64 aceleradores, NVIDIA demostró ser aproximadamente dos veces más rápida. Sin embargo, se debe notar que los aceleradores utilizados por Intel tienen un costo inferior a la mitad de sus contrapartes de NVIDIA, lo que se traduce en una ventaja en términos de rendimiento/precio y una arquitectura de sistema mucho más sencilla.

En resumen, MLPerf Training v3.1 reveló que la industria, a excepción de NVIDIA, ha abandonado en gran medida esta prueba. Sin embargo, Intel ha demostrado su capacidad con el acelerador Intel Gaudi 2, que ofrece un rendimiento estable en la prueba de difusión y una relación rendimiento/precio cuatro veces superior a la de NVIDIA. Aunque NVIDIA continúa liderando en el mercado con su GPU H100 SXM5, es evidente que pocos competidores pueden igualar su capacidad de escalar hardware y software utilizando más de 1000 aceleradores. En definitiva, NVIDIA es el líder indiscutible para aquellos que buscan sistemas con 10,000 aceleradores en el futuro cercano, mientras que Intel destaca por una propuesta más rentable y eficiente con el Intel Gaudi 2.

Preguntas frecuentes (FAQ):

1. ¿Cuál es la diferencia entre MLPerf Training v3.1 y MLPerf Inference?
MLPerf Training es una prueba que evalúa el rendimiento de los sistemas de entrenamiento de modelos de aprendizaje automático, mientras que MLPerf Inference se centra en la inferencia, es decir, la capacidad de utilizar un modelo ya entrenado para realizar predicciones.

2. ¿Cómo se calcula la relación rendimiento/precio en MLPerf Training v3.1?
La relación rendimiento/precio se calcula dividiendo el rendimiento obtenido en una prueba específica por el costo del sistema utilizado para lograr ese rendimiento. De esta manera, se puede evaluar la eficiencia y el valor de cada solución.

3. ¿Cuál es la ventaja del acelerador Intel Gaudi 2 frente al GPU H100 de NVIDIA?
El acelerador Intel Gaudi 2 ofrece un rendimiento comparable al del GPU H100, pero a un costo significativamente menor. Esto lo convierte en una opción más atractiva en términos de relación rendimiento/precio y permite a los usuarios obtener un rendimiento similar con una inversión menor.

4. ¿Qué es una supercomputadora y cómo se utiliza en el aprendizaje automático?
Una supercomputadora es un sistema de cómputo de alto rendimiento que se utiliza para realizar cálculos complejos y procesar grandes volúmenes de datos. En el aprendizaje automático, las supercomputadoras se utilizan para acelerar el entrenamiento de modelos y mejorar el rendimiento de las aplicaciones de inteligencia artificial.

Fuentes: (fuente de investigación original no proporcionada)