Nvidia presenta la GPU Blackwell B200, el 'chip más potente del mundo' para IA

Actualmente, Nvidia se encuentra en la cima del mundo de la inteligencia artificial, con GPU para centros de datos que todos desean. Sus superchips Hopper H100 y GH200 Grace Hopper tienen una gran demanda y alimentan muchas de las supercomputadoras más poderosas del mundo. Bueno, agarraos a vuestros asientos, porque Nvidia acaba de revelar al sucesor de Hopper. El director ejecutivo, Jensen Huang, lanzó hoy la bomba Blackwell B200, el centro de datos de próxima generación y GPU de IA que proporcionará un salto generacional masivo en potencia computacional.

La arquitectura Blackwell y la GPU B200 reemplazan al H100/H200. También habrá un superchip Grace Blackwell GB200 , que como puede adivinar por el nombre mantendrá la arquitectura de CPU Grace pero la combinará con la GPU Blackwell actualizada. Anticipamos que Nvidia eventualmente también tendrá GPU Blackwell de consumo, pero es posible que no lleguen hasta 2025 y serán bastante diferentes de los chips del centro de datos.
En un nivel alto, la GPU B200 duplica con creces el número de transistores de la H100 existente. Hay algunas advertencias que abordaremos en un momento, pero el B200 incluye 208 mil millones de transistores (contra 80 mil millones en el H100/H200). También proporciona 20 petaflops de rendimiento de IA desde una sola GPU: un solo H100 tenía un máximo de 4 petaflops de cómputo de IA. Y por último, pero no menos importante, contará con 192 GB de memoria HBM3e que ofrece hasta 8 TB/s de ancho de banda.

Ahora, hablemos de algunas de las advertencias. En primer lugar, como indican los rumores, el Blackwell B200 no es una GPU única en el sentido tradicional. En cambio, se compone de dos matrices estrechamente acopladas , aunque funcionan como una GPU CUDA unificada según Nvidia. Los dos chips están conectados a través de una conexión NV-HBI (Nvidia High Bandwidth Interface) de 10 TB/s para garantizar que puedan funcionar correctamente como un único chip totalmente coherente.

B200 utilizará dos chips de tamaño de retícula completa, aunque Nvidia aún no ha proporcionado un tamaño de matriz exacto. Cada chip tiene cuatro pilas HMB3e de 24 GB cada una, con 1 TB/s de ancho de banda cada una en una interfaz de 1024 bits. Tenga en cuenta que el H100 tenía seis pilas HBM3 de 16 GB cada una (inicialmente, el H200 aumentó esto a seis por 24 GB), lo que significa que una parte decente del chip H100 estaba dedicada a los seis controladores de memoria. Al reducir a cuatro interfaces HBM por chip y vincular dos chips, Nvidia puede dedicar proporcionalmente menos área de matriz a las interfaces de memoria.

La segunda advertencia que debemos discutir es con el cálculo teórico máximo de 20 petaflops. Blackwell B200 llega a esa cifra a través de un nuevo formato de número FP4, con el doble de rendimiento que el formato FP8 de Hopper H100. Entonces, si estuviéramos comparando manzanas con manzanas y nos quedáramos con FP8, B200 'sólo' ofrece 2,5 veces más cálculo teórico de FP8 que H100 (con escasez), y una gran parte de eso proviene de tener dos chips.

Ese es un punto interesante que nuevamente se remonta a la falta de mejoras masivas en la densidad del nodo de proceso 4NP. B200 termina con teóricamente 1,25 veces más computación por chip con la mayoría de los formatos numéricos compatibles tanto con H100 como con B200. Quitar dos de las interfaces HBM3 y crear un chip un poco más grande podría significar que la densidad de computación ni siquiera es significativamente mayor a nivel de chip, aunque, por supuesto, la interfaz NV-HBI entre los dos chips también ocupa algo de área del chip.

Nvidia también proporcionó el cálculo sin procesar de otros formatos numéricos con B200, y se aplican los factores de escala habituales. Por lo tanto, el rendimiento del FP8 es la mitad del rendimiento del FP4 a 10 petaflops, el rendimiento del FP16/BF16 es la mitad nuevamente de la cifra del FP8 a 5 petaflops, y el soporte de TF32 es la mitad del rendimiento del FP16 a 2,5 petaflops; todos ellos con escasez, por lo que la mitad de esas tasas para operaciones densas. Nuevamente, eso es 2,5 veces un solo H100 en todos los casos.

¿Qué pasa con el rendimiento de FP64? H100 tenía una potencia de 60 teraflops de cómputo denso FP64 por GPU. Si B200 tuviera un escalado similar al de los otros formatos, cada GPU de doble matriz tendría 150 teraflops. Sin embargo, parece que Nvidia está retrocediendo un poco el rendimiento de FP64, con 45 teraflops de FP64 por GPU. Pero esto también requiere algunas aclaraciones, ya que uno de los componentes clave será el superchip GB200. Tiene dos GPU B200 y puede generar 90 teraflops de FP64 denso, y hay otros factores en juego que podrían mejorar el rendimiento bruto en la simulación clásica en comparación con el H100.

En cuanto a utilizar FP4, Nvidia tiene un nuevo Transformer Engine de segunda generación que ayudará a convertir automáticamente los modelos al formato apropiado para alcanzar el máximo rendimiento. Además de la compatibilidad con FP4, Blackwell también admitirá un nuevo formato FP6, una solución intermedia para situaciones en las que FP4 carece de la precisión necesaria pero FP8 tampoco es necesaria. Cualquiera que sea la precisión resultante, Nvidia clasifica estos casos de uso como modelos de "mezcla de expertos" (MoE).