Cuando compra a través de enlaces en nuestros artículos, Future y sus socios de distribución pueden ganar una comisión.
Nvidia está considerando adoptar un diseño de socket para al menos algunas de sus próximas GPU Blackwell B300 para aplicaciones de IA y HPC, según un informe de TrendForce que cita a Economic Daily News y MoneyDJ. Se dice que la compañía adoptará el nuevo diseño de enchufe para algo con nombre en código GB300 y, por ahora, la información no parece convincente, por decirlo suavemente. Sin embargo, dado que hay rumores sobre la cadena de suministro, al menos vale la pena considerarlo.
MoneyDJ informa que, considerando las tasas de falla de las GPU de IA bajo cargas elevadas, los costos de reemplazo de las placas base y los desafíos de enfriamiento, Nvidia y otros diseñadores de GPU de IA podrían considerar usar diseños de socket para su próxima generación de GPU en lugar de soldar las GPU a las placas base.
EDN cita a Chen Shuowen, analista de CLSA, diciendo que basándose en comprobaciones de la cadena de suministro, Nvidia ha estado diseñando zócalos de GPU para sus productos, posiblemente comenzando con el GB200 Ultra. Según se informa, Chen mencionó un diseño de GPU Nvidia de 4 vías con una CPU Nvidia. Ninguno de los informes menciona nada llamado GB300, por lo que TrendForce agregó esta parte, posiblemente basándose en algunas conversaciones adicionales.
Cabe señalar varias cosas sobre los informes. En cambio, los diseños con enchufes aumentarían los desafíos de energía y refrigeración en lugar de ayudar a resolverlos, por lo que el primer informe es inexacto. Las GPU que consumen más energía suelen utilizar encapsulado BGA.
Una GPU Blackwell de 4 vías con una placa base de CPU no parece extraordinaria, considerando que con los servidores DGX vemos una placa base de GPU de 8 vías y una placa base de CPU de 2 vías, pero ese diseño parece increíble.
La nomenclatura del centro de datos de Nvidia divide las plataformas GPU de la empresa (A100, H100, B100/B200) y Grace CPU + GPU (GH100, GB200). Por ahora, las plataformas GB200 utilizan paquetes BGA tanto para CPU como para GPU; No estamos seguros de que algo tenga que cambiar con la actualización del B200 Ultra, especialmente con la posible actualización del GB200 Ultra en algún momento de la segunda mitad del año.
A todos nos encantan los zócalos de CPU estándar por su fácil reparación y capacidad de actualización. Pero en los servidores, ocupan más espacio y tienen más limitaciones térmicas y de energía que los paquetes BGA o los módulos SXM/OAM. Si bien los módulos brindan reparabilidad, el proceso puede variar según el diseño específico de la placa base y la extracción de un módulo OAM/SXM requiere un manejo cuidadoso, por lo que no son tan buenos como los sockets.
Hay otro punto que destacar. Las tarjetas complementarias, los módulos SXM y OAM son difíciles y costosos de fabricar y, por ahora, la mayoría de los módulos Nvidia SXM son fabricados por Foxconn. La migración de una tarjeta o módulo a un socket reduce los costos pero limita el rendimiento.
Posibilidades de hardware de Blackwell
Antes de pasar al supuesto producto de centro de datos basado en Blackwell (GB300, GB200 Ultra, lo que sea) con una GPU conectada, recordemos qué GPU de centro de datos basadas en Blackwell ya ha presentado Nvidia.
Por ahora, Nvidia ha presentado formalmente su GPU B200 (1000W+) que se utilizará en placas GB200 (con nombre en código Bianca con una CPU Grace y dos GPU Blackwell, así como Ariel con una CPU Ariel y una GPU Blackwell) y vendrá en un Factor de forma BGA. Además, Nvidia también tiene placas GPU Umbriel que admiten ocho factores de forma de módulo SXM B200 (1000W) y B100 (700W). Además, existen plataformas con nombre en código Miranda (agrega rendimiento (piense en TDP más alto), PCIe 6.0 y redes 800G) y plataformas con nombre en código Oberon GB200, según SemiAnalysis.
Si bien hay tarjetas complementarias Nvidia H100 e incluso H200 (basadas en la arquitectura Hopper) con un rendimiento reducido para adaptarse a los presupuestos térmicos y de energía típicos proporcionados por los servidores clásicos, Nvidia nunca ha anunciado ninguna tarjeta complementaria con GPU basadas en Blackwell.
Sin embargo, según información no oficial, sabemos que Nvidia está preparando su producto con nombre en código B200A basado en el procesador monolítico B102 con cuatro pilas de memoria HBM3E conectadas mediante la tecnología de empaquetado CoWoS-S de TSMC. Esto contrasta con los diseños B100/B200 de doble matriz que se empaquetan juntos utilizando CoWoS-L de TSMC y luego se conectan a ocho pilas de memoria HBM3E.
Dado que con el supuesto B200A estamos tratando con un producto de un solo troquel no diseñado para ser un campeón de rendimiento, este podría adoptar múltiples factores de forma. Esto incluye un diseño modular SXM (especialmente en su forma B20 específica de China) y un factor de forma de tarjeta adicional. ¿Podría ser un enchufe? Tal vez. Vamos a ver sobre eso. Intel ha realizado su CPU Xeon Max 9480 'Sapphire Rapids' con socket con HBM a bordo, y no fue un éxito más allá de la audiencia de supercomputación seleccionada. ¿Nvidia quiere construir algo similar? Ya veremos sobre eso.