Nvidia lanzó el chip Groq 3 LPU, que acelera la inferencia de modelos de IA hasta el nivel de tokens.

Nvidia lanzó el chip Groq 3 LPU, que acelera la inferencia de modelos de IA hasta el nivel de tokens.

13 software

Nvidia revela nuevas capacidades de la plataforma Vera Rubin

En la conferencia GTC de este año, el director ejecutivo de Nvidia, Jensen Huang, anunció la expansión de la plataforma Vera Rubin. La base de las nuevas funcionalidades es la propiedad intelectual adquirida a la empresa Groq, y en Rubin se incorporó el chip *Groq 3 LPU* – un acelerador de inferencia diseñado para generar tokens con alta velocidad y baja latencia.

Lo que ya existe en Vera Rubin
La plataforma consta de seis componentes clave que Nvidia agrupa en sistemas de rack y escala a grandes fábricas de IA:

ComponenteDescripción
GPU RubinTarjeta gráfica con 288 GB HBM4
CPU VeraProcesador central
NVLink 6Sistema de escalado intra-sistema
ConnectX‑9Adaptador de red inteligente
BlueField‑4Procesador de datos
Spectrum‑XConmutador de escalado inter-sistema con óptica integrada

El *Groq 3 LPU* ahora se añade como un nuevo bloque constructivo que se utilizará al desplegar sistemas grandes.

Por qué destaca el Groq 3 LPU
La principal diferencia es la arquitectura de memoria. Mientras que la mayoría de los aceleradores usan HBM como memoria de trabajo, cada *Groq 3 LPU* contiene 500 MB SRAM. Comparación:

ParámetroGPU Rubin (HBM4)Groq 3 LPU (SRAM)
Capacidad288 GB0,5 GB
Ancho de banda~22 TB/shasta 150 TB/s

Para tareas de inferencia sensibles al ancho de banda, la ventaja del SRAM es evidente. Por eso Nvidia incluyó el Groq 3 en Rubin – para aumentar la velocidad de emisión de tokens.

Rack Groq 3 LPX
El rack contiene 256 chips *Groq 3 LPU*, lo que proporciona:

- 128 GB SRAM
- 40 PB/s de ancho de banda total
- 640 TB/s de interfaz intra-sistema

El vicepresidente de soluciones hiper‑escalables, Ian Buck, describió este rack como un coprocesador para Rubin, subrayando su papel en la mejora del rendimiento de decodificación en cada capa del modelo y token.

Impacto en sistemas multiagente
Buck señaló que el *Groq 3 LPX* será un elemento clave para el futuro mercado de IA – sistemas multiagente. Cuando los agentes intercambian datos directamente, en lugar de a través de chatbots, las demandas de respuesta cambian: de 100 tokens/s hasta más de 1 500+ tokens/s y superiores.

Competidores y perspectivas
El texto menciona al competidor Cerebras, que utiliza el Wafer‑Scale Engine (WSE) con enorme SRAM para inferencia de baja latencia. OpenAI ya ha empleado Cerebras en sus modelos avanzados gracias a la latencia favorable.

Buck también observó que la aparición del *Groq 3 LPU* podría reducir la dependencia del acelerador Rubin CPX. Mientras Nvidia se centra en integrar el rack *Groq 3 LPX* con la plataforma, ambos chips están destinados a reforzar la inferencia sin necesidad de grandes volúmenes de memoria GDDR7.

Conclusión:

El nuevo chip *Groq 3 LPU* y su rack LPX potencian a Vera Rubin en el segmento de inferencia de baja latencia, abriendo camino hacia sistemas IA multiagente más rápidos y compitiendo con jugadores como Cerebras.

Comentarios (0)

Comparte tu opinión — por favor, sé amable y mantente en el tema.

Aún no hay comentarios. Deja un comentario y comparte tu opinión!

Para dejar un comentario, inicia sesión.

Inicia sesión para comentar