Google redujo el consumo de memoria de los modelos de IA seis veces, manteniendo la precisión, gracias al algoritmo TurboQuant

Resumen breve

Google Research presentó una nueva forma de comprimir el caché KV de los grandes modelos de lenguaje: TurboQuant. El algoritmo reduce la profundidad del caché a 3 bits (4 bits si se añade corrección de errores), sin empeorar la precisión de las respuestas y sin entrenamiento adicional. En aceleradores Nvidia H100, TurboQuant aumentó en 8 veces el rendimiento de cálculo de los logits de atención y redujo el tamaño del caché KV seis veces.

¿Qué es el caché KV y por qué es importante?
* El caché KV almacena las claves (K) y valores (V) obtenidos al calcular el mecanismo de atención.
Esto permite que el modelo no vuelva a calcularlos en cada paso de generación de tokens.
* Al aumentar la ventana de contexto, el caché crece exponencialmente, lo que conlleva altos costos de memoria.
* Los métodos tradicionales de cuantificación reducen el tamaño del caché pero requieren almacenar constantes de cuantificación (diccionarios), similares a ZIP/RAR.
Estos diccionarios generan gastos generales significativos.

¿Cómo funciona TurboQuant?
TurboQuant consta de dos etapas y elimina por completo los diccionarios.

Etapa	Qué se hace	Por qué es importante
1. PolarQuant	Conversión de vectores desde coordenadas cartesianas a polares (radio + ángulo). Los distribuciones angulares son predecibles y concentradas, por lo que no se necesita la costosa etapa de normalización de cada bloque. Se obtiene una compresión de alta calidad sin diccionarios.
2. Capa de corrección de errores de 1 bit	Se aplica el algoritmo cuantificado Johnson-Lindenstrauss; el error residual se reduce a un solo bit. Elimina el sesgo sistemático en los cálculos de atención con costos adicionales mínimos.

Resultados prácticos
Prueba | Algoritmos | Resultados
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compresión mínima de 6× del caché KV; en tareas de búsqueda “hilo en el pajar” sin pérdida de precisión. En LongBench – igual o mejor que KIVI.
Búsqueda vectorial (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Incluso sin entrenamiento, TurboQuant superó a los competidores entrenados en calidad de resultados y consumo de memoria.

Conclusiones
* TurboQuant ofrece una fuerte compresión del caché KV hasta 3–4 bits sin pérdida de precisión ni entrenamiento adicional.
* El rendimiento en Nvidia H100 aumentó 8 veces, y el tamaño del caché se redujo seis veces.
* El algoritmo funciona tanto para grandes modelos de lenguaje como para tareas de búsqueda vectorial, sin requerir afinación fina.

En consecuencia, TurboQuant está listo para su uso práctico incluso bajo carga alta y abre nuevas posibilidades para trabajar eficientemente con grandes modelos.

Google redujo el consumo de memoria de los modelos de IA seis veces, manteniendo la precisión, gracias al algoritmo TurboQuant

Related news

Apple‑Car podría verse así: Ferrari muestra el interior del coche eléctrico Luce, diseñado por Johnny Aiv.

Las ventas de Mortal Kombat 1 superaron los 8 millones de copias, pero el récord del juego anterior todavía está fuera de alcance

Tesla lanzó una campaña contra los métodos “engañosos” de activación del piloto automático en las regiones donde su uso está prohibido.

En cinco años, la demanda de memoria aumentará más de 600 veces según el jefe de Dell, gracias al crecimiento de los chips de IA.

Comentarios (0)

Inicia sesión para comentar

Google redujo el consumo de memoria de los modelos de IA seis veces, manteniendo la precisión, gracias al algoritmo TurboQuant

Related news

Apple‑Car podría verse así: Ferrari muestra el interior del coche eléctrico Luce, diseñado por Johnny Aiv.

Las ventas de Mortal Kombat 1 superaron los 8 millones de copias, pero el récord del juego anterior todavía está fuera de alcance

Tesla lanzó una campaña contra los métodos “engañosos” de activación del piloto automático en las regiones donde su uso está prohibido.

En cinco años, la demanda de memoria aumentará más de 600 veces según el jefe de Dell, gracias al crecimiento de los chips de IA.

Inicia sesión para comentar

Las ventas de Mortal Kombat 1 superaron los 8 millones de copias, pero el récord del juego anterior todavía está fuera de alcance