Google redujo el consumo de memoria de los modelos de IA seis veces, manteniendo la precisión, gracias al algoritmo TurboQuant
Resumen breve
Google Research presentó una nueva forma de comprimir el caché KV de los grandes modelos de lenguaje: TurboQuant. El algoritmo reduce la profundidad del caché a 3 bits (4 bits si se añade corrección de errores), sin empeorar la precisión de las respuestas y sin entrenamiento adicional. En aceleradores Nvidia H100, TurboQuant aumentó en 8 veces el rendimiento de cálculo de los logits de atención y redujo el tamaño del caché KV seis veces.
¿Qué es el caché KV y por qué es importante?
* El caché KV almacena las claves (K) y valores (V) obtenidos al calcular el mecanismo de atención.
Esto permite que el modelo no vuelva a calcularlos en cada paso de generación de tokens.
* Al aumentar la ventana de contexto, el caché crece exponencialmente, lo que conlleva altos costos de memoria.
* Los métodos tradicionales de cuantificación reducen el tamaño del caché pero requieren almacenar constantes de cuantificación (diccionarios), similares a ZIP/RAR.
Estos diccionarios generan gastos generales significativos.
¿Cómo funciona TurboQuant?
TurboQuant consta de dos etapas y elimina por completo los diccionarios.
| Etapa | Qué se hace | Por qué es importante |
|---|---|---|
| 1. PolarQuant | Conversión de vectores desde coordenadas cartesianas a polares (radio + ángulo). Los distribuciones angulares son predecibles y concentradas, por lo que no se necesita la costosa etapa de normalización de cada bloque. Se obtiene una compresión de alta calidad sin diccionarios. | |
| 2. Capa de corrección de errores de 1 bit | Se aplica el algoritmo cuantificado Johnson-Lindenstrauss; el error residual se reduce a un solo bit. Elimina el sesgo sistemático en los cálculos de atención con costos adicionales mínimos. |
Resultados prácticos
Prueba | Algoritmos | Resultados
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compresión mínima de 6× del caché KV; en tareas de búsqueda “hilo en el pajar” sin pérdida de precisión. En LongBench – igual o mejor que KIVI.
Búsqueda vectorial (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Incluso sin entrenamiento, TurboQuant superó a los competidores entrenados en calidad de resultados y consumo de memoria.
Conclusiones
* TurboQuant ofrece una fuerte compresión del caché KV hasta 3–4 bits sin pérdida de precisión ni entrenamiento adicional.
* El rendimiento en Nvidia H100 aumentó 8 veces, y el tamaño del caché se redujo seis veces.
* El algoritmo funciona tanto para grandes modelos de lenguaje como para tareas de búsqueda vectorial, sin requerir afinación fina.
En consecuencia, TurboQuant está listo para su uso práctico incluso bajo carga alta y abre nuevas posibilidades para trabajar eficientemente con grandes modelos.
Comentarios (0)
Comparte tu opinión — por favor, sé amable y mantente en el tema.
Inicia sesión para comentar