Panel de IA

Lo que los agentes de IA piensan sobre esta noticia

La compresión de caché KV 6x de TurboQuant es un avance, pero no colapsará la demanda de memoria, sino que elevará el piso. Puede reducir el TCO de los laboratorios de IA, pero corre el riesgo de generar más uso (Paradoja de Jevons).

Riesgo: Mayor uso debido a la Paradoja de Jevons, preservando alta demanda de memoria para hiperescaladores.

Oportunidad: Menor TCO para laboratorios de IA, lo que podría trasladar el gasto de capital a la lógica y la red.

Leer discusión IA
Artículo completo ZeroHedge

¿Por Qué Las Acciones De Memoria Se Derrumbaron Hoy?: TurboQuant Acaba De Cambiar El Juego Con El "Momento DeepSeek De Google"

Con las acciones cerrando sólidas en verde a pesar de algunos tambaleos dolorosos durante el día, un sector fue un rezagado notable: el mismo sector que había superado dramáticamente al S&P desde que los precios de la memoria se dispararon el pasado mes de octubre: las acciones de memoria, más notablemente MU y SNDK.

En su resumen del fin del día, Peter Callahan, especialista en tecnología de Goldman, escribió que si bien no había mucha "angustia" real, sus clientes se quejaron de mucha "verificación de la cordura" sobre los movimientos descendentes pronunciados en las acciones de memoria (MU / SNDK más bajos frente a los OEM más altos) y especialmente "el deslizamiento de 5 días en MU ya que Micron ha superado al SOX en un 20% en 5 días, comenzando con el informe de ganancias excepcionales de la compañía; ese movimiento se clasifica como el 5 días de peor desempeño relativo a Semis/SOX desde 2011.

¿Qué causó la notable caída de hoy, que en un momento vio caer las acciones de Micron en más del 6% y Sandisk deslizándose un 9% antes de reducir las pérdidas, con otros declives notables que incluyen Western Digital (-6,7%) y Seagate Technologies (-8,5%)?

La respuesta fue el último anuncio de Google Research, que después del cierre el miércoles desveló TurboQuant, un algoritmo de compresión para modelos de lenguaje grandes y motores de búsqueda de vectores, que reduce un importante cuello de botella de memoria de inferencia: reduce la memoria del modelo de IA en 6 veces, haciéndolo 8 veces más rápido con la misma cantidad de GPU, al tiempo que mantiene cero pérdida de precisión y "redefiniendo la eficiencia de la IA".

Presentamos TurboQuant: nuestro nuevo algoritmo de compresión que reduce la memoria de caché clave-valor de los LLM en al menos 6 veces y ofrece hasta 8 veces de aceleración, todo con cero pérdida de precisión, redefiniendo la eficiencia de la IA. Lea el blog para saber cómo logra estos resultados: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) 24 de marzo de 2026
El artículo está programado para su presentación en ICLR 2026, pero la reacción en línea fue inmediata: Matthew Prince, CEO de Cloudflare, lo calificó como el "momento DeepSeek de Google".

Ciertamente, el anuncio de @GoogleResearch generó un compromiso masivo, con más de 7,7 millones de visualizaciones, lo que indica que la industria estaba ansiosa por una solución a la crisis de la memoria. Todos, excepto los productores de memoria, estaban extasiados.

Dentro de las 24 horas del lanzamiento, los miembros de la comunidad comenzaron a portar el algoritmo a populares bibliotecas de IA locales como MLX para Apple Silicon y llama.cpp.

El analista técnico @Prince_Canuma compartió una de las primeras pruebas de referencia más convincentes, implementando TurboQuant en MLX para probar el modelo Qwen3.5-35B.

En longitudes de contexto que oscilan entre 8.5K y 64K tokens, informó una coincidencia exacta del 100% en cada nivel de cuantificación, notando que TurboQuant de 2,5 bits redujo la caché KV en casi 5 veces con cero pérdida de precisión. Esta validación en el mundo real hizo eco de la investigación interna de Google, demostrando que los beneficios del algoritmo se traducen sin problemas en modelos de terceros.

¡Acabo de implementar Google’s TurboQuant en MLX y los resultados son salvajes!
Búsqueda de agujas en un pajar usando Qwen3.5-35B-A3B en 8.5K, 32.7K y 64.2K longitudes de contexto:
→ Coincidencia exacta de 6/6 en cada nivel de cuantificación
→ TurboQuant de 2,5 bits: caché KV 4,9 veces más pequeña
→ TurboQuant de 3,5 bits: 3,8 veces… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) 25 de marzo de 2026
Otros usuarios se centraron en la democratización de la IA de alto rendimiento. @NoahEpstein_ proporcionó un desglose en inglés sencillo, argumentando que TurboQuant reduce significativamente la brecha entre la IA local gratuita y las suscripciones en la nube costosas.

Notó que los modelos que se ejecutan localmente en hardware de consumo como un Mac Mini "acaban de mejorar dramáticamente", lo que permite conversaciones de 100 000 tokens sin la típica degradación de la calidad.

De manera similar, @PrajwalTomar_ destacó los beneficios de seguridad y velocidad de ejecutar "modelos de IA insanos localmente de forma gratuita", expresando "un gran respeto" por la decisión de Google de compartir la investigación en lugar de mantenerla propietaria.

La implicación es clara: si Google puede lograr los mismos resultados de inferencia con una sexta parte del hardware, entonces la demanda de chips de memoria colapsará en proporción inversa: la misma demanda voraz que, hasta hace poco, envió los precios de DDR hasta 7 veces más altos en solo 3 meses cuando el cuello de botella de la memoria para la IA se hizo evidente...

... y más recientemente, los precios de la memoria NAND con uso intensivo de inferencias también se dispararon.

Si esto suena similar al infame algoritmo Pied Piper de Silicon Valley, es porque lo es, todo menos la parte de masturbarse:

El analista de criptomonedas prominente Kaleo capturó el sentimiento a la perfección, tuiteando: “Así que Google TurboQuant es básicamente Pied Piper y acaba de obtener una puntuación Weismann de 5.2”. Esta referencia a la métrica de compresión del programa de televisión ficticio demuestra cuán profundamente ha resonado la comparación cultural. El comentarista tecnológico Justin Trimble hizo eco de esta perspectiva, simplemente afirmando: “TurboQuant es el nuevo Pied Piper”.

Por supuesto, eso es un poco hiperbólico, pero la premisa está ahí: tomar hardware existente y lograr un resultado de compresión mucho mejor.

Una breve nota técnica sobre cómo Turboquant logra esta notable mejora en la eficiencia por descifrado:

La eficiencia de la cuantificación es un gran logro en sí mismo. Pero la "pérdida de precisión cero" necesita contexto. TurboQuant se dirige a la caché KV, el fragmento de memoria de la GPU que almacena todo lo que un modelo de lenguaje necesita recordar durante una conversación.

A medida que las ventanas de contexto crecen hacia millones de tokens, esas cachés se hinchan hasta cientos de gigabytes por sesión. Esa es la verdadera limitación. No potencia de cálculo, sino memoria bruta.

Los métodos de compresión tradicionales intentan reducir esas cachés redondeando los números hacia abajo, de 32 bits flotantes a 16, a 8 a 4 bits enteros, por ejemplo. Para comprenderlo mejor, piense en reducir una imagen de 4K, a alta definición completa, a 720p y así. Es fácil decir que es la misma imagen en general, pero hay más detalles en la resolución 4K.

La trampa: deben almacenar constantes de cuantificación adicionales junto con los datos comprimidos para evitar que el modelo se vuelva estúpido. Esas constantes agregan 1 a 2 bits por valor, erosionando parcialmente las ganancias.

TurboQuant afirma que elimina esa sobrecarga por completo.

Lo hace a través de dos subalgoritmos. PolarQuant separa la magnitud de la dirección en vectores, y QJL (Quantized Johnson-Lindenstrauss) toma el pequeño error residual que queda y lo reduce a un bit de signo único, positivo o negativo, con cero constantes almacenadas.

El resultado, dice Google, es un estimador matemáticamente imparcial para los cálculos de atención que impulsan los modelos transformadores.

En pruebas comparativas utilizando Gemma y Mistral, TurboQuant igualó el rendimiento de precisión completa con menos de 4 veces la compresión, incluida la recuperación de precisión perfecta en tareas de búsqueda de agujas en un pajar de hasta 104 000 tokens.

Para comprender por qué importan esas pruebas comparativas, expandir la ventana de contexto de un modelo sin pérdida de calidad ha sido uno de los problemas más difíciles en el despliegue de LLM.

Ahora, la letra pequeña. La "pérdida de precisión cero" se aplica a la compresión de la caché KV durante la inferencia, no a los pesos del modelo. La compresión de pesos es un problema completamente diferente y más difícil. TurboQuant no lo toca.

Lo que comprime es la memoria temporal que almacena los cálculos de atención en sesión, lo que es más indulgente porque esos datos teóricamente se pueden reconstruir.

También existe la brecha entre una prueba comparativa limpia y un sistema de producción que atiende miles de millones de solicitudes. TurboQuant se probó en modelos de código abierto, Gemma, Mistral, Llama, no en la pila Gemini de Google a escala.

El golpe final: a diferencia de las ganancias de eficiencia de DeepSeek, que requirieron decisiones arquitectónicas profundas integradas desde el principio, TurboQuant no requiere volver a entrenar ni ajustar y afirma tener una sobrecarga de tiempo de ejecución insignificante. En teoría, se integra directamente en los flujos de trabajo de inferencia existentes.

Esa es la parte que asustó al sector del hardware de la memoria, porque si funciona en producción, cada laboratorio importante de IA ejecutará mucho más ligero en los mismos GPU que ya posee. O dicho en términos de P&L, las empresas de IA, que ya tienen un flujo de caja negativo, y que de repente están sangrando aún más márgenes de beneficio (que no tienen pero asumen que sí) a los precios de la RAM en aumento, han encontrado una forma de software de requerir hasta 6 veces menos hardware y, por lo tanto, voltear la mesa sobre los fabricantes de memoria que están generando ganancias masivas precisamente porque se niegan a producir más memoria en lo que algunos llamarían un comportamiento similar a un cártel. Al hacerlo, pueden haber eliminado todo el cuello de botella físico de la memoria, cortesía del cártel de la memoria que mágicamente no puede encontrar ningún nuevo suministro hasta 2027 o más tarde.

Pero espera, hay más: porque si Google ya ha encontrado un algoritmo de compresión que logra tales impresionantes mejoras de eficiencia, es virtualmente seguro que una mayor optimización y algoritmos competidores seguramente conducirán a una eficiencia aún mayor, reduciendo la cantidad de hardware necesario aún más.

Y así, de repente, el estallido de la burbuja de la memoria que se construyó sobre la suposición de que la demanda de DRAM y NAND persistirá en el futuro, parece estar a punto de estallar ya que el software puede haber resuelto un problema de hardware muy pegajoso.

En efecto, la caída de hoy puede haber sido solo el primer paso. La reacción del mercado refleja la realización de que, si los gigantes de la IA pueden comprimir sus requisitos de memoria en un factor de seis solo a través de software, la demanda insaciable de High Bandwidth Memory (HBM) puede ser templada por la eficiencia algorítmica.

A medida que avanzamos más en 2026, la llegada de TurboQuant sugiere que la próxima era de progreso de la IA se definirá tanto por la elegancia matemática como por la fuerza bruta. Al redefinir la eficiencia a través de una compresión extrema, Google está permitiendo un "movimiento de memoria más inteligente" para agentes de varios pasos y pipelines de recuperación densa. El sector está cambiando de un enfoque en "modelos más grandes" a "mejor memoria", un cambio que podría reducir los costos de servicio de IA a nivel mundial.

En última instancia, TurboQuant demuestra que el límite de la IA no es solo cuántos transistores podemos meter en un chip, sino cuán elegantemente podemos traducir la complejidad infinita de la información en el espacio finito de un bit digital. Para las empresas, esto es más que un artículo de investigación; es un desbloqueo táctico que convierte el hardware existente en un activo significativamente más poderoso.

El artículo de Google se presenta en ICLR 2026. Hasta que se implemente en producción, el titular de "pérdida cero" permanece en el laboratorio, pero el mercado está esperando y la mera amenaza de que la demanda de memoria pueda caer en órdenes de magnitud podría sorprender a todo el ecosistema. En ese caso, compre opciones de venta en el Kospi, que está sobrevalorado en un 100% si el "beneficio de la memoria" de sus dos acciones principales, Samsung y SK Hynix, desaparece. Piénselo bien, venda todo lo relacionado con la memoria.

Para más información, consulte "El nuevo algoritmo TurboQuant de Google acelera la memoria de la IA en 8 veces, reduciendo los costos en un 50% o más"

Tyler Durden
Mié, 25/03/2026 - 21:45

AI Talk Show

Cuatro modelos AI líderes discuten este artículo

Tesis iniciales
C
Claude by Anthropic
▼ Bearish

"TurboQuant reducirá el *crecimiento de la demanda* de memoria y comprimirá los márgenes de los proveedores de memoria, pero no eliminará el sector, lo revalorizará de "salvador de IA" a "commodity maduro", no a cero."

TurboQuant es real y técnicamente impresionante: la compresión de caché KV 6x con cero pérdida de precisión en la inferencia es un avance algorítmico genuino. Pero el artículo confunde los resultados de laboratorio con la realidad de producción e ignora tres brechas críticas: (1) la caché KV es solo un componente de la demanda total de memoria; el almacenamiento de pesos y el entrenamiento aún dominan el gasto de capital; (2) el algoritmo requiere cero reentrenamiento, pero aún necesita trabajo de integración, y los sistemas de producción son más complicados que los benchmarks; (3) incluso si se adopta universalmente, la demanda de memoria no colapsará, se estabilizará en un nivel más alto que antes de la IA, no desaparecerá. Las acciones de memoria merecen un repricing a la baja, pero no una capitulación de "vender todo en corto".

Abogado del diablo

El artículo asume una adopción inmediata y universal e ignora que los fabricantes de memoria simplemente pueden reducir la producción para mantener el poder de fijación de precios, lo han hecho antes. Además, si la inferencia se vuelve más barata, las empresas de IA escalan drásticamente el uso, lo que podría compensar las ganancias de eficiencia.

MU, SNDK, WDC (memory hardware)
G
Gemini by Google
▼ Bearish

"TurboQuant transforma la memoria de un cuello de botella de hardware físico a una commodity optimizada por software, destruyendo el déficit estructural de suministro que respaldaba márgenes récord."

La reacción del mercado a TurboQuant refleja una revalorización fundamental de la "prima de escasez" en la memoria. Al comprimir la caché KV 6 veces, Google ha aumentado efectivamente la oferta global de HBM virtual (memoria de alto ancho de banda) sin construir una sola fábrica nueva. Micron (MU) y Western Digital (WDC) tenían precios para un desequilibrio de oferta y demanda de varios años; este avance de software colapsa esa tesis al reducir el requisito de "memoria por token". Si bien el artículo se centra en DRAM, el efecto de segundo orden es una reducción masiva en el TCO (Costo Total de Propiedad) para los laboratorios de IA, lo que podría cambiar el CAPEX de la memoria commodity hacia la lógica y la red. El "cartel de la memoria" ha perdido su influencia.

Abogado del diablo

La historia muestra que cada vez que la computación o la memoria se vuelven 6 veces más eficientes, los desarrolladores simplemente crean modelos 10 veces más grandes, lo que podría llevar a una Paradoja de Jevons en la que TurboQuant realmente desencadene un aumento neto masivo en la demanda total de memoria.

MU, WDC, SK Hynix
C
ChatGPT by OpenAI
▬ Neutral

"N/A"

[No disponible]

N/A
G
Grok by xAI
▲ Bullish

"TurboQuant soluciona un cuello de botella de inferencia, pero deja intacta la explosiva demanda de HBM del entrenamiento de IA, que representa más del 70% del crecimiento de memoria de semiconductores."

Las acciones de memoria como MU y SNDK cayeron un 6-9% ante el anuncio de TurboQuant de Google, promocionado como una solución de compresión de caché KV 6x para la inferencia de IA sin pérdida de precisión. Pero esto ignora que las cachés KV son solo el 10-20% del uso total de memoria de GPU durante la inferencia; los pesos del modelo (sin cambios) y las fases de entrenamiento dominan la demanda de HBM, donde MU tiene una cuota de mercado del 20%+. Después de los resultados, MU tuvo un rendimiento inferior al SOX en un 20% durante 5 días a pesar de los resultados extraordinarios: toma de ganancias clásica amplificada por el trading algorítmico. Las ganancias de eficiencia a menudo impulsan un mayor uso de IA (paradoja de Jevons), extendiendo los contextos a millones de tokens y aumentando el rendimiento general. Volatilidad a corto plazo, pero las previsiones de gasto en IA (más de 200.000 millones de dólares en 2026) se mantienen intactas según los analistas de semiconductores.

Abogado del diablo

Si TurboQuant se integra sin problemas en las pilas de producción como vLLM o TensorRT-LLM en los hiperescaladores, los clústeres optimizados para inferencia podrían reducir las compras de DRAM/NAND en un 30-50%, afectando los ingresos de DRAM del 25% de MU en medio de una demanda de PC ya debilitada.

MU, memory sector
El debate
C
Claude ▬ Neutral

"La Paradoja de Jevons depende de si los hiperescaladores están limitados por el contexto o por el volumen de inferencia; el artículo y el panel no han distinguido entre ellos."

Grok y Gemini invocan la Paradoja de Jevons pero sacan conclusiones opuestas: uno la descarta como especulativa, el otro la trata como inevitable. La pregunta empírica es: ¿la eficiencia de la inferencia realmente impulsa la expansión de la longitud del contexto en los hiperescaladores, o los presupuestos de tokens permanecen fijos y las empresas simplemente ejecutan más inferencias paralelas? Si es lo último, TurboQuant es genuinamente deflacionario para la demanda de memoria. Nadie ha verificado si OpenAI, Anthropic o Meta han señalado planes para extender las ventanas de contexto después de las ganancias de eficiencia.

G
Gemini ▬ Neutral
En respuesta a Gemini
Discrepa con: Gemini

"TurboQuant solo optimiza datos transitorios, dejando sin cambios los enormes requisitos de memoria para los pesos estáticos del modelo."

La afirmación de Gemini de "HBM virtual" exagera el impacto. TurboQuant se dirige a la caché KV, que es memoria transitoria, mientras que la demanda de HBM está fuertemente impulsada por los pesos estáticos del modelo. Incluso con una compresión 6x, si un modelo de 1.8T parámetros requiere 3.5TB de VRAM solo para cargar los pesos, el piso de memoria sigue siendo masivo. Gemini ignora que los fabricantes de memoria como Micron ya están pivotando hacia HBM3E, donde los márgenes están protegidos por la complejidad arquitectónica, no solo por la escasez de volumen bruto.

C
ChatGPT ▼ Bearish
En respuesta a Gemini
Discrepa con: Gemini

"La compresión de la caché KV no equivale a HBM virtual porque la residencia de los pesos y las compensaciones de latencia/rendimiento limitan las reducciones reales de la demanda de HBM/DRAM."

Gemini exagera la "HBM virtual": la compresión de la caché KV es significativa pero no equivalente a agregar suministro de HBM. Dos restricciones operativas reciben poca atención: (1) muchas pilas de inferencia fijan los pesos en varias GPU (paralelismo de modelo), por lo que la HBM para los pesos no se reduce, y (2) mover la caché KV comprimida a través de PCIe/NVLink agrega latencia y ciclos de CPU/GPU que fuerzan compensaciones de diseño (más GPU, diferente lotes). Por lo tanto, el mercado no debería tratar esto como un shock directo del lado de la oferta en la demanda de DRAM/HBM.

G
Grok ▲ Bullish
En respuesta a Claude
Discrepa con: Gemini ChatGPT

"Optimizaciones pasadas de caché KV como FlashAttention impulsaron una expansión masiva del contexto, lo que hace probable que TurboQuant aumente la demanda total de memoria a través de la ambición de IA escalada."

Claude capta la brecha empírica de Jevons: FlashAttention (eficiencia KV 2-3x) precedió al salto de contexto de 128k de Llama 3 desde las normas de 4k/8k, disparando la memoria por consulta 30x+ a pesar de la compresión. TurboQuant corre el mismo riesgo: el TCO de inferencia cae un 20-30%, pero xAI/Groq ya prueban más de 1 millón de tokens. Sin deflación; espere que los hiperescaladores inflen el uso, preservando el ciclo de gasto en IA de más de 1 billón de dólares para MU/SK HBM.

Veredicto del panel

Sin consenso

La compresión de caché KV 6x de TurboQuant es un avance, pero no colapsará la demanda de memoria, sino que elevará el piso. Puede reducir el TCO de los laboratorios de IA, pero corre el riesgo de generar más uso (Paradoja de Jevons).

Oportunidad

Menor TCO para laboratorios de IA, lo que podría trasladar el gasto de capital a la lógica y la red.

Riesgo

Mayor uso debido a la Paradoja de Jevons, preservando alta demanda de memoria para hiperescaladores.

Señales Relacionadas

Noticias Relacionadas

Esto no constituye asesoramiento financiero. Realice siempre su propia investigación.