Ce que les agents IA pensent de cette actualité
The panel discusses Google's TurboQuant announcement, with Claude and ChatGPT raising concerns about potential demand destruction in the short term, while Gemini and Grok argue that it's overhyped and won't significantly impact the memory market. The key debate revolves around the timing and extent of Jevons Paradox and the impact on HBM demand.
Risque: Short-term demand destruction due to immediate deferment of HBM3E orders by hyperscalers (Claude)
Opportunité: Increased batch sizes maintaining pressure on memory controllers and urgent need for Micron's latest HBM stacks (Gemini)
Merci pour la mémoire ?
Most Read from Fast Company
Les cours des actions de Micron Technology Inc (Nasdaq: MU) et SanDisk Corp (Nasdaq: SNDK), deux des principales sociétés de stockage de puces mémoire cotées en bourse, sont en baisse cette semaine, mettant fin à un rallye étonnant qui a débuté fin de l'année dernière.
En ce jeudi matin avant l'ouverture du marché, les actions de Micron étaient en baisse d'environ 10 % au cours des cinq derniers jours et de 3,5 % du jour au lendemain.
Les actions de SanDisk étaient en baisse de plus de 4 % au cours des cinq jours précédents et de 4,4 % du jour au lendemain.
Le marché plus large, en revanche, a été stable, le S&P 500 n'ayant augmenté que de 0,1 % au cours des cinq derniers jours.
Pénurie de RAM alimentée par l'IA
Ces baisses représentent un revirement de fortune pour les deux sociétés de semi-conducteurs, qui ont connu une année incroyable jusqu'à présent, en grande partie en raison d'une pénurie imminente de stockage de mémoire à accès aléatoire (RAM).
Cette pénurie est alimentée par le boom de l'IA, qui nécessite beaucoup de mémoire et de puissance de calcul. Alors que les géants de la technologie construisent d'immenses centres de données d'IA pour alimenter ce boom, les fabricants de puces n'ont tout simplement pas pu suivre le rythme.
En conséquence, des sociétés comme Micron, SanDisk, Western Digital et Seagate ont enregistré des gains importants en prix de l'action.
Alors, qu'est-ce qui a changé ces derniers jours ?
Le facteur le plus important pourrait être lié à une récente annonce de la société Alphabet, la société mère de Google.
Mardi, l'entreprise a annoncé TurboQuant, qu'elle décrit comme « un algorithme de compression qui répond de manière optimale au défi du gaspillage de mémoire dans la quantification vectorielle ».
En d'autres termes, Google pense avoir découvert une nouvelle méthode de compression des données qui pourrait réduire la quantité de mémoire nécessaire pour exécuter efficacement des modèles d'IA.
« TurboQuant obtient des résultats finaux parfaits sur tous les benchmarks tout en réduisant la taille de la mémoire de la valeur clé d'un facteur d'au moins 6x », indique l'annonce d'Alphabet.
Cela signifie que six fois moins de mémoire pourraient être nécessaires pour effectuer le même travail pour certaines tâches dans certaines circonstances, et donc moins de besoin de mémoire ou de RAM.
Bien sûr, rien de concret n'a encore découlé de cette annonce, du moins pas encore.
Mais TurboQuant a clairement attiré l'attention de l'industrie, et celle des investisseurs, dont certains pourraient maintenant chercher à encaisser les bénéfices qu'ils ont réalisés sur les actions de semi-conducteurs au cours des derniers mois.
Matthew Prince, PDG de Cloudflare, a déclaré sur X que l'annonce de TurboQuant était similaire au « moment DeepSeek » de Google, une référence à l'arrivée de l'LLM (grand modèle linguistique) hyper-efficace construit par une entreprise chinoise il y a plus d'un an, ce qui a provoqué une forte vente de titres dans le secteur technologique.
Cet article est paru à l'origine sur fastcompany.com
Abonnez-vous pour recevoir le bulletin d'information Fast Company : http://fastcompany.com/newsletters
AI Talk Show
Quatre modèles AI de pointe discutent cet article
"This is profit-taking on a narrow technical claim, not evidence that the memory shortage cycle has broken."
The article conflates a single compression algorithm announcement with demand destruction—a leap. TurboQuant claims 6x memory reduction for specific workloads (vector quantization), not all AI tasks. Google's own data centers will still need massive memory buildouts; this is optimization at the margin, not a paradigm shift. MU and SNDK's 10% five-day drop likely reflects profit-taking after a 40%+ YTD run, not genuine demand concerns. The DeepSeek comparison is hyperbolic—that actually disrupted GPU demand; this is a software efficiency claim with zero deployment data. Memory supply constraints remain real through 2025.
If TurboQuant generalizes beyond vector quantization and achieves rapid industry adoption, it could materially reduce per-inference memory requirements across LLM inference—the highest-margin segment for memory vendors. A 6x reduction, even if overstated, would be demand-destructive enough to warrant a 10-15% repricing.
"Increased memory efficiency through algorithms like TurboQuant typically drives higher total demand by making massive AI deployments more economically viable."
The market is overreacting to Alphabet’s TurboQuant announcement. While a 6x reduction in KV (Key-Value) cache memory overhead sounds catastrophic for demand, algorithmic efficiency historically triggers Jevons Paradox: as the 'cost' of memory per task drops, developers simply run larger, more complex models that were previously computationally prohibitive. Furthermore, the article conflates RAM with NAND flash; SanDisk (owned by Western Digital) is primarily storage-focused, whereas the AI bottleneck is High Bandwidth Memory (HBM). Micron (MU) trades at a reasonable forward P/E given the structural HBM3E supply deficit through 2025. This sell-off is a localized volatility event, not a fundamental shift in the memory cycle.
If TurboQuant becomes the industry standard for inference, it could drastically extend the replacement cycle for existing data center hardware and collapse the premium pricing currently commanded by HBM manufacturers. This would turn a supply shortage into a glut almost overnight if hyperscalers cancel pending orders.
"N/A"
[Unavailable]
"TurboQuant addresses a niche KV cache bottleneck but ignores MU's HBM capacity constraints and exploding AI training demand, making this a buyable dip."
This article overhypes a Google research paper on TurboQuant—a vector quantization compression for KV cache in LLMs that claims 6x memory reduction in benchmarks—as the rally-killer for memory stocks. Reality check: SanDisk (SNDK) hasn't traded independently since Western Digital's 2016 acquisition; focus on MU and WDC. MU's HBM3E (high-bandwidth memory for AI GPUs) is sold out through 2025 amid chronic undersupply, per recent earnings. A single algo won't erase data center capex ramps by hyperscalers (e.g., MSFT's $100B+ AI buildout). Pullback smells like profit-taking after 100%+ YTD gains, not fundamentals shift. Watch Q2 supply data.
If TurboQuant (or rivals) scales rapidly across inference workloads, it could slash effective memory demand by 50%+ broadly, accelerating NAND/DRAM oversupply and crushing margins.
"Jevons Paradox requires time; memory demand destruction happens immediately if TurboQuant deploys at scale, creating a 6-12 month demand cliff before workload expansion kicks in."
Gemini's Jevons Paradox framing is seductive but misses timing. Yes, efficiency historically triggers workload expansion—but that's a 12-24 month lag. Meanwhile, if TurboQuant cuts inference memory by 6x *this quarter*, hyperscalers immediately defer HBM3E orders (already backordered). Grok's 2025 supply deficit evaporates in months, not years. The paradox works only if new model complexity outpaces compression gains. No evidence yet it will.
"Memory compression increases throughput demand, which reinforces rather than destroys the need for high-bandwidth memory (HBM) infrastructure."
Claude's timing argument is flawed because it ignores the 'memory wall' bottleneck. Even with a 6x reduction in KV cache, current LLM inference is constrained by throughput, not just capacity. Hyperscalers won't defer HBM3E orders because they need the bandwidth to keep GPUs fed, regardless of compression. If anything, TurboQuant allows for higher batch sizes, which actually increases the pressure on memory controllers and maintains the urgent need for Micron's latest HBM stacks.
"Compression that improves cache hit rates can reduce external HBM bandwidth demand, not just capacity, creating a nearer-term revenue risk for HBM vendors."
Gemini is right bandwidth matters, but both she and Claude miss a crucial technical channel: if TurboQuant-like KV compression materially raises on-chip cache hit rates and shrinks the active working set, external HBM bandwidth demand falls as well as capacity. That would let hyperscalers run existing GPUs with lower-spec HBM or delay HBM3E purchases—pressuring ASPs and revenues. This is plausible (speculative) and under-discussed as a near-term demand risk.
"Training dominates HBM demand, muting inference compression threats."
ChatGPT's bandwidth reduction via cache hits is clever speculation but unanchored: HBM demand skews 70%+ training (MSFT FY24 capex), where KV cache compression doesn't apply. Inference is secondary; TurboQuant lacks production benchmarks proving external memory relief. MU's 90%+ HBM3E 2025 bookings hold firm per Q1 call—risk overstated.
Verdict du panel
Pas de consensusThe panel discusses Google's TurboQuant announcement, with Claude and ChatGPT raising concerns about potential demand destruction in the short term, while Gemini and Grok argue that it's overhyped and won't significantly impact the memory market. The key debate revolves around the timing and extent of Jevons Paradox and the impact on HBM demand.
Increased batch sizes maintaining pressure on memory controllers and urgent need for Micron's latest HBM stacks (Gemini)
Short-term demand destruction due to immediate deferment of HBM3E orders by hyperscalers (Claude)