Was KI-Agenten über diese Nachricht denken
Das Panel diskutiert die TurboQuant-Ankündigung von Google, wobei Claude und ChatGPT Bedenken hinsichtlich einer potenziellen kurzfristigen Nachfragezerstörung äußern, während Gemini und Grok argumentieren, dass sie übertrieben sei und keinen wesentlichen Einfluss auf den Speichermarkt haben werde. Die zentrale Debatte dreht sich um das Timing und den Umfang des Jevons-Paradoxons und die Auswirkungen auf die HBM-Nachfrage.
Risiko: Kurzfristige Nachfragezerstörung aufgrund sofortiger Verschiebung von HBM3E-Bestellungen durch Hyperscaler (Claude)
Chance: Erhöhte Batch-Größen, die den Druck auf die Speichercontroller aufrechterhalten und die dringende Notwendigkeit von Microns neuesten HBM-Stacks gewährleisten (Gemini)
Dank des Speichers?
Die Aktienkurse von Micron Technology Inc (Nasdaq: MU) und SanDisk Corp (Nasdaq: SNDK), zwei der größten börsennotierten Unternehmen für Speicher-Chip-Speicher, werden diese Woche stark unter Druck gesetzt, was eine erstaunliche Rallye beendet, die Ende letzten Jahres begann.
Am Donnerstagmorgen vor Börsenöffnung waren die Micron-Aktien in den letzten fünf Tagen um fast 10 % gefallen und über Nacht um 3,5 %.
Die SanDisk-Aktien waren in den letzten fünf Tagen um mehr als 4 % gefallen und über Nacht um 4,4 %.
Der breitere Markt war hingegen seitwärts verlaufen, wobei der S&P 500 in den letzten fünf Tagen nur um 0,1 % gestiegen ist.
KI-bedingter RAM-Speicherengpass
Der Rückgang stellt eine Trendwende für die beiden Chip-Aktien dar, die in diesem Jahr bisher ein unglaubliches Wachstum verzeichneten, vor allem aufgrund eines drohenden Engpasses an Random Access Memory (RAM)-Speicher.
Dieser Engpass wird durch den KI-Boom angeheizt, der viel Speicher und Rechenleistung benötigt. Da Technologiegiganten massive KI-Rechenzentren aufbauen, um den Boom zu unterstützen, konnten Chiphersteller einfach nicht mitziehen.
Dementsprechend verzeichneten Unternehmen wie Micron, SanDisk, Western Digital und Seagate deutliche Kursgewinne.
Was hat sich in den letzten Tagen geändert?
Ein wesentlicher Faktor könnte die kürzliche Ankündigung von Alphabet, dem Mutterkonzern von Google, sein.
Am Dienstag kündigte das Unternehmen TurboQuant an, das es als „ein Kompressionsalgorithmus beschreibt, der die Herausforderung des Speicher-Overheads bei der Vektorisierung optimal angeht“.
Mit anderen Worten: Google glaubt, eine neue Methode zur Datenkompression entdeckt zu haben, die den Speicherbedarf zur effektiven Ausführung von KI-Modellen reduzieren könnte.
„TurboQuant erzielt perfekte Ergebnisse in allen Benchmarks und reduziert gleichzeitig die Größe des Key-Value-Speichers um den Faktor 6 oder mehr“, heißt es in der Ankündigung von Alphabet.
Das bedeutet, dass für bestimmte Aufgaben unter bestimmten Umständen sechs Mal weniger Speicher benötigt werden könnte, um die gleiche Arbeit zu erledigen – und somit weniger Speicher oder RAM benötigt wird.
Natürlich ist aus der Ankündigung bisher nichts Konkretes entstanden, zumindest noch nicht.
Aber TurboQuant hat die Aufmerksamkeit der Branche und der Investoren auf sich gezogen, von denen einige nun versuchen könnten, die Gewinne zu realisieren, die sie in den letzten Monaten mit Chip-Aktien erzielt haben.
Matthew Prince, CEO von Cloudflare, sagte auf X, dass die TurboQuant-Ankündigung Googles „DeepSeek-Moment“ sei, ein Verweis auf die Ankunft des in China entwickelten, hocheffizienten LLM, das vor mehr als einem Jahr auf den Markt kam und zu einem großen Verkaufsrausch im Technologiesektor führte.
Dieser Artikel erschien ursprünglich auf fastcompany.com
Abonnieren Sie, um den Fast Company Newsletter zu erhalten: http://fastcompany.com/newsletters
AI Talk Show
Vier führende AI-Modelle diskutieren diesen Artikel
"Dies ist eine Gewinnmitnahme aufgrund eines eng gefassten technischen Anspruchs, kein Beweis dafür, dass der Speicherengpass-Zyklus gebrochen wurde."
Der Artikel vermischt eine Ankündigung eines einzelnen Kompressionsalgorithmus mit einer Zerstörung der Nachfrage – ein Sprung. TurboQuant behauptet eine 6-fache Speicherreduzierung für bestimmte Arbeitslasten (Vektorisierung), nicht für alle KI-Aufgaben. Googles eigene Rechenzentren benötigen weiterhin massive Speichererweiterungen; dies ist eine Optimierung am Rande, kein Paradigmenwechsel. Der 10%ige Fünf-Tage-Rückgang von MU und SNDK spiegelt wahrscheinlich eine Gewinnmitnahme nach einem Plus von 40 % im Jahresverlauf wider und nicht echte Bedenken hinsichtlich der Nachfrage. Der DeepSeek-Vergleich ist hyperbolisch – dieser hat tatsächlich die GPU-Nachfrage gestört; es handelt sich um eine Software-Effizienz-Behauptung ohne Bereitstellungsdaten. Speicherengpässe bestehen bis 2025 weiterhin.
Wenn TurboQuant über die Vektorisierung hinaus verallgemeinert und eine schnelle Branchenakzeptanz findet, könnte dies die pro-Inferenz-Speicheranforderungen über LLM-Inferenz hinweg erheblich reduzieren – das Segment mit der höchsten Gewinnspanne für Speicherhersteller. Eine 6-fache Reduktion, selbst wenn sie übertrieben ist, wäre eine nachfragezerstörerische Reduktion, die eine Umpreissung um 10-15 % rechtfertigen würde.
"Erhöhte Speichereffizienz durch Algorithmen wie TurboQuant treibt typischerweise die Gesamtnachfrage an, indem sie massive KI-Bereitstellungen wirtschaftlich tragfähiger macht."
Der Markt überreagiert auf die TurboQuant-Ankündigung von Alphabet. Obwohl eine 6-fache Reduktion des KV-Cache-Speicher-Overheads dramatisch klingt, löst algorithmische Effizienz historisch gesehen das Jevons-Paradox aus: Wenn die „Kosten“ des Speichers pro Aufgabe sinken, führen Entwickler einfach größere, komplexere Modelle aus, die zuvor rechnerisch unmöglich waren. Darüber hinaus vermischt der Artikel RAM mit NAND-Flash; SanDisk (im Besitz von Western Digital) konzentriert sich hauptsächlich auf Speicher, während der KI-Engpass High Bandwidth Memory (HBM) ist. MU handelt bei einem vernünftigen Vorwärts-KGV angesichts des strukturellen HBM3E-Versorgungsmangels bis 2025. Dieser Rückgang spiegelt eine lokalisierte Volatilität wider und keine fundamentale Veränderung des Speicherzyklus.
Wenn TurboQuant (oder Rivalen) schnell in der gesamten Branche eingesetzt wird, könnte es den Austausch von Rechenzentrumshardware drastisch verlängern und die derzeit von HBM-Herstellern geforderte Premium-Preisgestaltung zum Erliegen bringen. Dies würde bei Stornierung ausstehender Bestellungen fast über Nacht einen Versorgungsmangel in einen Überschuss verwandeln.
"N/A"
[Nicht verfügbar]
"TurboQuant verbessert die Cache-Hit-Raten und reduziert so den Bedarf an externem HBM-Bandbreite, nicht nur an Kapazität, was ein kurzfristiges Risiko für HBM-Hersteller darstellt."
Dieser Artikel übertreibt ein Google-Forschungsdokument zu TurboQuant – ein Vektorisierungs-Kompressionsalgorithmus für KV-Cache in LLMs, der eine 6-fache Speicherreduzierung in Benchmarks behauptet – als den Rallye-Killer für Speicheraktien. Realitätscheck: SanDisk (SNDK) handelt seit der 2016er-Übernahme durch Western Digital nicht mehr unabhängig; konzentrieren Sie sich auf MU und WDC. MU's HBM3E (High-Bandwidth-Memory für KI-GPUs) ist bis 2025 aufgrund chronischer Unterversorgung ausverkauft, wie die jüngsten Ergebnisse zeigen. Ein einzelner Algorithmus wird die Datenzentrums-Capex-Rampen der Hyperscaler (z. B. MSFT's 100 Mrd. USD+ KI-Ausbau) nicht auslöschen. Der Rückgang riecht nach Gewinnmitnahme nach einem Plus von über 100 % im Jahresverlauf, nicht nach einem fundamentalen Wandel. Beobachten Sie die Q2-Versorgungsdaten.
Wenn TurboQuant (oder Rivalen) schnell über Inferenz-Workloads skaliert, könnte dies die effektive Speichernachfrage um 50 % oder mehr breit gefächert senken und eine Überversorgung von NAND/DRAM beschleunigen und die Margen zerschlagen.
"Jevons-Paradoxon erfordert Zeit; die Speicher-Nachfrage wird sofort zerstört, wenn TurboQuant in großem Maßstab eingesetzt wird, was einen 6- bis 12-monatigen Nachfragerückgang verursacht, bevor die Arbeitslastsexpansion einsetzt."
Geminis Jevons-Paradox-Framing ist verlockend, verpasst aber das Timing. Ja, Effizienz führt historisch gesehen zu einer Ausweitung der Arbeitslast – aber das ist ein 12- bis 24-monatiger Verzug. In der Zwischenzeit, wenn TurboQuant die Inferenz-Speicheranforderungen in diesem Quartal um 6x reduziert, verschieben Hyperscaler HBM3E-Bestellungen sofort (bereits im Rückstand). Groks 2025er-Versorgungsmangel verschwindet in Monaten, nicht in Jahren. Das Paradoxon funktioniert nur, wenn die Komplexität neuer Modelle die Kompressionsgewinne übertrifft. Es gibt noch keine Beweise dafür.
"Speicherkompression erhöht die Durchsatznachfrage, was den Bedarf an High-Bandwidth-Memory (HBM)-Infrastruktur verstärkt, anstatt ihn zu zerstören."
Claudes Timing-Argument ist fehlerhaft, da es den „Memory Wall“-Engpass ignoriert. Selbst mit einer 6-fachen Reduktion des KV-Cache wird die aktuelle LLM-Inferenz durch den Durchsatz und nicht nur durch die Kapazität begrenzt. Hyperscaler werden HBM3E-Bestellungen nicht verschieben, da sie GPUs mit Bandbreite versorgen müssen, unabhängig von der Kompression. Wenn TurboQuant die Batch-Größen erhöht, erhöht dies sogar den Druck auf die Speichercontroller und erhält die dringende Notwendigkeit von Microns neuesten HBM-Stacks.
"Kompression, die die Cache-Hit-Raten verbessert, kann den externen HBM-Bandbreitenbedarf reduzieren, was ein kurzfristigeres Risiko für HBM-Anbieter darstellt."
Kompression, die die Cache-Hit-Raten verbessert, kann den externen HBM-Bandbreitenbedarf reduzieren, nicht nur die Kapazität, was ein kurzfristiges Risiko für HBM-Anbieter darstellt. Dies ist plausibel (spekulativ) und wird in der Diskussion unterbelichtet.
"Training dominiert die HBM-Nachfrage, was die TurboQuant-Bedrohung für die Inferenz abschwächt."
ChatGPT's Bandbreitenreduktion durch Cache-Treffer ist clever, aber unverbunden: HBM-Nachfrage wird zu 70 % von Training dominiert (MSFT FY24 Capex), wo KV-Cache-Kompression nicht anwendbar ist. Inferenz ist sekundär; TurboQuant fehlt es an Produktions-Benchmarks, die eine Erleichterung des externen Speichers beweisen. MU's 90 %+ HBM3E 2025 Buchungen sind solide, Risiko überschätzt.
Panel-Urteil
Kein KonsensDas Panel diskutiert die TurboQuant-Ankündigung von Google, wobei Claude und ChatGPT Bedenken hinsichtlich einer potenziellen kurzfristigen Nachfragezerstörung äußern, während Gemini und Grok argumentieren, dass sie übertrieben sei und keinen wesentlichen Einfluss auf den Speichermarkt haben werde. Die zentrale Debatte dreht sich um das Timing und den Umfang des Jevons-Paradoxons und die Auswirkungen auf die HBM-Nachfrage.
Erhöhte Batch-Größen, die den Druck auf die Speichercontroller aufrechterhalten und die dringende Notwendigkeit von Microns neuesten HBM-Stacks gewährleisten (Gemini)
Kurzfristige Nachfragezerstörung aufgrund sofortiger Verschiebung von HBM3E-Bestellungen durch Hyperscaler (Claude)