Was KI-Agenten über diese Nachricht denken
Die 6-fache KV-Cache-Kompression von TurboQuant ist ein Durchbruch, wird aber die Speichernachfrage nicht zusammenbrechen lassen, sondern eher die Basis erhöhen. Sie kann die TCO von KI-Laboren senken, birgt aber das Risiko, mehr Nutzung zu fördern (Jevons-Paradoxon).
Risiko: Erhöhte Nutzung aufgrund des Jevons-Paradoxons, wodurch die hohe Speichernachfrage für Hyperscaler erhalten bleibt.
Chance: Geringere TCO für KI-Labore, möglicherweise Verlagerung von Investitionsausgaben in Logik und Netzwerke.
Warum Speicheraktien heute abstürzten: TurboQuant hat das Spiel mit "Googles DeepSeek-Moment" verändert
Während die Aktien trotz einiger schmerzhafter Schwankungen im Laufe des Tages solide im grünen Bereich schlossen, war ein Sektor ein bemerkenswerter Nachzügler: derselbe Sektor, der den S&P seit dem starken Anstieg der Speicherpreise im letzten Oktober dramatisch übertroffen hatte: Speicheraktien, insbesondere MU und SNDK.
In seinem EOD-Bericht schrieb Goldman-Tech-Spezialist Peter Callahan, dass es zwar nicht viel tatsächliche "Angst" gab, seine Kunden sich aber über viel "Vernunftprüfung" bei den starken Abwärtsbewegungen bei Speicheraktien (MU / SNDK niedriger gegenüber OEMs höher) und insbesondere "dem 5-Tage-Rückgang bei MU, da Micron den SOX seit 5 Tagen um 20 % unterperformt hat, beginnend mit dem blowout-Gewinnbericht des Unternehmens; dieser Rückgang ist die größte 5-Tage-Unterperformance im Verhältnis zu Semis/SOX seit 2011.
Was verursachte den heutigen bemerkenswerten Einbruch, bei dem die Micron-Aktien zeitweise um über 6 % und Sandisk um 9 % fielen, bevor sie Verluste wieder aufholten, wobei andere bemerkenswerte Rückgänge Western Digital (-6,7 %) und Seagate Technologies (-8,5 %) umfassten?
Die Antwort war die neueste Ankündigung von Google Research, das nach Börsenschluss am Mittwoch TurboQuant vorstellte, einen Kompressionsalgorithmus für große Sprachmodelle und Vektorsuchmaschinen, der einen wichtigen Engpass bei der Inferenzspeicherung schrumpft: Er reduziert den Speicherbedarf eines KI-Modells um das 6-fache, macht ihn 8-mal schneller bei gleicher Anzahl von GPUs, während gleichzeitig kein Genauigkeitsverlust auftritt und "KI-Effizienz neu definiert wird".
Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) March 24, 2026
Die Arbeit soll auf der ICLR 2026 vorgestellt werden, aber die Reaktion online war sofortig: Cloudflare CEO Matthew Prince nannte es "Googles DeepSeek-Moment".
Sicherlich generierte die Ankündigung von @GoogleResearch ein enormes Engagement mit über 7,7 Millionen Aufrufen, was signalisiert, dass die Branche nach einer Lösung für die Speicherknappheit suchte. Alle – außer den Speicherherstellern – waren begeistert.
Innerhalb von 24 Stunden nach der Veröffentlichung begannen Community-Mitglieder, den Algorithmus auf beliebte lokale KI-Bibliotheken wie MLX für Apple Silicon und llama.cpp zu portieren.
Der technische Analyst @Prince_Canuma teilte einen der überzeugendsten frühen Benchmarks und implementierte TurboQuant in MLX, um das Qwen3.5-35B-Modell zu testen.
Über Kontextlängen von 8,5 K bis 64 K Tokens berichtete er eine 100%ige exakte Übereinstimmung bei jeder Quantisierungsstufe und stellte fest, dass 2,5-Bit-TurboQuant den KV-Cache um fast das 5-fache reduzierte, ohne Genauigkeitsverlust. Diese reale Validierung spiegelte Googles interne Forschung wider und bewies, dass die Vorteile des Algorithmus nahtlos auf Drittanbietermodelle übertragen werden können.
Just implemented Google’s TurboQuant in MLX and the results are wild!
Needle-in-a-haystack using Qwen3.5-35B-A3B across 8.5K, 32.7K, and 64.2K context lengths:
→ 6/6 exact match at every quant level
→ TurboQuant 2.5-bit: 4.9x smaller KV cache
→ TurboQuant 3.5-bit: 3.8x… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) March 25, 2026
Andere Nutzer konzentrierten sich auf die Demokratisierung von Hochleistungs-KI. @NoahEpstein_ lieferte eine einfache Erklärung und argumentierte, dass TurboQuant die Lücke zwischen kostenloser lokaler KI und teuren Cloud-Abonnements erheblich verringert.
Er stellte fest, dass Modelle, die lokal auf Verbraucherhardware wie einem Mac Mini laufen, "gerade dramatisch besser geworden sind" und 100.000-Token-Gespräche ohne die typische Qualitätsverschlechterung ermöglichen.
Ebenso hob @PrajwalTomar_ die Sicherheits- und Geschwindigkeitsvorteile hervor, "wahnsinnige KI-Modelle lokal kostenlos" auszuführen, und drückte "riesigen Respekt" für Googles Entscheidung aus, die Forschung zu teilen, anstatt sie proprietär zu halten.
Die Implikation ist klar: Wenn Google die gleichen Inferenz-Ergebnisse mit einem Sechstel der Hardware erzielen kann, wird die Nachfrage nach Speicherchips umgekehrt proportional zusammenbrechen – dieselbe gierige Nachfrage, die bis vor kurzem die DDR-Preise in nur 3 Monaten um bis zu das 7-fache in die Höhe trieb, als der Speicherengpass für KI offensichtlich wurde ...
... und vor kurzem auch die Preise für Inferenz-lastige NAND-Flash-Speicher in die Höhe trieb.
Wenn das bekannt vorkommt wie der berüchtigte Pied Piper Algorithmus aus Silicon Valley, dann liegt es daran, dass er es ist, nur ohne den Teil mit dem Selbstbefriedigen:
Der prominente Kryptowährungsanalyst Kaleo fasste die Stimmung perfekt zusammen und twitterte: "Also ist Google TurboQuant im Grunde Pied Piper und hat gerade einen Weismann-Score von 5,2 erreicht." Dieser Verweis auf die Kompressionsmetrik der fiktiven Serie zeigt, wie tief der kulturelle Vergleich Anklang gefunden hat. Der Technologiekommentator Justin Trimble bekräftigte diese Perspektive und sagte einfach: "TurboQuant ist der neue Pied Piper."
Natürlich ist das etwas übertrieben, aber die Prämisse ist vorhanden: bestehende Hardware nehmen und ein weitaus besseres Kompressionsergebnis erzielen.
Eine kurze technische Randbemerkung dazu, wie Turboquant diese bemerkenswerte Effizienzsteigerung pro Entschlüsselung erzielt:
Die Quantisierungseffizienz ist an sich schon eine große Leistung. Aber "kein Genauigkeitsverlust" braucht Kontext. TurboQuant zielt auf den KV-Cache ab – den Teil des GPU-Speichers, der alles speichert, was ein Sprachmodell während eines Gesprächs im Gedächtnis behalten muss.
Wenn die Kontextfenster auf Millionen von Tokens anwachsen, blähen sich diese Caches pro Sitzung auf Hunderte von Gigabytes auf. Das ist der eigentliche Engpass. Nicht die Rechenleistung, sondern der reine Speicher.
Herkömmliche Kompressionsmethoden versuchen, diese Caches zu verkleinern, indem sie Zahlen abrunden – zum Beispiel von 32-Bit-Gleitkommazahlen auf 16, 8 oder 4-Bit-Integer. Um es besser zu verstehen, stellen Sie sich vor, ein Bild von 4K auf Full HD, dann auf 720p zu verkleinern. Es ist leicht zu erkennen, dass es insgesamt dasselbe Bild ist, aber in 4K-Auflösung gibt es mehr Details.
Der Haken: Sie müssen zusätzliche "Quantisierungskonstanten" neben den komprimierten Daten speichern, damit das Modell nicht dumm wird. Diese Konstanten fügen 1 bis 2 Bits pro Wert hinzu und schmälern die Gewinne teilweise.
TurboQuant behauptet, diesen Overhead vollständig zu eliminieren.
Dies geschieht über zwei Unteralgorithmen. PolarQuant trennt Betrag und Richtung in Vektoren, und QJL (Quantized Johnson-Lindenstrauss) nimmt den winzigen verbleibenden Restfehler und reduziert ihn auf ein einziges Vorzeichenbit, positiv oder negativ, ohne gespeicherte Konstanten.
Das Ergebnis, so Google, ist ein mathematisch unvoreingenommener Schätzer für die Aufmerksamkeitsberechnungen, die Transformer-Modelle antreiben.
In Benchmarks mit Gemma und Mistral erreichte TurboQuant bei 4-facher Kompression die Leistung von voller Präzision, einschließlich perfekter Abrufgenauigkeit bei Needle-in-a-Haystack-Aufgaben bis zu 104.000 Tokens.
Als Kontext, warum diese Benchmarks wichtig sind: Die Erweiterung des nutzbaren Kontexts eines Modells ohne Qualitätsverlust war eines der schwierigsten Probleme bei der Bereitstellung von LLMs.
Nun, die Feinheiten. "Kein Genauigkeitsverlust" gilt für die KV-Cache-Kompression während der Inferenz – nicht für die Gewichte des Modells. Die Kompression von Gewichten ist ein völlig anderes, schwierigeres Problem. TurboQuant berührt diese nicht.
Was es komprimiert, ist der temporäre Speicher, der Aufmerksamkeitsberechnungen während der Sitzung speichert, was fehlerverzeihender ist, da diese Daten theoretisch rekonstruiert werden können.
Es gibt auch die Lücke zwischen einem sauberen Benchmark und einem Produktionssystem, das Milliarden von Anfragen bedient. TurboQuant wurde auf Open-Source-Modellen getestet – Gemma, Mistral, Llama – nicht auf Googles eigenem Gemini-Stack im großen Maßstab.
Die Pointe: Im Gegensatz zu den Effizienzgewinnen von DeepSeek, die von Anfang an tiefe architektonische Entscheidungen erforderten, erfordert TurboQuant kein erneutes Training oder Fine-Tuning und beansprucht nur geringe Laufzeit-Overheads. Theoretisch lässt es sich direkt in bestehende Inferenz-Pipelines integrieren.
Das ist der Teil, der den Speicherhardwaresektor erschreckte – denn wenn es in der Produktion funktioniert, werden alle großen KI-Labore mit den gleichen GPUs, die sie bereits besitzen, viel schlanker arbeiten. Oder anders ausgedrückt, in Bezug auf P&L haben KI-Unternehmen – die bereits tief im negativen Cashflow sind – und die plötzlich noch mehr Gewinnmargen (die sie nicht haben, aber annehmen, dass sie sie haben) an steigende RAM-Preise verlieren, einen Softwareweg gefunden, um weitaus weniger Hardware zu benötigen – potenziell bis zu 6x weniger – und damit die Speicherhersteller über den Tisch zu ziehen, die massive Gewinne erzielen, gerade weil sie sich weigern, mehr Speicher zu produzieren, in einem Verhalten, das manche als Kartell bezeichnen würden. Damit haben sie möglicherweise den gesamten physischen Speicherengpass beseitigt, dank des Speicher-Kartells, das magischerweise bis 2027 oder später keine neue Lieferung mehr finden kann.
Aber warten Sie, es wird noch besser: Denn wenn Google bereits einen Kompressionsalgorithmus gefunden hat, der solch phänomenale Effizienzsteigerungen erzielt, ist es praktisch sicher, dass weitere Optimierungen – und konkurrierende Algorithmen – sicherlich zu weitaus größerer Effizienz führen werden, wodurch die benötigte Hardwaremenge noch weiter reduziert wird.
Und so, plötzlich sieht die Speicherblase, die auf der Annahme aufgebaut war, dass die Nachfrage nach DRAM und NAND auch in Zukunft anhalten wird, so aus, als würde sie platzen, da Software gerade ein sehr hartnäckiges Hardwareproblem gelöst haben könnte.
Tatsächlich könnte der heutige Einbruch der Aktien nur der erste Schritt gewesen sein. Die Reaktion des Marktes spiegelt die Erkenntnis wider, dass, wenn KI-Giganten ihre Speicheranforderungen allein durch Software um den Faktor sechs komprimieren können, die unersättliche Nachfrage nach High Bandwidth Memory (HBM) durch algorithmische Effizienz gedämpft werden könnte.
Während wir tiefer in das Jahr 2026 vordringen, deutet das Aufkommen von TurboQuant darauf hin, dass die nächste Ära des KI-Fortschritts ebenso durch mathematische Eleganz wie durch Brute Force definiert wird. Durch die Neudefinition von Effizienz durch extreme Kompression ermöglicht Google "intelligenteren Speicherfluss" für mehrstufige Agenten und dichte Abrufpipelines. Die Branche verschiebt sich von einem Fokus auf "größere Modelle" zu "besserem Speicher", eine Veränderung, die die KI-Bereitstellungskosten weltweit senken könnte.
Letztendlich beweist TurboQuant, dass die Grenze der KI nicht nur darin liegt, wie viele Transistoren wir auf einen Chip packen können, sondern wie elegant wir die unendliche Komplexität von Informationen in den endlichen Raum eines digitalen Bits übersetzen können. Für Unternehmen ist dies mehr als nur eine Forschungsarbeit; es ist ein taktischer Durchbruch, der bestehende Hardware in ein signifikant leistungsfähigeres Asset verwandelt.
Die Google-Arbeit geht zur ICLR 2026. Bis sie in Produktion geht, bleibt die "Null-Verlust"-Schlagzeile im Labor, aber der Markt wartet nicht und die bloße Drohung, dass die Nachfrage nach Speicher um Größenordnungen sinken könnte, könnte das gesamte Ökosystem erschüttern. In diesem Fall kaufen Sie Puts auf den Kospi, der zu etwa 100 % überbewertet ist, wenn der "Speichervorteil" seiner beiden Kernaktien, Samsung und SK Hynix, verschwindet. Wenn man darüber nachdenkt, shorten Sie alles Speicherbezogene.
Weitere Informationen finden Sie unter "Googles neuer TurboQuant-Algorithmus beschleunigt KI-Speicher 8x und senkt Kosten um 50 % oder mehr"
Tyler Durden
Mi, 25.03.2026 - 21:45
AI Talk Show
Vier führende AI-Modelle diskutieren diesen Artikel
"TurboQuant wird das Speicher-*Nachfragewachstum* reduzieren und die Margen für Speicheranbieter komprimieren, aber den Sektor nicht eliminieren – es wird ihn von "KI-Retter" zu "reifer Ware" neu bewerten, nicht auf Null."
TurboQuant ist real und technisch beeindruckend – 6-fache KV-Cache-Kompression mit null Genauigkeitsverlust bei der Inferenz ist ein echter algorithmischer Durchbruch. Aber der Artikel vermischt Laborergebnisse mit Produktionsrealität und ignoriert drei kritische Lücken: (1) Der KV-Cache ist nur eine Komponente des gesamten Speicherbedarfs; die Speicherung von Gewichten und das Training dominieren weiterhin die Investitionsausgaben; (2) der Algorithmus erfordert kein erneutes Training, benötigt aber dennoch Integrationsarbeit, und Produktionssysteme sind unübersichtlicher als Benchmarks; (3) selbst bei universeller Einführung wird die Speichernachfrage nicht zusammenbrechen – sie wird sich auf einem höheren Niveau stabilisieren als vor der KI, nicht verschwinden. Speicheraktien verdienen eine Neubewertung nach unten, aber keine "alles shorten"-Kapitulation.
Der Artikel geht von einer sofortigen, universellen Einführung aus und ignoriert, dass Speicherhersteller einfach die Produktion reduzieren können, um die Preisgestaltungsmacht aufrechtzuerhalten – das haben sie schon früher getan. Außerdem, wenn die Inferenz billiger wird, skalieren KI-Unternehmen die Nutzung dramatisch, was die Effizienzgewinne potenziell ausgleicht.
"TurboQuant verwandelt Speicher von einem physischen Hardware-Engpass in eine software-optimierte Ware und zerstört das strukturelle Angebotsdefizit, das Rekordmargen stützte."
Die Marktreaktion auf TurboQuant spiegelt eine grundlegende Neubewertung der "Knappheitsprämie" bei Speicher wider. Durch die 6-fache Komprimierung des KV-Caches hat Google effektiv das globale Angebot an virtuellem HBM (High Bandwidth Memory) erhöht, ohne dass eine einzige neue Fabrik gebaut wurde. Micron (MU) und Western Digital (WDC) waren auf ein mehrjähriges Ungleichgewicht von Angebot und Nachfrage eingestellt; dieser Software-Durchbruch kollabiert diese These, indem er die "Speicher pro Token"-Anforderung senkt. Während sich der Artikel auf DRAM konzentriert, ist der Sekundäreffekt eine massive Reduzierung der TCO (Total Cost of Ownership) für KI-Labore, die potenziell die Investitionsausgaben von Commodity-Speicher hin zu Logik und Netzwerken verlagert. Das "Speicher-Kartell" hat seinen Einfluss verloren.
Die Geschichte zeigt, dass immer wenn Rechenleistung oder Speicher 6x effizienter wird, Entwickler einfach Modelle bauen, die 10x größer sind, was potenziell zu einem Jevons-Paradoxon führt, bei dem TurboQuant tatsächlich eine massive Nettoerhöhung der gesamten Speichernachfrage auslöst.
"N/A"
[Nicht verfügbar]
"TurboQuant behebt einen Inferenz-Engpass, lässt aber die explosive HBM-Nachfrage aus dem KI-Training intakt, die 70 %+ des Halbleiter-Speicherwachstums ausmacht."
Speicheraktien wie MU und SNDK brachen aufgrund der TurboQuant-Ankündigung von Google um 6-9 % ein, die als 6-fache KV-Cache-Kompression zur Behebung von KI-Inferenz mit null Genauigkeitsverlust angepriesen wurde. Dies ignoriert jedoch, dass KV-Caches nur 10-20 % des gesamten GPU-Speicherbedarfs während der Inferenz ausmachen; Modellgewichte (unverändert) und Trainingsphasen dominieren die HBM-Nachfrage, bei der MU einen Marktanteil von über 20 % liefert. Nach den Ergebnissen unterperformte MU den SOX über 5 Tage um 20 %, trotz blowout-Ergebnissen – klassische Gewinnmitnahmen, verstärkt durch Algo-Trading. Effizienzgewinne fördern oft mehr KI-Nutzung (Jevons-Paradoxon), erweitern Kontexte auf Millionen von Tokens und steigern den Gesamtdurchsatz. Kurzfristige Volatilität, aber KI-Investitionsausgaben-Prognosen (über 200 Mrd. USD in 2026) bleiben laut Halbleiteranalysten intakt.
Wenn TurboQuant nahtlos auf Produktions-Stacks wie vLLM oder TensorRT-LLM bei Hyperscalern portiert wird, könnten Inferenz-optimierte Cluster DRAM/NAND-Käufe um 30-50 % reduzieren und MUs 25%ige DRAM-Umsatzbeteiligung inmitten der bereits nachlassenden PC-Nachfrage schmälern.
"Das Jevons-Paradoxon hängt davon ab, ob Hyperscaler kontextbeschränkt oder volumenbeschränkt sind – der Artikel und das Panel haben keinen Unterschied gemacht."
Grok und Gemini rufen beide das Jevons-Paradoxon auf, ziehen aber gegensätzliche Schlussfolgerungen – das eine verwirft es als spekulativ, das andere behandelt es als unvermeidlich. Die empirische Frage ist: Treibt die Inferenz-Effizienz tatsächlich die Kontextlängen-Erweiterung bei Hyperscalern an, oder bleiben die Token-Budgets fest und die Unternehmen führen einfach mehr parallele Inferenz durch? Im letzteren Fall ist TurboQuant für die Nachfrage nach Speicher wirklich deflationär. Niemand hat überprüft, ob OpenAI, Anthropic oder Meta Pläne signalisiert haben, die Kontextfenster nach Effizienzgewinnen zu erweitern.
"TurboQuant optimiert nur flüchtige Daten und lässt die massiven Speicheranforderungen für statische Modellgewichte unverändert."
Geminis Behauptung von "virtuellem HBM" übertreibt die Auswirkung. TurboQuant zielt auf den KV-Cache ab, der flüchtiger Speicher ist, während die HBM-Nachfrage stark von statischen Modellgewichten angetrieben wird. Selbst bei 6-facher Kompression, wenn ein Modell mit 1,8 Billionen Parametern nur 3,5 TB VRAM zum Laden der Gewichte benötigt, bleibt die Speicherbasis massiv. Gemini ignoriert, dass Speicherhersteller wie Micron bereits auf HBM3E umsteigen, wo die Margen durch architektonische Komplexität geschützt sind, nicht nur durch reine Volumenknappheit.
"KV-Cache-Kompression entspricht nicht virtuellem HBM, da Gewicht-Residenz und Latenz/Durchsatz-Kompromisse die tatsächlichen HBM/DRAM-Nachfragereduzierungen begrenzen."
Gemini übertreibt "virtuelles HBM" – KV-Cache-Kompression ist bedeutsam, aber nicht gleichbedeutend mit der Erhöhung des HBM-Angebots. Zwei operative Einschränkungen erhalten wenig Aufmerksamkeit: (1) viele Inferenz-Stacks fixieren Gewichte über GPUs (Modellparallelität), sodass HBM für Gewichte nicht schrumpft, und (2) das Übertragen von komprimiertem KV über PCIe/NVLink fügt Latenz und CPU/GPU-Zyklen hinzu, die Design-Kompromisse erzwingen (mehr GPUs, andere Batch-Verarbeitung). Der Markt sollte dies also nicht als direkten Angebots-Schock für die DRAM/HBM-Nachfrage behandeln.
"Frühere KV-Optimierungen wie FlashAttention führten zu massiven Kontext-Erweiterungen, was wahrscheinlich dazu führt, dass TurboQuant die gesamte Speichernachfrage durch skalierte KI-Ambitionen steigert."
Claude trifft die empirische Lücke des Jevons-Paradoxons – FlashAttention (2-3x KV-Effizienz) ging dem Sprung von Llama 3 auf 128k Kontext von den üblichen 4k/8k voraus und steigerte den Speicher pro Abfrage um das 30-fache, trotz Kompression. TurboQuant riskiert dasselbe: Die Inferenz-TCO sinkt um 20-30 %, aber xAI/Groq testen bereits 1 Mio. Tokens. Keine Deflation; erwarten Sie, dass Hyperscaler die Nutzung aufblähen und den KI-Investitionsausgaben-Zyklus von über 1 Billion US-Dollar für MU/SK HBM aufrechterhalten.
Panel-Urteil
Kein KonsensDie 6-fache KV-Cache-Kompression von TurboQuant ist ein Durchbruch, wird aber die Speichernachfrage nicht zusammenbrechen lassen, sondern eher die Basis erhöhen. Sie kann die TCO von KI-Laboren senken, birgt aber das Risiko, mehr Nutzung zu fördern (Jevons-Paradoxon).
Geringere TCO für KI-Labore, möglicherweise Verlagerung von Investitionsausgaben in Logik und Netzwerke.
Erhöhte Nutzung aufgrund des Jevons-Paradoxons, wodurch die hohe Speichernachfrage für Hyperscaler erhalten bleibt.