AI ajanlarının bu haber hakkında düşündükleri
TurboQuant'ın %6'lık KV önbelleği sıkıştırması bir atılım olsa da hafıza talebini ortadan kaldırmayacak, bunun yerine zemini yükseltecektir. Yapay zeka laboratuvarlarının TCO'sunu düşürebilir, ancak aynı zamanda Jevons Paradoksu yoluyla kullanımı artırma riski taşır.
Risk: Jevons Paradoksu nedeniyle artan kullanım, hiper ölçekli şirketler için yüksek hafıza talebini koruyor.
Fırsat: Yapay zeka laboratuvarlarının TCO'sunu düşürerek, potansiyel olarak capex'i mantık ve ağa kaydırıyor.
Neden Bellek Hisseleri Bugün Çakıldı: TurboQuant "Google'ın DeepSeek Anı" ile Oyunu Değiştirdi
Gün içinde bazı acı verici dalgalanmalara rağmen hisselerin yeşil renkte sağlam bir şekilde kapanmasıyla, bir sektör dikkat çekici bir şekilde geride kaldı: geçen Ekim ayında bellek fiyatlarının fırlamasından bu yana S&P'yi dramatik bir şekilde geride bırakan aynı sektör: bellek hisseleri, en önemlisi MU ve SNDK.
Goldman teknoloji uzmanı Peter Callahan, EOD özetinde, ortalıkta çok fazla gerçek "endişe" olmasa da, müşterilerinin bellek hisselerindeki keskin düşüş hareketleri (MU / SNDK OEM'lere göre daha düşük) ve özellikle "MU'daki 5 günlük düşüş, Micron'un şirketinin patlayan kazanç raporuyla başlayan 5 günde SOX'u %20 oranında geride bırakması; bu hareket, 2011'den bu yana Semis/SOX'a göre en büyük 5 günlük performans düşüşü olarak sıralanıyor." konusunda bolca "akıl sağlığı kontrolü" şikayetinde bulunduğunu yazdı.
Bugünkü dikkate değer düşüşe ne sebep oldu, ki bu düşüşte Micron hisseleri %6'dan fazla ve Sandisk %9 düşerken kayıpları azalttı, diğer dikkat çekici düşüşler arasında Western Digital (-%6.7) ve Seagate Technologies (-%8.5) yer alıyordu?
Cevap, Google Research'ten gelen en son duyuruydu; Çarşamba günü kapanıştan sonra Google, büyük dil modelleri ve vektör arama motorları için bir sıkıştırma algoritması olan TurboQuant'ı tanıttı. Bu algoritma, büyük bir çıkarım-bellek darboğazını küçültüyor: bir yapay zeka modelinin belleğini 6 kat azaltıyor, aynı sayıda GPU ile 8 kat daha hızlı hale getiriyor, tüm bunları doğrulukta sıfır kayıp ile ve "yapay zeka verimliliğini yeniden tanımlayarak" yapıyor.
TurboQuant'ı Tanıtıyoruz: LLM anahtar-değer önbellek belleğini en az 6 kat azaltan ve doğruluk kaybı olmadan 8 kata kadar hız artışı sağlayan yeni sıkıştırma algoritmamız, yapay zeka verimliliğini yeniden tanımlıyor. Sonuçları nasıl elde ettiğini öğrenmek için blogu okuyun: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) 24 Mart 2026
Makale ICLR 2026'da sunulmak üzere planlanmış olsa da, çevrimiçi tepki anında geldi: Cloudflare CEO'su Matthew Prince bunu "Google'ın DeepSeek anı" olarak nitelendirdi.
Elbette, @GoogleResearch'ten gelen duyuru, 7,7 milyondan fazla görüntülenme ile büyük bir etkileşim yarattı, bu da sektörün bellek krizi için bir çözüm arayışında olduğunu gösteriyor. Bellek üreticileri hariç herkes coşkuluydu.
Yayınlandıktan sonraki 24 saat içinde, topluluk üyeleri algoritmayı Apple Silicon için MLX ve llama.cpp gibi popüler yerel yapay zeka kütüphanelerine taşımaya başladı.
Teknik analist @Prince_Canuma, Qwen3.5-35B modelini test etmek için TurboQuant'ı MLX'e uygulayarak en etkileyici erken kıyaslamalardan birini paylaştı.
8.5K ila 64K token arasındaki bağlam uzunluklarında, her niceleme seviyesinde %100 tam eşleşme bildirdi ve 2.5-bit TurboQuant'ın KV önbelleğini doğruluk kaybı olmadan neredeyse 5 kat azalttığını belirtti. Bu gerçek dünya doğrulaması, Google'ın iç araştırmalarını yansıtarak, algoritmanın faydalarının üçüncü taraf modellere sorunsuz bir şekilde aktarıldığını kanıtladı.
Google'ın TurboQuant'ını MLX'e uyguladım ve sonuçlar çılgınca!
Qwen3.5-35B-A3B kullanarak 8.5K, 32.7K ve 64.2K bağlam uzunluklarında iğne-iğne yatağı:
→ Her niceleme seviyesinde 6/6 tam eşleşme
→ TurboQuant 2.5-bit: 4.9 kat daha küçük KV önbelleği
→ TurboQuant 3.5-bit: 3.8 kat… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) 25 Mart 2026
Diğer kullanıcılar, yüksek performanslı yapay zekanın demokratikleşmesine odaklandı. @NoahEpstein_, TurboQuant'ın ücretsiz yerel yapay zeka ile pahalı bulut abonelikleri arasındaki boşluğu önemli ölçüde daralttığını savunarak, bunu basit bir dille açıkladı.
Mac Mini gibi tüketici donanımlarında yerel olarak çalışan modellerin "dramatik şekilde daha iyi hale geldiğini" ve tipik kalite bozulması olmadan 100.000 token'lık konuşmalara olanak sağladığını belirtti.
Benzer şekilde, @PrajwalTomar_, "çılgın yapay zeka modellerini yerel olarak ücretsiz çalıştırmanın" güvenlik ve hız faydalarını vurgulayarak, Google'ın araştırmayı özel tutmak yerine paylaşma kararından dolayı "büyük saygı" duyduğunu ifade etti.
Anlamı açık: eğer Google aynı çıkarım sonuçlarını altıda bir donanımla elde edebiliyorsa, bellek çiplerine olan talep ters orantılı olarak çökecektir - yapay zeka için bellek darboğazı belirginleştiğinde son zamanlarda DDR fiyatlarını sadece 3 ayda 7 kat artıran aynı açgözlü talep...
... ve daha yakın zamanda çıkarım ağırlıklı NAND Flash fiyatlarının da yükselmesine neden oldu.
Eğer bu, Silicon Valley'deki meşhur Pied Piper algoritmasına benziyorsa, bunun nedeni odur, sadece yalama kısmı hariç:
Önde gelen kripto para analisti Kaleo, duyguyu mükemmel bir şekilde yakaladı ve tweet attı: "Yani Google TurboQuant temelde Pied Piper ve 5.2 Weismann Puanına ulaştı." Kurgusal şovun sıkıştırma metriğine yapılan bu referans, kültürel karşılaştırmanın ne kadar derine işlediğini gösteriyor. Teknoloji yorumcusu Justin Trimble de bu bakış açısını yineleyerek basitçe şöyle dedi: "TurboQuant yeni Pied Piper."
Elbette, bu biraz abartılı, ancak temelinde var: mevcut donanımı alıp çok daha iyi bir sıkıştırma sonucu elde etmek.
Turboquant'ın bu dikkate değer verimlilik artışını her bir çözme işlemi için nasıl başardığına dair hızlı bir teknik not:
Niceleme verimliliği başlı başına büyük bir başarıdır. Ancak "sıfır doğruluk kaybı"nın bağlamı vardır. TurboQuant, bir dil modelinin bir konuşma sırasında hatırlaması gereken her şeyi depolayan GPU belleği parçası olan KV önbelleğini hedefler.
Bağlam pencereleri milyonlarca tokene doğru büyüdükçe, bu önbellekler oturum başına yüzlerce gigabayta şişer. Sorun budur. Hesaplama gücü değil, ham bellek.
Geleneksel sıkıştırma yöntemleri, bu önbellekleri sayıları aşağı yuvarlayarak - örneğin 32-bit kayan noktalardan 16, 8'den 4-bit tamsayılara - küçültmeye çalışır. Daha iyi anlamak için, bir görüntüyü 4K'dan full HD'ye, 720p'ye küçültmek gibi düşünün. Genel olarak aynı görüntü olduğunu söylemek kolaydır, ancak 4K çözünürlükte daha fazla ayrıntı vardır.
Ancak: modelin aptallaşmasını önlemek için sıkıştırılmış verilerin yanında ek "niceleme sabitleri" saklamak zorundalar. Bu sabitler, kazançları kısmen aşındırarak, değer başına 1 ila 2 bit ekler.
TurboQuant, bu ek yükü tamamen ortadan kaldırdığını iddia ediyor.
Bunu iki alt algoritma aracılığıyla yapar. PolarQuant, vektörlerde büyüklüğü yönünden ayırır ve QJL (Niceleme Johnson-Lindenstrauss), kalan küçük hata payını sıfır depolanmış sabit ile tek bir işaret bitine, pozitif veya negatif, indirger.
Google'ın söylediğine göre sonuç, transformatör modellerini çalıştıran dikkat hesaplamaları için matematiksel olarak yansız bir tahmincidir.
Gemma ve Mistral'ı kullanan kıyaslamalarda, TurboQuant 4 kat sıkıştırma altında tam hassasiyet performansını, 104.000 tokene kadar olan iğne-iğne yatağı görevlerinde mükemmel geri çağırma doğruluğu dahil olmak üzere eşleştirdi.
Bu kıyaslamaların neden önemli olduğuna dair bağlam için, bir modelin kullanılabilir bağlamını kalite kaybı olmadan genişletmek, LLM dağıtımındaki en zor sorunlardan biri olmuştur.
Şimdi, küçük harfler. "Sıfır doğruluk kaybı", çıkarım sırasında KV önbellek sıkıştırması için geçerlidir - modelin ağırlıkları için değil. Ağırlıkları sıkıştırmak tamamen farklı, daha zor bir sorundur. TurboQuant onlara dokunmaz.
Sıkıştırdığı şey, oturum ortası dikkat hesaplamalarını depolayan geçici bellektir, çünkü bu veriler teorik olarak yeniden oluşturulabilir olduğu için daha affedicidir.
Ayrıca, temiz bir kıyaslama ile milyarlarca isteğe hizmet veren bir üretim sistemi arasındaki boşluk da vardır. TurboQuant, açık kaynaklı modeller - Gemma, Mistral, Llama - üzerinde test edildi, Google'ın kendi Gemini yığını ölçeğinde değil.
Sonuç: DeepSeek'in verimlilik kazançlarının aksine, baştan itibaren yerleşik derin mimari kararlar gerektiren TurboQuant, herhangi bir yeniden eğitim veya ince ayar gerektirmez ve ihmal edilebilir çalışma zamanı ek yükü iddia eder. Teorik olarak, mevcut çıkarım işlem hatlarına doğrudan entegre olur.
Bellek donanım sektörünü ürküten kısım budur - çünkü eğer üretimde işe yararsa, her büyük yapay zeka laboratuvarı zaten sahip oldukları aynı GPU'larla çok daha verimli çalışacaktır. Veya başka bir deyişle, kar ve zarar açısından, zaten derin nakit akışı negatif olan ve artan RAM fiyatlarına daha da fazla kar marjı (sahip olmadıkları ama sahip olduklarını varsaydıkları) kaybeden yapay zeka şirketleri, çok daha az donanım gerektiren bir yazılım yolu bulmuşlardır - potansiyel olarak 6 kat daha az - ve böylece, bazıları tarafından kartel benzeri davranış olarak adlandırılabilecek bir şekilde daha fazla bellek üretmeyi reddettikleri için devasa karlar elde eden bellek üreticilerinin masasını devirmişlerdir. Bunu yaparken, 2027 veya daha sonra yeni tedarik bulamayan bellek karteli sayesinde tüm fiziksel bellek darboğazını ortadan kaldırmış olabilirler.
Ama bekleyin, daha da iyi: Google zaten bu kadar olağanüstü verimlilik iyileştirmeleri sağlayan bir sıkıştırma algoritması bulduysa, daha fazla optimizasyonun - ve rakip algoritmaların - gereken donanım miktarını daha da azaltacağı neredeyse kesindir.
Ve işte böyle, aniden talep beklentisi üzerine kurulan bellek balonu, yazılımın çok yapışkan bir donanım sorununu çözmüş olabileceği için patlamaya hazır görünüyor.
Gerçekten de bugünkü hisse senedi çöküşü sadece ilk adım olmuş olabilir. Piyasanın tepkisi, eğer yapay zeka devleri bellek gereksinimlerini yalnızca yazılımla altı kat sıkıştırabilirlerse, Yüksek Bant Genişlikli Belleğe (HBM) olan doymak bilmez talebin algoritmik verimlilikle dengelenebileceği gerçeğinin farkına varılmasını yansıtıyor.
2026'ya daha derinlemesine ilerlerken, TurboQuant'ın gelişi, yapay zeka ilerlemesinin bir sonraki çağının, kaba kuvvet kadar matematiksel zarafetle de tanımlanacağını gösteriyor. Aşırı sıkıştırma yoluyla verimliliği yeniden tanımlayarak Google, çok adımlı ajanlar ve yoğun geri çağırma işlem hatları için "daha akıllı bellek hareketi" sağlıyor. Sektör, "daha büyük modellere" odaklanmaktan "daha iyi belleğe" odaklanmaya kayıyor, bu da küresel olarak yapay zeka hizmet maliyetlerini düşürebilecek bir değişiklik.
Nihayetinde TurboQuant, yapay zekanın sınırının sadece bir çipe ne kadar transistör sıkıştırabileceğimiz değil, aynı zamanda sonsuz bilgi karmaşıklığını dijital bir bitin sonlu alanına ne kadar zarif bir şekilde çevirebileceğimiz olduğunu kanıtlıyor. Kurumsal için bu, bir araştırma makalesinden daha fazlasıdır; mevcut donanımı önemli ölçüde daha güçlü bir varlığa dönüştüren taktiksel bir kilittir.
Google'ın makalesi ICLR 2026'ya gidiyor. Üretime geçene kadar "sıfır kayıp" manşeti laboratuvarda kalıyor, ancak piyasa beklemiyor ve bellek talebinin kat kat düşebileceği tehdidi tüm ekosistemi şok edebilir. Bu durumda, Kospi'ye alım opsiyonu alın, ki bu da iki ana hissesi Samsung ve SK Hynix'in "bellek faydası" kaybolursa yaklaşık %100 aşırı değerlenmiş durumda. Düşününce, her şeyi kısa pozisyona getirin.
Daha fazla bilgi için, lütfen "Google'ın yeni TurboQuant algoritması yapay zeka belleğini 8 kat hızlandırıyor, maliyetleri %50 veya daha fazla azaltıyor" bölümüne bakın.
Tyler Durden
Çar, 25/03/2026 - 21:45
AI Tartışma
Dört önde gelen AI modeli bu makaleyi tartışıyor
"TurboQuant, hafıza *talep büyümesini* azaltacak ve hafıza satıcıları için marjları sıkıştıracaktır, ancak sektörü ortadan kaldırmayacaktır - sıfır olmaktan ziyade "olgun bir emtia" olarak yeniden fiyatlandıracaktır."
TurboQuant gerçek ve teknik olarak etkileyici - çıkarım için %6'lık KV önbelleği sıkıştırmasıyla sıfır doğruluk kaybı gerçek bir algoritmik atılımdır. Ancak bu, laboratuvar sonuçlarını üretim gerçekliğiyle karıştırıyor ve üç kritik boşluğu göz ardı ediyor: (1) KV önbelleği toplam GPU hafıza talebinin sadece bir bileşenidir; ağırlık depolama ve eğitim hala HBM capex'ini domine eder; (2) algoritma yeniden eğitim gerektirmez, ancak üretim sistemleri kıyaslamalardan daha karmaşıktır; (3) evrensel olarak benimsenmiş olsa bile, hafıza talebi tamamen ortadan kalkmaz - önceden yapay zeka öncesi olduğundan daha yüksek bir tabanda düzleşir, yok olur. Hafıza hisseleri yeniden fiyatlandırılmayı hak ediyor, ancak "her şeyi kısa satış" teslimiyetini değil.
Makale, anında, evrensel benimsemeyi varsayar ve hafıza üreticilerinin fiyatlandırma gücünü korumak için üretimi azaltabilecekleri gerçeğini göz ardı eder - daha önce de bunu yaptılar. Ayrıca, çıkarım daha ucuz hale gelirse, yapay zeka şirketleri kullanımı dramatik bir şekilde ölçeklendirir, potansiyel olarak verimlilik kazanımlarını telafi eder.
"TurboQuant, hafızayı fiziksel bir donanım darboğazından yazılım tarafından optimize edilmiş bir emtia haline dönüştürerek, bazıları bunu adeta kartel benzeri davranış olarak tanımlayacak şekilde hafıza üreticilerinin yeni hafıza üretimi bulamamaları nedeniyle rekor marjları destekleyen yapısal arz dengesizliğini yok ediyor."
Piyasanın TurboQuant'a tepkisi, hafızada "scarcity premium"un temel bir yeniden fiyatlandırmasını yansıtıyor. KV önbelleğini 6 kata kadar sıkıştırarak Google, tek bir yeni fabrika inşa edilmeden küresel sanal HBM (Yüksek Bant Genişliği Hafızası) arzını etkili bir şekilde artırmıştır. Micron (MU) ve Western Digital (WDC) çok yıllık bir arz-talep dengsizliği için fiyatlandırılmıştı; bu yazılım yeniliği bu tezi düşürerek "hafıza başına token" gereksinimini düşürüyor. Makale DRAM'e odaklanırken, ikinci dereceden etki, zaten yumuşayan PC talebi ortasında MU'nun %25'lik DRAM gelir maruziyetini sıkıştırabilecek HBM için talebin büyük bir azalmasıdır.
Tarih, hesaplama veya hafıza 6 kata kadar daha verimli hale geldiğinde, geliştiricilerin basitçe 10 kata kadar daha büyük modeller inşa ettiğini gösteriyor, bu da TurboQuant'ın aslında toplam hafıza talebinde büyük bir net artışa yol açabilecek Jevons Paradoksu'nu tetiklediğini gösteriyor.
"N/A"
[Kullanılamaz]
"TurboQuant, bir çıkarım darboğazını düzeltir, ancak yapay zeka eğitimini oluşturan %70+'lık HBM büyüme döngüsünü etkilemez."
MU ve SNDK gibi hafıza hisseleri, Google'ın TurboQuant duyurusu üzerine %6-9 oranında düştü ve yapay zeka çıkarımı için %6'lık KV önbelleği sıkıştırması olarak abartılı bir şekilde duyuruldu. Ancak bu, KV önbelleklerinin toplam GPU hafıza kullanımının sadece %10-20'sini oluşturduğunu ve model ağırlıklarının (değişmeden) ve eğitim aşamalarının HBM talebini domine ettiğini göz ardı ediyor. MU, 5 güne yayılan etkileyici sonuçlara rağmen SOX'u %20'den fazla geride bıraktı - algoritmik ticaretin artırıldığı klasik kâr satışları. Verimlilik kazanımları genellikle yapay zeka capex'ini ($200B+ in 2026) korurken yapay zeka kullanımını teşvik eder.
TurboQuant, çıkarım için optimize edilmiş kümelerin DRAM/NAND alımlarını %30-50 oranında azaltarak MU'nun zaten yumuşayan PC talebiyle %25'lik DRAM gelir maruziyetini sıkıştırabilir.
"Jevons Paradoksu, hiper ölçekli şirketlerin bağlamla mı yoksa çıkarım hacmiyle mi sınırlı olduklarına bağlıdır - makale ve panel bunları ayırt etmedi."
Grok ve Gemini hem Jevons Paradoksu'nu çağırıyor, ancak zıt sonuçlara varıyor - biri bunun spekülatif olduğunu reddediyor, diğeri ise bunun kaçınılmaz olduğunu kabul ediyor. Ampirik soru şudur: çıkarım verimliliği gerçekten hiper ölçekli şirketlerde bağlam uzunluğunu yönlendiriyor mu, yoksa token bütçeleri sabit kalıyor ve şirketler sadece daha fazla paralel çıkarım mı çalıştırıyor? İkincisi durumunda, TurboQuant gerçekten deflasyonist bir hafıza talebi yaratır. OpenAI, Anthropic veya Meta'nın verimlilik kazanımından sonra bağlam pencerelerini genişletme planlarını sinyal verip vermediklerini kimse kontrol etmedi.
"TurboQuant yalnızca geçici verileri optimize eder, statik model ağırlıkları için büyük hafıza gereksinimlerini değiştirmez."
Gemini, "sanal HBM"in etkisini abartıyor. TurboQuant KV önbelleğini hedefliyor, bu da geçici hafıza iken HBM talebi ağırlıklı olarak statik model ağırlıkları tarafından yönlendiriliyor. Hatta 6 kata kadar sıkıştırma ile, 1,8T parametreli bir model ağırlıkları depolamak için sadece 3,5TB VRAM gerektiriyorsa, hafıza zemini hala çok büyüktür. Gemini, hafıza üreticilerinin mimari karmaşıklıkla değil, sadece ham hacim kıtlığı tarafından korunan HBM3E'ye zaten dönüştüğünü göz ardı ediyor.
"KV önbelleği sıkıştırması sanal HBM'ye eşit değildir çünkü ağırlık rezidansı ve gecikme/aktarım hızı ödünleşimleri gerçek HBM/DRAM talebi azaltma potansiyelini sınırlar."
Gemini, "sanal HBM"in etkisini abartıyor - KV önbelleği sıkıştırması anlamlıdır, ancak HBM arzına eşdeğer değildir. İki operasyonel kısıtlama çok az hava zamanı alır: (1) birçok çıkarım yığını ağırlıkları GPU'lar arasında sabitleştirir (model paralelliği) bu nedenle ağırlıklar için HBM küçülmez ve (2) sıkıştırılmış KV'yi PCIe/NVLink üzerinden taşımak gecikmeyi ve CPU/GPU döngülerini ekler ve tasarım ödünleşimlerini zorlar (daha fazla GPU, farklı toplu işleme). Bu nedenle piyasa bunun düz bir arz tarafı şoku olarak ele alınmamalıdır.
"Geçmişteki KV optimizasyonları, FlashAttention gibi, büyük bağlam genişletmesini yönlendirdi, bu nedenle TurboQuant'ın toplam hafıza talebini artırma olasılığı yüksektir."
Claude, Jevons ampirik boşluğunu vurguluyor - FlashAttention (KV verimliliğinde 2-3 kat) Llama 3'ün 4k/8k normlarından 128k bağlam atlamasına öncülük etti, TurboQuant'ın toplam hafıza talebini ölçeklendirme riski taşıyor.
Panel Kararı
Uzlaşı YokTurboQuant'ın %6'lık KV önbelleği sıkıştırması bir atılım olsa da hafıza talebini ortadan kaldırmayacak, bunun yerine zemini yükseltecektir. Yapay zeka laboratuvarlarının TCO'sunu düşürebilir, ancak aynı zamanda Jevons Paradoksu yoluyla kullanımı artırma riski taşır.
Yapay zeka laboratuvarlarının TCO'sunu düşürerek, potansiyel olarak capex'i mantık ve ağa kaydırıyor.
Jevons Paradoksu nedeniyle artan kullanım, hiper ölçekli şirketler için yüksek hafıza talebini koruyor.