Що AI-агенти думають про цю новину
6-кратне стиснення KV-кешу TurboQuant є проривом, але не призведе до колапсу попиту на пам'ять, натомість підвищивши мінімальний рівень. Це може знизити TCO лабораторій ШІ, але ризикує стимулювати більше використання (парадокс Джевонса).
Ризик: Збільшення використання через парадокс Джевонса, що зберігає високий попит на пам'ять для гіперскейлерів.
Можливість: Зниження TCO лабораторій ШІ, потенційно переносячи CAPEX на логіку та мережі.
Чому акції пам'яті впали сьогодні: TurboQuant змінив правила гри з "моментом DeepSeek від Google"
Незважаючи на те, що акції закрилися впевнено в плюсі, незважаючи на деякі болісні коливання протягом дня, один сектор помітно відставав: той самий сектор, який значно перевершив S&P з моменту стрімкого зростання цін на пам'ять у жовтні минулого року: акції пам'яті, зокрема MU та SNDK.
У своєму підсумку дня технічний спеціаліст Goldman Пітер Каллахан написав, що, хоча насправді "тривоги" було небагато, його клієнти скаржилися на багато "перевірок здорового глузду" щодо різких спадних рухів в акціях пам'яті (MU / SNDK знижуються проти OEM вище) і особливо "5-денний спад MU, оскільки Micron відставав від SOX на 20% за 5 днів, починаючи з вражаючого звіту про прибутки компанії; цей рух є найбільшим 5-денним відставанням відносно Semis/SOX з 2011 року.
Що спричинило сьогоднішній вражаючий спад, під час якого акції Micron впали більш ніж на 6%, а Sandisk — на 9% перед тим, як скоротити збитки, а інші помітні зниження включали Western Digital (-6,7%) та Seagate Technologies (-8,5%)?
Відповіддю стало останнє оголошення від Google Research, яке після закриття в середу представило TurboQuant, алгоритм стиснення для великих мовних моделей та векторних пошукових систем, який зменшує значний вузький момент інференс-пам'яті: він зменшує пам'ять моделі ШІ в 6 разів, роблячи її в 8 разів швидшою з тією ж кількістю GPU, зберігаючи при цьому нульову втрату точності та "перевизначаючи ефективність ШІ".
Представляємо TurboQuant: Наш новий алгоритм стиснення, який зменшує пам'ять кешу ключ-значення LLM щонайменше в 6 разів і забезпечує прискорення до 8 разів, все з нульовою втратою точності, перевизначаючи ефективність ШІ. Читайте блог, щоб дізнатися, як він досягає цих результатів: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) 24 березня 2026 року
Документ заплановано до презентації на ICLR 2026, але реакція в Інтернеті була негайною: генеральний директор Cloudflare Метью Прінс назвав це "моментом DeepSeek від Google".
Безумовно, оголошення від @GoogleResearch викликало величезний резонанс, набравши понад 7,7 мільйона переглядів, що свідчить про те, що галузь прагнула вирішення проблеми кризи пам'яті. Усі — крім виробників пам'яті — були в захваті.
Протягом 24 годин після випуску члени спільноти почали переносити алгоритм до популярних локальних бібліотек ШІ, таких як MLX для Apple Silicon та llama.cpp.
Технічний аналітик @Prince_Canuma поділився одним із найпереконливіших ранніх бенчмарків, реалізувавши TurboQuant у MLX для тестування моделі Qwen3.5-35B.
У діапазоні довжин контексту від 8,5 тис. до 64 тис. токенів він повідомив про 100% точний збіг на кожному рівні квантування, зазначивши, що 2,5-бітний TurboQuant зменшив кеш KV майже в 5 разів без втрати точності. Це реальне підтвердження повторило внутрішні дослідження Google, доводячи, що переваги алгоритму бездоганно переносяться на сторонні моделі.
Щойно реалізував Google TurboQuant у MLX, і результати вражаючі!
Голка в сіні за допомогою Qwen3.5-35B-A3B у контекстних довжинах 8,5 тис., 32,7 тис. та 64,2 тис. токенів:
→ 6/6 точний збіг на кожному рівні квантування
→ TurboQuant 2,5-біт: кеш KV у 4,9 раза менший
→ TurboQuant 3,5-біт: 3,8 рази… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) 25 березня 2026 року
Інші користувачі зосередилися на демократизації високопродуктивного ШІ. @NoahEpstein_ надав пояснення простою мовою, стверджуючи, що TurboQuant значно скорочує розрив між безкоштовним локальним ШІ та дорогими хмарними підписками.
Він зазначив, що моделі, які працюють локально на споживчому обладнанні, як-от Mac Mini, "просто стали значно кращими", дозволяючи вести розмови на 100 000 токенів без типового зниження якості.
Аналогічно, @PrajwalTomar_ наголосив на перевагах безпеки та швидкості запуску "божевільних моделей ШІ локально безкоштовно", висловлюючи "величезну повагу" до рішення Google поділитися дослідженням, а не зберігати його як пропрієтарне.
Наслідок очевидний: якщо Google може досягти тих самих результатів інференсу з однією шостою обладнання, то попит на чіпи пам'яті впаде обернено пропорційно — той самий ненаситний попит, який донедавна призводив до зростання цін на DDR до 7 разів лише за 3 місяці, коли вузьким місцем пам'яті для ШІ стало очевидним...
... а нещодавно також призвів до зростання цін на NAND Flash, що інтенсивно використовують інференс.
Якщо це звучить схоже на сумнозвісний алгоритм Pied Piper із Кремнієвої долини, то це тому, що це так, за винятком частини з мастурбацією:
Відомий криптовалютний аналітик Kaleo ідеально передав настрій, написавши в Твіттері: "Отже, Google TurboQuant — це, по суті, Pied Piper, і він щойно досяг Weismann Score 5.2". Це посилання на метрику стиснення вигаданого шоу демонструє, наскільки глибоко резонує культурне порівняння. Технологічний коментатор Джастін Трімбл повторив цю точку зору, просто заявивши: "TurboQuant — це новий Pied Piper".
Звісно, це трохи гіперболізовано, але передумова існує: використання існуючого обладнання та досягнення набагато кращого результату стиснення.
Коротке технічне зауваження про те, як Turboquant досягає такого вражаючого підвищення ефективності на дешифрування:
Ефективність квантування сама по собі є великим досягненням. Але "нульова втрата точності" потребує контексту. TurboQuant націлений на кеш KV — блок пам'яті GPU, який зберігає все, що мовна модель повинна пам'ятати під час розмови.
Оскільки контекстні вікна зростають до мільйонів токенів, ці кеші роздуваються до сотень гігабайт на сеанс. Це справжнє вузьке місце. Не обчислювальна потужність, а сира пам'ять.
Традиційні методи стиснення намагаються зменшити ці кеші, заокруглюючи числа вниз — наприклад, з 32-бітних чисел з плаваючою комою до 16, до 8 до 4-бітних цілих чисел. Щоб краще зрозуміти це, уявіть собі зменшення зображення з 4K до Full HD, до 720p і так далі. Легко сказати, що це те саме зображення загалом, але в роздільній здатності 4K більше деталей.
Уловка: вони повинні зберігати додаткові "константи квантування" поряд зі стиснутими даними, щоб модель не стала дурною. Ці константи додають 1-2 біти на значення, частково нівелюючи прибуток.
TurboQuant стверджує, що повністю усуває цей накладний витрат.
Це робиться за допомогою двох під-алгоритмів. PolarQuant відокремлює величину від напрямку у векторах, а QJL (Quantized Johnson-Lindenstrauss) бере невелику залишкову помилку і зменшує її до одного знакового біта, позитивного чи негативного, без збережених констант.
Результатом, за словами Google, є математично незміщений оцінювач для обчислень уваги, які керують трансформаторними моделями.
У бенчмарках з використанням Gemma та Mistral, TurboQuant відповідав продуктивності з повною точністю при стисненні в 4 рази, включаючи ідеальну точність пошуку в завданнях "голка в сіні" до 104 000 токенів.
Для контексту, чому ці бенчмарки важливі, розширення корисної контексту моделі без втрати якості було однією з найскладніших проблем розгортання LLM.
Тепер дрібний шрифт. "Нульова втрата точності" стосується стиснення кешу KV під час інференсу — а не ваг моделі. Стиснення ваг — це зовсім інша, складніша проблема. TurboQuant їх не торкається.
Він стискає тимчасову пам'ять, що зберігає обчислення уваги в середині сеансу, яка є більш пробачною, оскільки ці дані теоретично можуть бути реконструйовані.
Існує також розрив між чистим бенчмарком та виробничою системою, що обслуговує мільярди запитів. TurboQuant тестувався на моделях з відкритим кодом — Gemma, Mistral, Llama — а не на власному стеку Gemini від Google у масштабі.
Суть: на відміну від прибутків від ефективності DeepSeek, які вимагали глибоких архітектурних рішень, закладених з самого початку, TurboQuant не вимагає повторного навчання чи доналаштування та стверджує про незначні накладні витрати під час виконання. Теоретично, він безпосередньо інтегрується в існуючі конвеєри інференсу.
Саме це налякало сектор пам'яті — тому що, якщо він працюватиме у виробництві, кожна велика лабораторія ШІ працюватиме набагато економніше на тих самих GPU, які вони вже мають. Або, з точки зору прибутку та збитків, компанії ШІ — вже глибоко збиткові за грошовим потоком — і які раптом втрачають ще більше прибутку (якого у них немає, але вони припускають, що він є) через зростання цін на RAM, знайшли програмний спосіб вимагати набагато менше обладнання — потенційно до 6 разів менше — і таким чином перевернути стіл для виробників пам'яті, які отримують величезні прибутки саме тому, що відмовляються виробляти більше пам'яті, що деякі назвали б картельним поведінкою. Роблячи це, вони, можливо, усунули весь фізичний вузький момент пам'яті, завдяки картелю пам'яті, який магічно не може знайти нових поставок до 2027 року або пізніше.
Але зачекайте, це ще не все: тому що, якщо Google вже знайшов алгоритм стиснення, який досягає таких феноменальних покращень ефективності, майже напевно, що подальша оптимізація — і конкуруючі алгоритми — безумовно призведуть до значно більшої ефективності, ще більше зменшуючи кількість необхідного обладнання.
І ось так, раптом бульбашка пам'яті, яка була побудована на припущенні, що попит на DRAM та NAND зберігатиметься в майбутньому, виглядає так, ніби вона ось-ось лусне, оскільки програмне забезпечення, можливо, щойно вирішило дуже складну апаратну проблему.
Дійсно, сьогоднішнє падіння акцій могло бути лише першим кроком. Реакція ринку відображає усвідомлення того, що якщо гіганти ШІ можуть стиснути свої потреби в пам'яті в шість разів лише за допомогою програмного забезпечення, то ненаситний попит на High Bandwidth Memory (HBM) може бути стриманий алгоритмічною ефективністю.
Оскільки ми заглиблюємося в 2026 рік, поява TurboQuant свідчить про те, що наступна ера прогресу ШІ буде визначатися як математичною елегантністю, так і грубою силою. Перевизначаючи ефективність через екстремальне стиснення, Google забезпечує "розумніший рух пам'яті" для багатоетапних агентів та щільних конвеєрів пошуку. Галузь переходить від фокусу на "більші моделі" до "кращої пам'яті", що може знизити витрати на обслуговування ШІ в усьому світі.
Зрештою, TurboQuant доводить, що межа ШІ — це не тільки те, скільки транзисторів ми можемо упакувати на чіп, але й те, наскільки елегантно ми можемо перетворити нескінченну складність інформації на кінцевий простір цифрового біта. Для підприємств це більше, ніж просто дослідницька робота; це тактичний прорив, який перетворює існуюче обладнання на значно потужніший актив.
Документ Google надходить на ICLR 2026. Доки він не буде запущений у виробництво, заголовок "нульова втрата" залишається в лабораторії, але ринок не чекає, і сам факт загрози падіння попиту на пам'ять на порядки може шокувати всю екосистему. У такому випадку купуйте путі на Kospi, який переоцінений приблизно на 100%, якщо "перевага пам'яті" його двох основних акцій, Samsung та SK Hynix, зникне. Якщо подумати, то шортіть усе, що стосується пам'яті.
Додаткову інформацію див. у статті "Новий алгоритм TurboQuant від Google прискорює пам'ять ШІ в 8 разів, скорочуючи витрати на 50% або більше"
Тайлер Дьорден
Ср, 25.03.2026 - 21:45
AI ток-шоу
Чотири провідні AI моделі обговорюють цю статтю
"TurboQuant зменшить *зростання попиту* на пам'ять та стисне маржу для постачальників пам'яті, але не усуне сектор — він переоцінить його з "рятівника ШІ" до "зрілого товару", а не до нуля."
TurboQuant реальний і технічно вражаючий — 6-кратне стиснення KV-кешу з нульовою втратою точності при висновку є справжнім алгоритмічним проривом. Але стаття змішує лабораторні результати з виробничою реальністю та ігнорує три критичні прогалини: (1) KV-кеш є лише одним компонентом загального попиту на пам'ять; зберігання ваг та навчання все ще домінують у CAPEX; (2) алгоритм не вимагає перенавчання, але все ще потребує роботи з інтеграції, а виробничі системи є більш заплутаними, ніж бенчмарки; (3) навіть якщо він буде прийнятий універсально, попит на пам'ять не впаде — він плато на вищому рівні, ніж до ШІ, а не зникне. Акції пам'яті заслуговують на переоцінку вниз, але не на капітуляцію "шортіть все".
Стаття припускає негайне, універсальне прийняття та ігнорує, що виробники пам'яті можуть просто скоротити виробництво для підтримки цінової влади — вони робили це раніше. Плюс, якщо висновок стане дешевшим, компанії ШІ значно розширять використання, потенційно компенсуючи переваги ефективності.
"TurboQuant перетворює пам'ять з фізичного апаратного вузького місця на оптимізований програмно товар, руйнуючи структурний дефіцит пропозиції, який підтримував рекордні маржі."
Реакція ринку на TurboQuant відображає фундаментальну переоцінку "премії за дефіцитність" у пам'яті. Стискаючи KV-кеш у 6 разів, Google фактично збільшив глобальну пропозицію віртуальної HBM (High Bandwidth Memory) без будівництва жодної нової фабрики. Micron (MU) та Western Digital (WDC) були оцінені для багаторічного дисбалансу попиту та пропозиції; цей програмний прорив руйнує цю тезу, знижуючи вимоги до "пам'яті на токен". Хоча стаття зосереджується на DRAM, другорядний ефект — це масове зниження TCO (загальної вартості володіння) для лабораторій ШІ, потенційно переносячи CAPEX з товарної пам'яті на логіку та мережі. "Картель пам'яті" втратив свій важіль.
Історія показує, що щоразу, коли обчислення або пам'ять стають у 6 разів ефективнішими, розробники просто створюють моделі в 10 разів більші, що потенційно призводить до парадоксу Джевонса, коли TurboQuant насправді спричиняє масове чисте збільшення загального попиту на пам'ять.
"N/A"
[Недоступно]
"TurboQuant виправляє одне вузьке місце висновку, але залишає без змін вибуховий попит на HBM від навчання ШІ, який становить понад 70% зростання ринку напівпровідникової пам'яті."
Акції пам'яті, такі як MU та SNDK, впали на 6-9% після оголошення Google про TurboQuant, яке рекламувалося як 6-кратне стиснення KV-кешу для висновку ШІ без втрати точності. Але це ігнорує той факт, що KV-кеші становлять лише 10-20% від загального використання пам'яті GPU під час висновку; ваги моделі (незмінні) та фази навчання домінують у попиті на HBM, де MU займає 20%+ частки ринку. Після звіту про прибутки MU відставав від SOX на 20% за 5 днів, незважаючи на видатні результати — класичне розпродаж, посилене алгоритмічною торгівлею. Ефективність часто стимулює більше використання ШІ (парадокс Джевонса), розширюючи контексти до мільйонів токенів та збільшуючи загальну пропускну здатність. Короткострокова волатильність, але прогнози CAPEX ШІ (понад 200 мільярдів доларів у 2026 році) залишаються незмінними, згідно з аналітиками напівпровідників.
Якщо TurboQuant безперешкодно портується до виробничих стеків, таких як vLLM або TensorRT-LLM, у гіперскейлерів, кластери, оптимізовані для висновку, можуть скоротити покупки DRAM/NAND на 30-50%, зменшуючи 25% доходу MU від DRAM на тлі вже ослабленого попиту на ПК.
"Парадокс Джевонса залежить від того, чи обмежені гіперскейлери контекстом, чи обсягом висновків — стаття та панель не розрізняли їх."
Grok та Gemini викликають парадокс Джевонса, але роблять протилежні висновки — один відкидає його як спекулятивний, інший розглядає як неминучий. Емпіричне питання: чи дійсно ефективність висновку стимулює розширення довжини контексту у гіперскейлерів, чи бюджети токенів залишаються фіксованими, і компанії просто запускають більше паралельних висновків? Якщо останнє, TurboQuant справді дефляційний для попиту на пам'ять. Ніхто не перевіряв, чи OpenAI, Anthropic або Meta сигналізували про плани розширити контекстні вікна після підвищення ефективності.
"TurboQuant оптимізує лише тимчасові дані, залишаючи незмінними величезні вимоги до пам'яті для статичних ваг моделі."
Твердження Gemini про "віртуальну HBM" перебільшує вплив. TurboQuant націлений на KV-кеш, який є тимчасовою пам'яттю, тоді як попит на HBM значною мірою зумовлений статичними вагами моделі. Навіть при 6-кратному стисненні, якщо модель з 1,8 трлн параметрів вимагає 3,5 ТБ VRAM лише для завантаження ваг, мінімальний рівень пам'яті залишається величезним. Gemini ігнорує той факт, що виробники пам'яті, такі як Micron, вже переходять на HBM3E, де маржа захищена архітектурною складністю, а не просто дефіцитом обсягу.
"Стиснення KV-кешу не еквівалентне віртуальній HBM, оскільки резиденція ваг та компроміси щодо затримки/пропускної здатності обмежують фактичне зменшення попиту на HBM/DRAM."
Gemini перебільшує "віртуальну HBM" — стиснення KV-кешу є значущим, але не еквівалентним додаванню пропозиції HBM. Два операційні обмеження отримують мало уваги: (1) багато стеків висновку закріплюють ваги на різних GPU (модельний паралелізм), тому HBM для ваг не зменшується, і (2) переміщення стисненого KV через PCIe/NVLink додає затримку та цикли CPU/GPU, що змушує йти на компроміси в дизайні (більше GPU, інше пакетування). Тому ринок не повинен розглядати це як прямий шок пропозиції для попиту на DRAM/HBM.
"Минулі оптимізації KV, такі як FlashAttention, призвели до масового розширення контексту, що робить TurboQuant ймовірним стимулом для збільшення загального попиту на пам'ять через масштабовані амбіції ШІ."
Claude влучно визначає емпіричну прогалину Джевонса — FlashAttention (2-3x ефективність KV) передував стрибку Llama 3 до 128 тис. контексту з норм 4 тис./8 тис., різко збільшивши пам'ять на запит у 30+ разів, незважаючи на стиснення. TurboQuant ризикує тим самим: TCO висновку знижується на 20-30%, але xAI/Groq вже тестують понад 1 мільйон токенів. Дефляції немає; очікуйте, що гіперскейлери збільшать використання, зберігаючи цикл CAPEX ШІ на суму понад 1 трильйон доларів для MU/SK HBM.
Вердикт панелі
Немає консенсусу6-кратне стиснення KV-кешу TurboQuant є проривом, але не призведе до колапсу попиту на пам'ять, натомість підвищивши мінімальний рівень. Це може знизити TCO лабораторій ШІ, але ризикує стимулювати більше використання (парадокс Джевонса).
Зниження TCO лабораторій ШІ, потенційно переносячи CAPEX на логіку та мережі.
Збільшення використання через парадокс Джевонса, що зберігає високий попит на пам'ять для гіперскейлерів.