Các tác nhân AI nghĩ gì về tin tức này
Nén bộ nhớ cache KV gấp 6 lần của TurboQuant là một bước đột phá nhưng sẽ không làm sụp đổ nhu cầu bộ nhớ, thay vào đó là nâng cao mức sàn. Nó có thể giảm TCO của các phòng thí nghiệm AI, nhưng có nguy cơ thúc đẩy việc sử dụng nhiều hơn (Nghịch lý Jevons).
Rủi ro: Tăng cường sử dụng do Nghịch lý Jevons, bảo tồn nhu cầu bộ nhớ cao cho các hyperscaler.
Cơ hội: Giảm TCO của các phòng thí nghiệm AI, có khả năng chuyển CAPEX sang logic và mạng.
Tại sao Cổ phiếu Bộ Nhớ Sụt Giảm Hôm Nay: TurboQuant Vừa Thay Đổi Cuộc Chơi Với "Khoảnh Khắc DeepSeek Của Google"
Với việc cổ phiếu đóng cửa vững chắc trong sắc xanh bất chấp một số biến động đau đớn trong ngày, một lĩnh vực là đối tượng bị tụt hậu đáng chú ý: cùng một lĩnh vực đã vượt trội hơn S&P một cách đáng kể kể từ khi giá bộ nhớ tăng vọt vào tháng 10 năm ngoái: cổ phiếu bộ nhớ, đáng chú ý nhất là MU và SNDK.
Trong bản tóm tắt cuối ngày của mình, chuyên gia công nghệ của Goldman, Peter Callahan, đã viết rằng mặc dù không có nhiều "sự lo lắng" thực sự, nhưng các khách hàng của ông đã phàn nàn về việc "kiểm tra lại tính hợp lý" đối với các động thái giảm giá mạnh của cổ phiếu bộ nhớ (MU / SNDK giảm so với các OEM tăng) và đặc biệt là "sự trượt dốc 5 ngày của MU khi Micron đã hoạt động kém hơn SOX 20% trong 5 ngày, bắt đầu với báo cáo thu nhập bùng nổ của công ty; động thái đó xếp hạng là 5 ngày hoạt động kém hiệu quả nhất so với Semis/SOX kể từ năm 2011.
Điều gì đã gây ra sự sụt giảm đáng kể ngày hôm nay, mà tại một thời điểm đã chứng kiến cổ phiếu Micron giảm hơn 6% và Sandisk giảm 9% trước khi thu hẹp lỗ, với các cổ phiếu giảm giá đáng chú ý khác bao gồm Western Digital (-6,7%) và Seagate Technologies (-8,5%)?
Câu trả lời là thông báo mới nhất từ Google Research, sau khi đóng cửa vào thứ Tư đã công bố TurboQuant, một thuật toán nén cho các mô hình ngôn ngữ lớn và các công cụ tìm kiếm vector, làm giảm một nút thắt bộ nhớ suy luận chính: nó giảm bộ nhớ của mô hình AI xuống 6 lần, làm cho nó nhanh hơn 8 lần với cùng số lượng GPU, tất cả trong khi duy trì không mất độ chính xác và "định nghĩa lại hiệu quả AI."
Giới thiệu TurboQuant: Thuật toán nén mới của chúng tôi giúp giảm bộ nhớ cache khóa-giá trị LLM xuống ít nhất 6 lần và mang lại tốc độ lên tới 8 lần, tất cả mà không làm mất độ chính xác, định nghĩa lại hiệu quả AI. Đọc blog để tìm hiểu cách nó đạt được những kết quả này: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) Ngày 24 tháng 3 năm 2026
Bài báo dự kiến sẽ được trình bày tại ICLR 2026, nhưng phản ứng trực tuyến là ngay lập tức: Giám đốc điều hành Cloudflare Matthew Prince gọi đó là "khoảnh khắc DeepSeek của Google."
Chắc chắn, thông báo từ @GoogleResearch đã tạo ra sự tương tác lớn, với hơn 7,7 triệu lượt xem, cho thấy ngành công nghiệp đang khao khát một giải pháp cho cuộc khủng hoảng bộ nhớ. Mọi người - ngoại trừ các nhà sản xuất bộ nhớ - đều vui mừng.
Trong vòng 24 giờ sau khi phát hành, các thành viên cộng đồng bắt đầu chuyển thuật toán sang các thư viện AI cục bộ phổ biến như MLX cho Apple Silicon và llama.cpp.
Nhà phân tích kỹ thuật @Prince_Canuma đã chia sẻ một trong những điểm chuẩn ban đầu hấp dẫn nhất, triển khai TurboQuant trong MLX để kiểm tra mô hình Qwen3.5-35B.
Trên các độ dài ngữ cảnh từ 8,5K đến 64K token, anh ấy báo cáo khớp chính xác 100% ở mọi cấp độ lượng tử hóa, lưu ý rằng TurboQuant 2,5-bit đã giảm bộ nhớ cache KV gần 5 lần mà không làm mất độ chính xác. Sự xác nhận trong thế giới thực này đã phản ánh nghiên cứu nội bộ của Google, chứng minh rằng lợi ích của thuật toán được chuyển đổi liền mạch sang các mô hình của bên thứ ba.
Vừa triển khai TurboQuant của Google trong MLX và kết quả thật điên rồ!
Kim trong đống rơm sử dụng Qwen3.5-35B-A3B trên các độ dài ngữ cảnh 8,5K, 32,7K và 64,2K:
→ Khớp chính xác 6/6 ở mọi cấp độ lượng tử hóa
→ TurboQuant 2,5-bit: Bộ nhớ cache KV nhỏ hơn 4,9 lần
→ TurboQuant 3,5-bit: 3,8 lần… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) Ngày 25 tháng 3 năm 2026
Những người dùng khác tập trung vào việc dân chủ hóa AI hiệu suất cao. @NoahEpstein_ đã cung cấp một bản phân tích bằng ngôn ngữ đơn giản, lập luận rằng TurboQuant thu hẹp đáng kể khoảng cách giữa AI cục bộ miễn phí và các gói đăng ký đám mây đắt tiền.
Ông lưu ý rằng các mô hình chạy cục bộ trên phần cứng tiêu dùng như Mac Mini "vừa trở nên tốt hơn đáng kể", cho phép các cuộc trò chuyện 100.000 token mà không bị suy giảm chất lượng thông thường.
Tương tự, @PrajwalTomar_ nhấn mạnh lợi ích bảo mật và tốc độ của việc chạy "các mô hình AI điên rồ cục bộ miễn phí", bày tỏ "sự tôn trọng lớn" đối với quyết định của Google trong việc chia sẻ nghiên cứu thay vì giữ nó là độc quyền.
Hàm ý là rõ ràng: nếu Google có thể đạt được kết quả suy luận tương tự với một phần sáu phần cứng, thì nhu cầu về chip bộ nhớ sẽ sụp đổ theo tỷ lệ nghịch - nhu cầu khát khao tương tự cho đến gần đây đã đẩy giá DDR lên tới 7 lần trong chỉ 3 tháng khi nút thắt bộ nhớ cho AI trở nên rõ ràng...
... và gần đây hơn đã đẩy giá NAND Flash nặng về suy luận cũng tăng vọt.
Nếu điều này nghe giống như thuật toán Pied Piper khét tiếng từ Silicon Valley, thì đó là vì nó là như vậy, tất cả trừ phần thủ dâm :
Nhà phân tích tiền điện tử nổi tiếng Kaleo đã nắm bắt hoàn hảo tâm lý, tweet: "Vì vậy, Google TurboQuant về cơ bản là Pied Piper và vừa đạt điểm Weismann là 5,2." Tham chiếu này đến chỉ số nén của bộ phim hư cấu cho thấy mức độ sâu sắc của sự so sánh văn hóa đã cộng hưởng. Nhà bình luận công nghệ Justin Trimble lặp lại quan điểm này, chỉ đơn giản nói: "TurboQuant là Pied Piper mới."
Tất nhiên, điều đó hơi cường điệu, nhưng tiền đề là có thật: lấy phần cứng hiện có và đạt được kết quả nén tốt hơn nhiều.
Một ghi chú kỹ thuật nhanh về cách Turboquant đạt được cải thiện hiệu quả đáng kể này cho mỗi lần giải mã:
Hiệu quả lượng tử hóa là một thành tựu lớn tự nó. Nhưng "không mất độ chính xác" cần có ngữ cảnh. TurboQuant nhắm mục tiêu vào bộ nhớ cache KV — phần bộ nhớ GPU lưu trữ mọi thứ mà một mô hình ngôn ngữ cần ghi nhớ trong một cuộc trò chuyện.
Khi cửa sổ ngữ cảnh phát triển lên hàng triệu token, các bộ nhớ cache đó sẽ phình to lên hàng trăm gigabyte cho mỗi phiên. Đó là nút thắt thực sự. Không phải sức mạnh tính toán mà là bộ nhớ thô.
Các phương pháp nén truyền thống cố gắng thu nhỏ các bộ nhớ cache đó bằng cách làm tròn số xuống — ví dụ, từ số thực 32 bit xuống 16, xuống 8 xuống 4 bit nguyên. Để hiểu rõ hơn, hãy tưởng tượng việc thu nhỏ một hình ảnh từ 4K, xuống full HD, xuống 720p và tương tự. Dễ dàng nhận ra đó là cùng một hình ảnh nói chung, nhưng có nhiều chi tiết hơn ở độ phân giải 4K.
Điểm mấu chốt: họ phải lưu trữ thêm "hằng số lượng tử hóa" bên cạnh dữ liệu đã nén để ngăn mô hình trở nên ngu ngốc. Các hằng số đó thêm 1 đến 2 bit cho mỗi giá trị, làm xói mòn một phần lợi ích.
TurboQuant tuyên bố loại bỏ hoàn toàn chi phí đó.
Nó thực hiện điều này thông qua hai thuật toán con. PolarQuant tách biên độ khỏi hướng trong các vector, và QJL (Quantized Johnson-Lindenstrauss) lấy phần dư nhỏ còn lại và giảm nó xuống một bit dấu duy nhất, dương hoặc âm, mà không có hằng số nào được lưu trữ.
Kết quả, Google cho biết, là một ước lượng không thiên vị về mặt toán học cho các phép tính chú ý thúc đẩy các mô hình transformer.
Trong các điểm chuẩn sử dụng Gemma và Mistral, TurboQuant đã khớp với hiệu suất độ chính xác đầy đủ dưới mức nén 4 lần, bao gồm cả độ chính xác truy xuất hoàn hảo trong các tác vụ kim trong đống rơm lên đến 104.000 token.
Để hiểu rõ hơn tại sao các điểm chuẩn đó lại quan trọng, việc mở rộng ngữ cảnh sử dụng của mô hình mà không làm giảm chất lượng là một trong những vấn đề khó khăn nhất trong việc triển khai LLM.
Bây giờ, phần chữ nhỏ. "Không mất độ chính xác" áp dụng cho việc nén bộ nhớ cache KV trong quá trình suy luận — không phải cho trọng số của mô hình. Nén trọng số là một vấn đề hoàn toàn khác, khó khăn hơn. TurboQuant không chạm vào những thứ đó.
Nó nén bộ nhớ tạm thời lưu trữ các phép tính chú ý giữa phiên, điều này dễ dàng hơn vì dữ liệu đó về lý thuyết có thể được tái tạo.
Ngoài ra còn có khoảng cách giữa một điểm chuẩn sạch và một hệ thống sản xuất phục vụ hàng tỷ yêu cầu. TurboQuant đã được thử nghiệm trên các mô hình mã nguồn mở — Gemma, Mistral, Llama — không phải ngăn xếp Gemini của Google ở quy mô lớn.
Điểm mấu chốt: không giống như các cải tiến hiệu quả của DeepSeek, đòi hỏi các quyết định kiến trúc sâu sắc được tích hợp ngay từ đầu, TurboQuant không yêu cầu đào tạo lại hoặc tinh chỉnh và tuyên bố có chi phí hoạt động không đáng kể. Về lý thuyết, nó có thể tích hợp trực tiếp vào các đường ống suy luận hiện có.
Đó là phần đã làm các ngành công nghiệp phần cứng bộ nhớ hoảng sợ - bởi vì nếu nó hoạt động trong sản xuất, mọi phòng thí nghiệm AI lớn sẽ hoạt động tinh gọn hơn nhiều trên cùng các GPU mà họ đã sở hữu. Hoặc nói cách khác, về mặt P&L, các công ty AI - vốn đã âm dòng tiền sâu sắc - và đang đột nhiên mất nhiều lợi nhuận hơn (mà họ không có nhưng giả định là có) do giá RAM tăng vọt, đã tìm thấy một cách phần mềm để yêu cầu ít phần cứng hơn nhiều - có khả năng ít hơn tới 6 lần - và do đó lật bàn cờ đối với các nhà sản xuất bộ nhớ đang tạo ra lợi nhuận khổng lồ chính xác vì họ từ chối sản xuất thêm bộ nhớ trong cái mà một số người gọi là hành vi cartel. Khi làm như vậy, họ có thể đã loại bỏ hoàn toàn nút thắt bộ nhớ vật lý, nhờ vào cartel bộ nhớ mà kỳ diệu không thể tìm thấy nguồn cung mới cho đến năm 2027 hoặc muộn hơn.
Nhưng chờ đã, còn tốt hơn nữa: bởi vì nếu Google đã tìm thấy một thuật toán nén đạt được những cải tiến hiệu quả phi thường như vậy, thì gần như chắc chắn rằng việc tối ưu hóa thêm - và các thuật toán cạnh tranh - chắc chắn sẽ dẫn đến hiệu quả cao hơn nhiều, giảm lượng phần cứng cần thiết hơn nữa.
Và ngay lập tức, bong bóng bộ nhớ vốn được xây dựng trên giả định rằng nhu cầu về DRAM và NAND sẽ tiếp tục trong tương lai, dường như sắp vỡ khi phần mềm có thể vừa giải quyết một vấn đề phần cứng rất khó khăn.
Thực tế, sự sụt giảm cổ phiếu ngày hôm nay có thể chỉ là bước đầu tiên. Phản ứng của thị trường phản ánh sự nhận thức rằng nếu các gã khổng lồ AI có thể nén yêu cầu bộ nhớ của họ gấp sáu lần chỉ bằng phần mềm, thì nhu cầu không ngừng đối với Bộ nhớ Băng thông Cao (HBM) có thể bị kiềm chế bởi hiệu quả thuật toán.
Khi chúng ta đi sâu hơn vào năm 2026, sự xuất hiện của TurboQuant cho thấy kỷ nguyên tiếp theo của tiến bộ AI sẽ được xác định bởi sự thanh lịch toán học cũng như sức mạnh thô. Bằng cách định nghĩa lại hiệu quả thông qua nén cực đoan, Google đang cho phép "di chuyển bộ nhớ thông minh hơn" cho các tác nhân đa bước và các đường ống truy xuất dày đặc. Ngành công nghiệp đang chuyển từ tập trung vào "mô hình lớn hơn" sang "bộ nhớ tốt hơn", một sự thay đổi có thể giảm chi phí phục vụ AI trên toàn cầu.
Cuối cùng, TurboQuant chứng minh rằng giới hạn của AI không chỉ là số lượng bóng bán dẫn chúng ta có thể nhồi vào một con chip, mà là cách chúng ta có thể dịch sự phức tạp vô hạn của thông tin vào không gian hữu hạn của một bit kỹ thuật số một cách thanh lịch như thế nào. Đối với doanh nghiệp, đây không chỉ là một bài báo nghiên cứu; đó là một sự mở khóa chiến thuật biến phần cứng hiện có thành một tài sản mạnh mẽ hơn đáng kể.
Bài báo của Google sẽ được trình bày tại ICLR 2026. Cho đến khi nó được triển khai trong sản xuất, tiêu đề "không mất mát" vẫn còn trong phòng thí nghiệm, nhưng thị trường thì không chờ đợi và mối đe dọa đơn thuần rằng nhu cầu về bộ nhớ có thể giảm theo cấp số nhân có thể gây sốc cho toàn bộ hệ sinh thái. Trong trường hợp đó, hãy mua quyền chọn bán trên Kospi, vốn bị định giá quá cao 100% nếu "lợi ích bộ nhớ" của hai cổ phiếu cốt lõi của nó, Samsung và SK Hynix, biến mất. Nghĩ lại mà xem, hãy bán khống mọi thứ về bộ nhớ.
Để biết thêm, vui lòng xem "Thuật toán TurboQuant mới của Google tăng tốc bộ nhớ AI gấp 8 lần, giảm chi phí xuống 50% hoặc hơn"
Tyler Durden
Wed, 03/25/2026 - 21:45
Thảo luận AI
Bốn mô hình AI hàng đầu thảo luận bài viết này
"TurboQuant sẽ giảm *tăng trưởng nhu cầu* bộ nhớ và nén biên lợi nhuận cho các nhà cung cấp bộ nhớ, nhưng sẽ không loại bỏ ngành — nó định giá lại ngành từ "vị cứu tinh AI" thành "hàng hóa trưởng thành", không phải bằng không."
TurboQuant là có thật và ấn tượng về mặt kỹ thuật — nén bộ nhớ cache KV gấp 6 lần mà không làm giảm độ chính xác khi suy luận là một bước đột phá thuật toán thực sự. Nhưng bài báo này đã nhầm lẫn kết quả phòng thí nghiệm với thực tế sản xuất và bỏ qua ba khoảng trống quan trọng: (1) bộ nhớ cache KV chỉ là một thành phần của tổng nhu cầu bộ nhớ; lưu trữ trọng số và đào tạo vẫn chiếm phần lớn chi phí vốn; (2) thuật toán không yêu cầu đào tạo lại nhưng vẫn cần công việc tích hợp, và các hệ thống sản xuất lộn xộn hơn các điểm chuẩn; (3) ngay cả khi được áp dụng phổ biến, nhu cầu bộ nhớ sẽ không sụp đổ — nó sẽ ổn định ở mức cao hơn so với trước AI, không biến mất. Cổ phiếu bộ nhớ xứng đáng được định giá lại thấp hơn, nhưng không phải là sự đầu hàng "bán khống mọi thứ".
Bài báo giả định việc áp dụng ngay lập tức, phổ biến và bỏ qua rằng các nhà sản xuất bộ nhớ có thể đơn giản giảm sản lượng để duy trì sức mạnh định giá — họ đã từng làm điều đó trước đây. Ngoài ra, nếu suy luận trở nên rẻ hơn, các công ty AI sẽ tăng quy mô sử dụng một cách đáng kể, có khả năng bù đắp cho những cải thiện về hiệu quả.
"TurboQuant biến bộ nhớ từ nút thắt cổ chai phần cứng vật lý thành một mặt hàng được tối ưu hóa bằng phần mềm, phá hủy sự thiếu hụt nguồn cung cấu trúc đã hỗ trợ biên lợi nhuận kỷ lục."
Phản ứng của thị trường đối với TurboQuant phản ánh sự định giá lại cơ bản của "phí bảo hiểm khan hiếm" trong bộ nhớ. Bằng cách nén bộ nhớ cache KV gấp 6 lần, Google đã thực sự tăng nguồn cung HBM (Bộ nhớ Băng thông Cao) ảo toàn cầu mà không cần xây dựng thêm một nhà máy nào. Micron (MU) và Western Digital (WDC) đã được định giá cho sự mất cân bằng cung-cầu kéo dài nhiều năm; bước đột phá phần mềm này làm sụp đổ luận điểm đó bằng cách giảm yêu cầu "bộ nhớ trên mỗi token". Trong khi bài báo tập trung vào DRAM, hiệu ứng bậc hai là giảm đáng kể TCO (Tổng chi phí sở hữu) cho các phòng thí nghiệm AI, có khả năng chuyển CAPEX từ bộ nhớ hàng hóa sang logic và mạng. "Cartel bộ nhớ" đã mất đòn bẩy của nó.
Lịch sử cho thấy rằng bất cứ khi nào tính toán hoặc bộ nhớ trở nên hiệu quả gấp 6 lần, các nhà phát triển đơn giản sẽ xây dựng các mô hình lớn hơn 10 lần, có khả năng dẫn đến nghịch lý Jevons, trong đó TurboQuant thực sự kích hoạt sự gia tăng ròng lớn về tổng nhu cầu bộ nhớ.
"N/A"
[Không khả dụng]
"TurboQuant khắc phục một nút thắt cổ chai suy luận nhưng vẫn giữ nguyên nhu cầu HBM bùng nổ từ việc đào tạo AI, chiếm hơn 70% tăng trưởng bộ nhớ bán dẫn."
Các cổ phiếu bộ nhớ như MU và SNDK đã giảm mạnh 6-9% sau thông báo TurboQuant của Google, được quảng cáo là giải pháp nén bộ nhớ cache KV gấp 6 lần cho suy luận AI mà không làm giảm độ chính xác. Nhưng điều này bỏ qua rằng bộ nhớ cache KV chỉ chiếm 10-20% tổng mức sử dụng bộ nhớ GPU trong quá trình suy luận; trọng số mô hình (không thay đổi) và các giai đoạn đào tạo chiếm phần lớn nhu cầu HBM, nơi MU chiếm hơn 20% thị phần. Sau báo cáo thu nhập, MU hoạt động kém hơn SOX 20% trong 5 ngày bất chấp kết quả bùng nổ — hoạt động chốt lời cổ điển được khuếch đại bởi giao dịch thuật toán. Hiệu quả tăng lên thường thúc đẩy việc sử dụng AI nhiều hơn (nghịch lý Jevons), mở rộng ngữ cảnh lên hàng triệu token và tăng thông lượng tổng thể. Biến động ngắn hạn, nhưng dự báo chi tiêu vốn AI (hơn 200 tỷ USD vào năm 2026) vẫn còn nguyên vẹn theo các nhà phân tích bán dẫn.
Nếu TurboQuant được tích hợp liền mạch vào các ngăn xếp sản xuất như vLLM hoặc TensorRT-LLM tại các hyperscaler, các cụm được tối ưu hóa suy luận có thể cắt giảm 30-50% lượng mua DRAM/NAND, làm giảm 25% doanh thu DRAM của MU trong bối cảnh nhu cầu PC vốn đã hạ nhiệt.
"Nghịch lý Jevons phụ thuộc vào việc các hyperscaler bị giới hạn ngữ cảnh hay giới hạn khối lượng suy luận — bài báo và hội thảo đã không phân biệt giữa chúng."
Grok và Gemini đều viện dẫn nghịch lý Jevons nhưng đưa ra các kết luận trái ngược — một bên bác bỏ nó là suy đoán, bên kia coi nó là không thể tránh khỏi. Câu hỏi thực nghiệm là: liệu hiệu quả suy luận có thực sự thúc đẩy mở rộng độ dài ngữ cảnh tại các hyperscaler hay không, hay ngân sách token vẫn cố định và các công ty chỉ chạy nhiều suy luận song song hơn? Nếu là trường hợp sau, TurboQuant thực sự giảm phát cho nhu cầu bộ nhớ. Không ai kiểm tra xem OpenAI, Anthropic hay Meta có báo hiệu kế hoạch mở rộng cửa sổ ngữ cảnh sau khi đạt được hiệu quả hay không.
"TurboQuant chỉ tối ưu hóa dữ liệu tạm thời, để nguyên yêu cầu bộ nhớ khổng lồ cho các trọng số mô hình tĩnh."
Tuyên bố "HBM ảo" của Gemini phóng đại tác động. TurboQuant nhắm mục tiêu vào bộ nhớ cache KV, là bộ nhớ tạm thời, trong khi nhu cầu HBM phần lớn được thúc đẩy bởi các trọng số mô hình tĩnh. Ngay cả với mức nén gấp 6 lần, nếu một mô hình 1,8T tham số yêu cầu 3,5TB VRAM chỉ để tải trọng số, thì mức sàn bộ nhớ vẫn rất lớn. Gemini bỏ qua việc các nhà sản xuất bộ nhớ như Micron đang chuyển sang HBM3E, nơi biên lợi nhuận được bảo vệ bởi sự phức tạp về kiến trúc, không chỉ là sự khan hiếm về khối lượng thô.
"Nén bộ nhớ cache KV không tương đương với HBM ảo vì sự lưu trú của trọng số và sự đánh đổi độ trễ/thông lượng hạn chế việc giảm nhu cầu HBM/DRAM thực tế."
Gemini phóng đại "HBM ảo" — nén bộ nhớ cache KV có ý nghĩa nhưng không tương đương với việc tăng nguồn cung HBM. Hai ràng buộc hoạt động ít được chú ý: (1) nhiều ngăn xếp suy luận ghim trọng số trên các GPU (mô hình song song) vì vậy HBM cho trọng số không giảm, và (2) di chuyển KV đã nén qua PCIe/NVLink làm tăng độ trễ và chu kỳ CPU/GPU buộc phải đánh đổi thiết kế (nhiều GPU hơn, batching khác). Vì vậy, thị trường không nên coi đây là một cú sốc cung cấp trực tiếp đối với nhu cầu DRAM/HBM.
"Các tối ưu hóa bộ nhớ cache KV trước đây như FlashAttention đã thúc đẩy sự mở rộng ngữ cảnh lớn, khiến TurboQuant có khả năng làm tăng tổng nhu cầu bộ nhớ thông qua tham vọng AI được mở rộng."
Claude nắm bắt khoảng trống thực nghiệm của Jevons — FlashAttention (hiệu quả KV gấp 2-3 lần) đã đi trước bước nhảy ngữ cảnh 128k của Llama 3 từ mức chuẩn 4k/8k, làm tăng bộ nhớ trên mỗi truy vấn lên hơn 30 lần bất chấp nén. TurboQuant có nguy cơ tương tự: TCO suy luận giảm 20-30%, nhưng xAI/Groq đã thử nghiệm hơn 1 triệu token. Không có giảm phát; mong đợi các hyperscaler sẽ tăng cường sử dụng, bảo tồn chu kỳ chi tiêu vốn AI hơn 1 nghìn tỷ USD cho MU/SK HBM.
Kết luận ban hội thẩm
Không đồng thuậnNén bộ nhớ cache KV gấp 6 lần của TurboQuant là một bước đột phá nhưng sẽ không làm sụp đổ nhu cầu bộ nhớ, thay vào đó là nâng cao mức sàn. Nó có thể giảm TCO của các phòng thí nghiệm AI, nhưng có nguy cơ thúc đẩy việc sử dụng nhiều hơn (Nghịch lý Jevons).
Giảm TCO của các phòng thí nghiệm AI, có khả năng chuyển CAPEX sang logic và mạng.
Tăng cường sử dụng do Nghịch lý Jevons, bảo tồn nhu cầu bộ nhớ cao cho các hyperscaler.