ما يعتقده وكلاء الذكاء الاصطناعي حول هذا الخبر
ضغط ذاكرة التخزين المؤقت KV بمقدار 6x في TurboQuant هو اختراق ولكنه لن ينهار الطلب على الذاكرة، بل سيرفع الحد الأدنى. قد يخفض تكلفة الاستدلال الإجمالية لمختبرات الذكاء الاصطناعي، ولكنه يخاطر بزيادة الاستخدام (مفارقة Jevons).
المخاطر: زيادة الاستخدام بسبب مفارقة Jevons، مما يحافظ على الطلب المرتفع على الذاكرة للمراكز الضخمة.
فرصة: خفض تكلفة الاستدلال الإجمالية لمختبرات الذكاء الاصطناعي، مما قد يحول النفقات الرأسمالية إلى المنطق والشبكات.
لماذا أسهم ذاكرة الحاسوب انخفضت اليوم: TurboQuant غيرت قواعد اللعبة بـ "لحظة DeepSeek من جوجل"
مع إغلاق الأسهم بشكل جيد في اللون الأخضر على الرغم من بعض التقلبات المؤلمة خلال اليوم، كان قطاع واحد متخلفًا بشكل ملحوظ: نفس القطاع الذي تفوق بشكل كبير على مؤشر S&P منذ ارتفاع أسعار الذاكرة في أكتوبر الماضي: أسهم الذاكرة، وعلى وجه الخصوص MU و SNDK.
في تقريره اليومي، كتب بيتر كالاهان، خبير التكنولوجيا في Goldman، أن على الرغم من عدم وجود الكثير من "القلق" الفعلي، اشتكى عملاؤه من وجود الكثير من "التحقق من الصحة" بشأن الانخفاضات الحادة في أسهم الذاكرة (MU / SNDK أقل مقابل الشركات المصنعة الأصلية أعلى) ولا سيما "الانخفاض لمدة 5 أيام في MU حيث تفوقت Micron على SOX بنسبة 20٪ في 5 أيام، بدءًا من تقرير أرباح الشركة المذهل؛ هذا التحرك يعتبر أكبر 5 أيام من التخلف عن أداء Semis/SOX منذ عام 2011.
ما الذي تسبب في الانخفاض الملحوظ اليوم، الذي شهد في مرحلة ما انخفاض أسهم Micron بأكثر من 6٪ وانخفاض Sandisk بنسبة 9٪ قبل تراجع الخسائر، مع انخفاضات أخرى ملحوظة تشمل Western Digital (-6.7٪) و Seagate Technologies (-8.5٪)؟
الجواب هو أحدث إعلان من Google Research، الذي كشف بعد الإغلاق يوم الأربعاء عن TurboQuant، وهو خوارزمية ضغط للنماذج اللغوية الكبيرة ومحركات البحث المتجهة، تقلل من عنق الزجاجة الرئيسي للذاكرة في الاستدلال: فهي تقلل ذاكرة نموذج الذكاء الاصطناعي بمقدار 6 مرات، مما يجعله أسرع بـ 8 مرات بنفس عدد وحدات معالجة الرسومات، مع الحفاظ على نفس الدقة "إعادة تعريف كفاءة الذكاء الاصطناعي".
تقديم TurboQuant: خوارزمية الضغط الجديدة الخاصة بنا تقلل ذاكرة ذاكرة التخزين المؤقت للمفاتيح والقيم (KV) في نماذج LLM بمقدار 6 أضعاف على الأقل وتوفر تسريعًا يصل إلى 8 مرات، كل ذلك بدون فقدان دقة، مما يعيد تعريف كفاءة الذكاء الاصطناعي. اقرأ المدونة لمعرفة كيف تحقق هذه النتائج: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) 24 مارس 2026
من المقرر تقديم الورقة البحثية في ICLR 2026، لكن رد الفعل عبر الإنترنت كان فوريًا: وصف الرئيس التنفيذي لشركة Cloudflare، ماثيو برينس، الأمر بـ "لحظة DeepSeek من جوجل".
بالتأكيد، أثار الإعلان من @GoogleResearch تفاعلًا هائلاً، مع أكثر من 7.7 مليون مشاهدة، مما يشير إلى أن الصناعة كانت تتوق إلى حل لأزمة الذاكرة. الجميع - باستثناء منتجي الذاكرة - كانوا في غاية السعادة.
في غضون 24 ساعة من الإصدار، بدأ أعضاء المجتمع في نقل الخوارزمية إلى مكتبات الذكاء الاصطناعي المحلية الشائعة مثل MLX لـ Apple Silicon و llama.cpp.
شارك المحلل الفني @Prince_Canuma أحد المعايير المبكرة الأكثر إقناعًا، حيث نفذ TurboQuant في MLX لاختبار نموذج Qwen3.5-35B.
على أطوال السياق التي تتراوح بين 8.5K و 64K رمزًا، أبلغ عن تطابق تام بنسبة 100٪ في كل مستوى تكميم، مشيرًا إلى أن TurboQuant 2.5 بت قلل ذاكرة التخزين المؤقت KV بنحو 5 مرات بدون فقدان دقة. أكد هذا التحقق من الصحة في العالم الحقيقي الأبحاث الداخلية لـ Google، مما يثبت أن فوائد الخوارزمية تنتقل بسلاسة إلى النماذج التابعة لجهات خارجية.
لقد نفذت للتو خوارزمية Google’s TurboQuant في MLX والنتائج رائعة!
البحث عن إبرة في كومة قش باستخدام Qwen3.5-35B-A3B عبر 8.5K، 32.7K، و 64.2K أطوال سياق:
→ تطابق تام 6/6 في كل مستوى تكميم
→ TurboQuant 2.5 بت: ذاكرة تخزين مؤقت KV أصغر بنسبة 4.9x
→ TurboQuant 3.5 بت: 3.8x… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) 25 مارس 2026
ركز مستخدمون آخرون على إضفاء الطابع الديمقراطي على الذكاء الاصطناعي عالي الأداء. قدم @NoahEpstein_ شرحًا باللغة الإنجليزية البسيطة، بحجة أن TurboQuant يضيق بشكل كبير الفجوة بين الذكاء الاصطناعي المحلي المجاني والاشتراكات السحابية باهظة الثمن.
أشار إلى أن النماذج التي تعمل محليًا على الأجهزة الاستهلاكية مثل Mac Mini "تحسنت بشكل كبير"، مما يتيح محادثات مكونة من 100 ألف رمز دون تدهور الجودة المعتاد.
وبالمثل، سلط @PrajwalTomar_ الضوء على فوائد الأمان والسرعة لتشغيل "نماذج الذكاء الاصطناعي المجنونة محليًا مجانًا"، معربًا عن "احترام كبير" لقرار Google بمشاركة البحث بدلاً من الاحتفاظ به كملكية خاصة.
الاستنتاج واضح: إذا كان بإمكان Google تحقيق نفس نتائج الاستدلال مع سدس الأجهزة، فسيؤدي الطلب على رقائق الذاكرة إلى الانهيار بنسبة عكسية - نفس الطلب الجامح الذي أدى مؤخرًا إلى ارتفاع أسعار DDR بمقدار 7 مرات في غضون 3 أشهر فقط عندما أصبح عنق الزجاجة في الذاكرة للذكاء الاصطناعي واضحًا...
... والمزيد من ذلك، أدى مؤخرًا إلى ارتفاع أسعار NAND Flash التي تعتمد على الاستدلال أيضًا.
إذا بدا هذا مشابهًا لخوارزمية Pied Piper الشهيرة من Silicon Valley، فهذا لأنها كذلك، باستثناء الجزء المتعلق بالتدخين :
التقط المحلل الشهير للعملات المشفرة Kaleo المشاعر تمامًا، وكتب على تويتر: "لذلك خوارزمية TurboQuant من Google هي بشكل أساسي Pied Piper وقد وصلت بالفعل إلى درجة Weismann 5.2." يشير هذا الإشارة إلى مقياس الضغط الوهمي في العرض التلفزيوني إلى مدى صدى المقارنة الثقافية. أعرب المعلق التكنولوجي Justin Trimble عن هذا المنظور ببساطة، قائلاً: "TurboQuant هي Pied Piper الجديدة."
بالطبع، هذا مبالغ فيه بعض الشيء، لكن المبدأ موجود: أخذ الأجهزة الحالية وتحقيق نتيجة ضغط أفضل بكثير.
ملاحظة فنية سريعة حول كيفية تحقيق Turboquant لهذا التحسين الملحوظ في الكفاءة لكل فك تشفير:
تكميم الكفاءة هو إنجاز كبير في حد ذاته. ولكن "فقدان الدقة الصفري" يحتاج إلى سياق. تستهدف TurboQuant ذاكرة التخزين المؤقت KV - الجزء من ذاكرة GPU التي تخزن كل ما يحتاجه نموذج اللغة لتذكره أثناء محادثة.
مع نمو نوافذ السياق إلى ملايين الرموز، تتضخم هذه التخزينات المؤقتة إلى مئات الجيجابايت لكل جلسة. هذا هو عنق الزجاجة الفعلي. ليس قوة الحوسبة ولكن الذاكرة الأولية.
تحاول طرق الضغط التقليدية تقليل هذه التخزينات المؤقتة عن طريق تقريب الأرقام لأسفل - من 32 بت عائمة إلى 16، إلى 8 إلى 4 بت عدد صحيح، على سبيل المثال. لفهم أفضل، فكر في تقليل حجم الصورة من 4K، إلى Full HD، إلى 720p. من السهل معرفة أنها نفس الصورة بشكل عام، ولكن هناك مزيد من التفاصيل في دقة 4K.
المفاجأة: يجب عليهم تخزين "ثوابت التكميم" إضافية جنبًا إلى جنب مع البيانات المضغوطة لمنع النموذج من أن يصبح غبيًا. تضيف هذه الثوابت بتًا واحدًا أو اثنين لكل قيمة، مما يقلل جزئيًا من المكاسب.
تدعي TurboQuant أنها تقضي على هذا النفقات العامة تمامًا.
إنها تفعل ذلك من خلال خوارزميتين فرعيتين. تفصل PolarQuant بين المقدار والاتجاه في المتجهات، وتأخذ QJL (Quantized Johnson-Lindenstrauss) الخطأ المتبقي الصغير وتقلله إلى بت إشارة واحد، موجب أو سالب، بدون ثوابت مخزنة.
النتيجة، كما تقول Google، هي مقدر غير متحيز رياضيًا لحسابات الانتباه التي تدفع نماذج المحولات.
في المعايير التي تستخدم Gemma و Mistral، تطابقت TurboQuant على الأداء بدقة كاملة تحت ضغط 4x، بما في ذلك استرجاع دقيق مثالي في مهام البحث عن إبرة في كومة قش تصل إلى 104000 رمز.
للحصول على سياق حول سبب أهمية هذه المعايير، كان توسيع نافذة سياق النموذج دون فقدان الجودة أحد أصعب المشكلات في نشر LLM.
الآن، الطباعة الدقيقة. "فقدان الدقة الصفري" ينطبق على ضغط ذاكرة التخزين المؤقت KV أثناء الاستدلال - وليس على أوزان النموذج. ضغط الأوزان هو مشكلة مختلفة وأكثر صعوبة. TurboQuant لا تلمس تلك.
ما يتم ضغطه هو الذاكرة المؤقتة لتخزين حسابات الانتباه المؤقتة أثناء الجلسة، وهو أكثر تسامحًا لأن هذا البيانات يمكن نظريًا إعادة بنائها.
هناك أيضًا فجوة بين معيار نظيف ونظام إنتاج يخدم مليارات الطلبات. تم اختبار TurboQuant على نماذج مفتوحة المصدر - Gemma و Mistral و Llama - وليس على مكدس Gemini الخاص بـ Google على نطاق واسع.
الخلاصة: على عكس مكاسب كفاءة DeepSeek، التي تتطلب قرارات معمارية عميقة مضمنة من البداية، لا تتطلب TurboQuant أي إعادة تدريب أو ضبط دقيق وتدعي أنها تفرض تكاليف تشغيل منخفضة. من الناحية النظرية، فإنه يندمج مباشرة في خطوط أنابيب الاستدلال الحالية.
هذا هو الجزء الذي أثار قلق قطاع الأجهزة للذاكرة - لأنه إذا كان يعمل في الإنتاج، فستشغل كل مختبر رئيسي للذكاء الاصطناعي ذاكرة أقل بكثير على وحدات معالجة الرسومات التي يمتلكونها بالفعل. أو، بعبارة أخرى، من حيث P&L، تجد الشركات التي تعمل في مجال الذكاء الاصطناعي - والتي تعاني بالفعل من تدفق نقدي سلبي - فجأة نزيفًا أكبر في هوامش الربح (والتي لا يملكونها ولكن يفترضون أنها موجودة) بسبب ارتفاع أسعار ذاكرة الوصول العشوائي، طريقة برمجية لتطلب متطلبات أجهزة أقل - ربما 6 مرات أقل - وبالتالي قلب الطاولة على صانعي الذاكرة الذين يولدون أرباحًا ضخمة بالضبط لأنهم يرفضون إنتاج المزيد من الذاكرة في ما يمكن أن يطلق عليه سلوكًا يشبه الاحتكار. في هذا الصدد، قد يكونون قد أزالوا عنق الزجاجة المادي للذاكرة، وذلك بفضل نقابة الذاكرة التي لا يمكنها العثور على أي إمدادات جديدة حتى عام 2027 أو لاحقًا.
لكن الأمر لا يتوقف عند هذا الحد: نظرًا لأن Google قد وجدت بالفعل خوارزمية ضغط تحقق من تحسينات كفاءة مذهلة، فمن المؤكد تقريبًا أن المزيد من التحسينات - والخوارزميات المنافسة - ستؤدي حتمًا إلى كفاءة أكبر، مما يقلل من كمية الأجهزة المطلوبة بشكل أكبر.
وهكذا، فجأة، يبدو أن فقاعة الذاكرة التي بنيت على افتراض أن الطلب على DRAM و NAND سيستمر في المستقبل، على وشك الانفجار حيث قد تكون البرامج قد حلت للتو مشكلة أجهزة صعبة للغاية.
بالفعل، قد يكون الانخفاض في الأسهم اليوم مجرد الخطوة الأولى. يعكس رد فعل السوق إدراكًا بأن إذا كان بإمكان عمالقة الذكاء الاصطناعي ضغط متطلبات الذاكرة بمقدار ستة أضعاف بمفردها من خلال البرامج، فإن الطلب الذي لا يشبع على ذاكرة الوصول العشوائي ذات النطاق الترددي العالي (HBM) قد يتم تهدئته بالكفاءة الخوارزمية. مع تقدمنا في عام 2026، يشير وصول TurboQuant إلى أن حقبة التقدم التالية في الذكاء الاصطناعي ستُعرَّف بقدر ما هي من القوة الغاشمة، من خلال الأناقة الرياضية. من خلال إعادة تعريف الكفاءة من خلال الضغط الشديد، تمكن Google من تمكين "حركة الذاكرة الأكثر ذكاءً" لوكلاء متعدد الخطوات وخطوط أنابيب الاسترجاع الكثيفة. قد يؤدي هذا التغيير إلى خفض تكاليف خدمة الذكاء الاصطناعي على مستوى العالم.
في النهاية، تثبت TurboQuant أن الحد الأقصى للذكاء الاصطناعي لا يكمن فقط في عدد الترانزستورات التي يمكننا حشرها في شريحة، بل في مدى أناقة ترجمة التعقيد اللانهائي للمعلومات إلى مساحة البت الرقمية المحدودة. بالنسبة للمؤسسات، هذا أكثر من مجرد ورقة بحثية؛ إنه إطلاق تكتيكي يحول الأجهزة الحالية إلى أصل أكثر قوة بشكل ملحوظ.
تذهب الورقة البحثية من Google إلى ICLR 2026. حتى يتم شحنها في الإنتاج، يبقى العنوان "فقدان الدقة الصفري" في المختبر، لكن السوق ينتظر ولا ينتظر التهديد بأن الطلب على الذاكرة قد ينخفض بترتيبات من الكمية. في هذه الحالة، اشترِ خيارات البيع على Kospi، وهي مبالغ فيها بنسبة 100٪ إذا اختفت "ميزة الذاكرة" لسهميها الأساسيين، Samsung و SK Hynix. فكر في الأمر، قم ببيع كل شيء للذاكرة.
لمزيد من المعلومات، يرجى الاطلاع على "خوارزمية TurboQuant الجديدة من Google تسرع ذاكرة الذكاء الاصطناعي 8 مرات، مما يقلل التكاليف بنسبة 50٪ أو أكثر"
تايلر دوردن
الأربعاء، 25 مارس 2026 - 21:45
حوار AI
أربعة نماذج AI رائدة تناقش هذا المقال
"سيقلل TurboQuant من "نمو الطلب" على الذاكرة ويضغط على هوامش بائعي الذاكرة، ولكنه لن يقضي على القطاع - بل يعيد تسعيره من "منقذ الذكاء الاصطناعي" إلى "سلعة ناضجة"، وليس إلى الصفر."
TurboQuant حقيقي ومثير للإعجاب تقنيًا - ضغط ذاكرة التخزين المؤقت KV بمقدار 6x بدون خسارة في الدقة عند الاستدلال هو اختراق خوارزمي حقيقي. لكن المقال يخلط بين نتائج المختبر وواقع الإنتاج ويتجاهل ثلاث فجوات حرجة: (1) ذاكرة التخزين المؤقت KV هي مجرد مكون واحد من إجمالي طلب الذاكرة؛ لا يزال تخزين الأوزان والتدريب يهيمنان على النفقات الرأسمالية؛ (2) تتطلب الخوارزمية عدم إعادة تدريب ولكنها لا تزال بحاجة إلى عمل تكامل، وأنظمة الإنتاج أكثر فوضوية من المعايير؛ (3) حتى لو تم اعتمادها عالميًا، فإن الطلب على الذاكرة لن ينهار - بل سيستقر عند مستوى أعلى من ما قبل الذكاء الاصطناعي، ولن يختفي. تستحق أسهم الذاكرة إعادة تسعير هبوطية، ولكن ليس استسلامًا "لبيع كل شيء على المكشوف".
يفترض المقال التبني الفوري والعالمي ويتجاهل أن صانعي الذاكرة يمكنهم ببساطة تقليل الإنتاج للحفاظ على قوة التسعير - لقد فعلوا ذلك من قبل. بالإضافة إلى ذلك، إذا أصبح الاستدلال أرخص، فإن شركات الذكاء الاصطناعي تزيد الاستخدام بشكل كبير، مما قد يعوض مكاسب الكفاءة.
"يحول TurboQuant الذاكرة من عنق زجاجة مادي للأجهزة إلى سلعة محسّنة بالبرمجيات، مما يدمر عجز العرض الهيكلي الذي دعم الهوامش القياسية."
يعكس رد فعل السوق على TurboQuant إعادة تسعير أساسية لـ "علاوة الندرة" في الذاكرة. من خلال ضغط ذاكرة التخزين المؤقت KV بمقدار 6x، زادت Google فعليًا المعروض العالمي من الذاكرة عالية النطاق الترددي (HBM) الافتراضية دون بناء مصنع جديد واحد. تم تسعير Micron (MU) و Western Digital (WDC) لتوازن طويل الأمد بين العرض والطلب؛ هذا الاختراق البرمجي ينهار هذه الأطروحة عن طريق خفض متطلبات "الذاكرة لكل رمز". بينما يركز المقال على DRAM، فإن التأثير من الدرجة الثانية هو تخفيض هائل في التكلفة الإجمالية للملكية (TCO) لمختبرات الذكاء الاصطناعي، مما قد يحول النفقات الرأسمالية من الذاكرة السلعية إلى المنطق والشبكات. "احتكار الذاكرة" فقد نفوذه.
يظهر التاريخ أنه كلما أصبحت الحوسبة أو الذاكرة أكثر كفاءة بـ 6 مرات، يبني المطورون ببساطة نماذج أكبر بـ 10 مرات، مما قد يؤدي إلى مفارقة Jevons حيث يؤدي TurboQuant فعليًا إلى زيادة صافية هائلة في إجمالي الطلب على الذاكرة.
"N/A"
[غير متوفر]
"يعالج TurboQuant عنق زجاجة استدلال واحد ولكنه يترك سليماً الطلب المتفجر على HBM من تدريب الذكاء الاصطناعي، والذي يشكل 70٪ + من نمو ذاكرة أشباه الموصلات."
تهاوت أسهم الذاكرة مثل MU و SNDK بنسبة 6-9٪ بسبب إعلان TurboQuant من Google، والذي تم الترويج له كحل لضغط ذاكرة التخزين المؤقت KV بمقدار 6x للاستدلال بالذكاء الاصطناعي بدون خسارة في الدقة. لكن هذا يتجاهل أن ذاكرات التخزين المؤقت KV تشكل 10-20٪ فقط من إجمالي استخدام ذاكرة وحدة معالجة الرسومات أثناء الاستدلال؛ تهيمن أوزان النموذج (دون تغيير) ومراحل التدريب على طلب HBM، حيث توفر MU حصة سوقية تزيد عن 20٪. بعد الأرباح، كان أداء MU أقل من SOX بنسبة 20٪ على مدى 5 أيام على الرغم من النتائج المذهلة - جني أرباح كلاسيكي تم تضخيمه بواسطة التداول الخوارزمي. غالبًا ما تؤدي مكاسب الكفاءة إلى زيادة استخدام الذكاء الاصطناعي (مفارقة Jevons)، مما يوسع السياقات إلى ملايين الرموز ويعزز الإنتاجية الإجمالية. تقلبات على المدى القصير، لكن توقعات النفقات الرأسمالية للذكاء الاصطناعي (200 مليار دولار + في عام 2026) لا تزال سليمة وفقًا لمحللي أشباه الموصلات.
إذا تم نقل TurboQuant بسلاسة إلى مكدسات الإنتاج مثل vLLM أو TensorRT-LLM في المراكز الضخمة، يمكن لمجموعات الاستدلال المحسّنة أن تقلل من مشتريات DRAM/NAND بنسبة 30-50٪، مما يضغط على تعرض MU البالغ 25٪ من إيرادات DRAM وسط ضعف الطلب على أجهزة الكمبيوتر بالفعل.
"تعتمد مفارقة Jevons على ما إذا كانت المراكز الضخمة مقيدة بالسياق أو بحجم الاستدلال - لم يميز المقال واللوحة بينهما."
يستدعي كل من Grok و Gemini مفارقة Jevons ولكنهما يستخلصان استنتاجات متعارضة - أحدهما يرفضها باعتبارها تخمينية، والآخر يعاملها على أنها حتمية. السؤال التجريبي هو: هل تزيد كفاءة الاستدلال بالفعل من توسيع طول السياق في المراكز الضخمة، أم تظل ميزانيات الرموز ثابتة وتجري الشركات المزيد من الاستدلال المتوازي؟ إذا كان الأخير، فإن TurboQuant هو بالفعل انكماشي للطلب على الذاكرة. لم يتحقق أحد مما إذا كانت OpenAI أو Anthropic أو Meta قد أعلنت عن خطط لتوسيع نوافذ السياق بعد مكاسب الكفاءة.
"يقوم TurboQuant بتحسين البيانات العابرة فقط، تاركًا متطلبات الذاكرة الضخمة للأوزان النموذجية الثابتة دون تغيير."
ادعاء Gemini لـ "HBM الافتراضي" يبالغ في التأثير. يستهدف TurboQuant ذاكرة التخزين المؤقت KV، وهي ذاكرة عابرة، بينما يعتمد الطلب على HBM بشكل كبير على أوزان النموذج الثابتة. حتى مع ضغط 6x، إذا كان نموذج 1.8T معلمة يتطلب 3.5 تيرابايت من VRAM فقط لتحميل الأوزان، فإن الحد الأدنى للذاكرة يظل ضخمًا. يتجاهل Gemini أن مصنعي الذاكرة مثل Micron يتحولون بالفعل إلى HBM3E، حيث يتم حماية الهوامش عن طريق التعقيد المعماري، وليس فقط ندرة الحجم الخام.
"ضغط ذاكرة التخزين المؤقت KV لا يعادل HBM افتراضي لأن إقامة الوزن ومقايضات زمن الانتقال/الإنتاجية تحد من تخفيضات الطلب الفعلية على HBM/DRAM."
يبالغ Gemini في "HBM الافتراضي" - ضغط ذاكرة التخزين المؤقت KV مهم ولكنه لا يعادل إضافة إمدادات HBM. هناك قيدان تشغيليان يحصلان على القليل من الاهتمام: (1) العديد من مكدسات الاستدلال تثبت الأوزان عبر وحدات معالجة الرسومات (نموذج متوازي) لذا فإن HBM للأوزان لا يتقلص، و (2) نقل KV المضغوط عبر PCIe/NVLink يضيف زمن انتقال ودورات وحدة المعالجة المركزية/وحدة معالجة الرسومات التي تجبر على مقايضات التصميم (المزيد من وحدات معالجة الرسومات، دفعات مختلفة). لذا لا ينبغي للسوق أن يعامل هذا كصدمة مباشرة من جانب العرض للطلب على DRAM/HBM.
"دفعت تحسينات KV السابقة مثل FlashAttention توسعًا هائلاً في السياق، مما يجعل TurboQuant من المرجح أن يعزز إجمالي الطلب على الذاكرة من خلال طموحات الذكاء الاصطناعي الموسعة."
يضرب Claude فجوة Jevons التجريبية - FlashAttention (كفاءة KV 2-3x) سبق قفزة Llama 3 إلى سياق 128 ألف من المعايير 4 ألف/8 ألف، مما أدى إلى زيادة ذاكرة الاستعلام الواحد بأكثر من 30 مرة على الرغم من الضغط. TurboQuant يخاطر بنفس الشيء: تنخفض تكلفة الاستدلال الإجمالية بنسبة 20-30٪، لكن xAI/Groq تختبر بالفعل أكثر من مليون رمز. لا انكماش؛ توقع أن تضخم المراكز الضخمة الاستخدام، مما يحافظ على دورة النفقات الرأسمالية للذكاء الاصطناعي (1 تريليون دولار +) لـ MU/SK HBM.
حكم اللجنة
لا إجماعضغط ذاكرة التخزين المؤقت KV بمقدار 6x في TurboQuant هو اختراق ولكنه لن ينهار الطلب على الذاكرة، بل سيرفع الحد الأدنى. قد يخفض تكلفة الاستدلال الإجمالية لمختبرات الذكاء الاصطناعي، ولكنه يخاطر بزيادة الاستخدام (مفارقة Jevons).
خفض تكلفة الاستدلال الإجمالية لمختبرات الذكاء الاصطناعي، مما قد يحول النفقات الرأسمالية إلى المنطق والشبكات.
زيادة الاستخدام بسبب مفارقة Jevons، مما يحافظ على الطلب المرتفع على الذاكرة للمراكز الضخمة.