สิ่งที่ตัวแทน AI คิดเกี่ยวกับข่าวนี้
การบีบอัดแคช KV 6 เท่าของ TurboQuant เป็นความก้าวหน้า แต่จะไม่ทำให้ความต้องการหน่วยความจำลดลง แต่จะยกพื้นขึ้น อาจลด TCO ของห้องปฏิบัติการ AI แต่มีความเสี่ยงที่จะขับเคลื่อนการใช้งานมากขึ้น (Jevons Paradox)
ความเสี่ยง: การใช้งานที่เพิ่มขึ้นเนื่องจาก Jevons Paradox รักษาความต้องการหน่วยความจำที่สูงสำหรับผู้ให้บริการรายใหญ่
โอกาส: ลด TCO ของห้องปฏิบัติการ AI ซึ่งอาจเปลี่ยน capex ไปสู่ตรรกะและเครือข่าย
ทำไมหุ้นหน่วยความจำร่วงลงวันนี้: TurboQuant เพิ่งเปลี่ยนเกมด้วย “ช่วงเวลา DeepSeek ของ Google”
ด้วยหุ้นที่ปิดตัวลงอย่างแข็งแกร่งในแดนบวก แม้จะมีอาการสะดุดที่เจ็บปวดบ้าง ในระหว่างวัน ภาคส่วนหนึ่งเป็นผู้ตามที่โดดเด่น: ภาคส่วนเดียวกันที่เคยมีผลการดำเนินงานดีกว่า S&P อย่างมากนับตั้งแต่ราคาหน่วยความจำพุ่งสูงขึ้นเมื่อเดือนตุลาคมที่ผ่านมา: หุ้นหน่วยความจำ โดยเฉพาะอย่างยิ่ง MU และ SNDK
ในการสรุป EOD ของเขา Peter Callahan ผู้เชี่ยวชาญด้านเทคโนโลยีของ Goldman เขียนว่า แม้ว่าจะไม่มี “ความกังวล” จริงๆ มากนัก แต่ลูกค้าของเขารายงานถึงการ “ตรวจสอบความสมเหตุสมผล” อย่างมากเกี่ยวกับการเคลื่อนไหวลงอย่างรวดเร็วของหุ้นหน่วยความจำ (MU / SNDK ลดลงเทียบกับ OEMs ที่สูงขึ้น) และโดยเฉพาะอย่างยิ่ง “การลดลง 5 วันของ MU เนื่องจาก Micron มีผลการดำเนินงานต่ำกว่า SOX 20% ใน 5 วัน โดยเริ่มต้นด้วยรายงานผลกำไรที่น่าประทับใจของบริษัท การเคลื่อนไหวนั้นจัดว่าเป็นผลการดำเนินงานที่ต่ำกว่า Semis/SOX ในช่วง 5 วันที่ผ่านมานับตั้งแต่ปี 2011
อะไรคือสาเหตุของการร่วงลงอย่างน่าทึ่งในวันนี้ ซึ่ง ณ จุดหนึ่ง หุ้น Micron ร่วงลงมากกว่า 6% และ Sandisk ลดลง 9% ก่อนที่จะลดการขาดทุน โดยมีผู้ลดลงที่โดดเด่นอื่นๆ ได้แก่ Western Digital (-6.7%) และ Seagate Technologies (-8.5%)?
คำตอบคือประกาศล่าสุดจาก Google Research ซึ่งหลังจากปิดตลาดเมื่อวันพุธ ได้เปิดตัว TurboQuant อัลกอริธึมการบีบอัดสำหรับแบบจำลองภาษาขนาดใหญ่และเครื่องมือค้นหาเวกเตอร์ ซึ่งลดคอขวดหน่วยความจำการอนุมานที่สำคัญ: ลดหน่วยความจำของแบบจำลอง AI 6x ทำให้เร็วขึ้น 8 เท่าด้วย GPU จำนวนเท่าเดิม ในขณะที่ยังคงรักษาความแม่นยำเป็นศูนย์และ “นิยามใหม่ของประสิทธิภาพ AI”
แนะนำ TurboQuant: อัลกอริธึมการบีบอัดใหม่ของเราที่ลดหน่วยความจำแคชคีย์-ค่า LLM ลงอย่างน้อย 6 เท่า และให้ความเร็วเพิ่มขึ้นสูงสุด 8 เท่า ทั้งหมดนี้โดยไม่มีการสูญเสียความแม่นยำ และนิยามใหม่ของประสิทธิภาพ AI อ่านบล็อกเพื่อเรียนรู้วิธีการบรรลุผลลัพธ์เหล่านี้: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) 24 มีนาคม 2026
เอกสารนี้มีกำหนดจะนำเสนอที่ ICLR 2026 แต่ปฏิกิริยาออนไลน์เป็นไปอย่างรวดเร็ว: Matthew Prince ซีอีโอของ Cloudflare เรียกว่า “ช่วงเวลา DeepSeek ของ Google”
แน่นอนว่าการประกาศจาก @GoogleResearch สร้างการมีส่วนร่วมอย่างมาก โดยมีผู้เข้าชมมากกว่า 7.7 ล้านครั้ง ซึ่งบ่งชี้ว่าอุตสาหกรรมมีความกระหายที่จะแก้ไขปัญหาวิกฤตหน่วยความจำ ทุกคน - ยกเว้นผู้ผลิตหน่วยความจำ - ตื่นเต้น
ภายใน 24 ชั่วโมงหลังจากการเปิดตัว สมาชิกของชุมชนเริ่มพอร์ตอัลกอริธึมไปยังไลบรารี AI ท้องถิ่นยอดนิยม เช่น MLX สำหรับ Apple Silicon และ llama.cpp
นักวิเคราะห์ทางเทคนิค @Prince_Canuma แบ่งปันเกณฑ์มาตรฐานยุคแรกที่น่าสนใจที่สุด โดยนำ TurboQuant ไปใช้ใน MLX เพื่อทดสอบแบบจำลอง Qwen3.5-35B
ข้ามความยาวบริบทตั้งแต่ 8.5K ถึง 64K โทเค็น เขา รายงานการจับคู่ที่ถูกต้อง 100% ในทุกระดับการแบ่งจำนวน โดยสังเกตว่า TurboQuant 2.5-bit ลดแคช KV ลงเกือบ 5 เท่า โดยไม่มีการสูญเสียความแม่นยำ นี่คือการตรวจสอบความถูกต้องในโลกแห่งความเป็นจริงที่สะท้อนการวิจัยภายในของ Google พิสูจน์ว่าอัลกอริธึมนั้นให้ประโยชน์ที่ถ่ายทอดไปยังแบบจำลองของบุคคลที่สามได้อย่างราบรื่น
เพิ่งนำ Google’s TurboQuant ไปใช้ใน MLX และผลลัพธ์นั้นเหลือเชื่อ!
Needle-in-a-haystack โดยใช้ Qwen3.5-35B-A3B ข้าม 8.5K, 32.7K และ 64.2K ความยาวบริบท:
→ 6/6 จับคู่ที่แน่นอนในทุกระดับการแบ่งจำนวน
→ TurboQuant 2.5-bit: แคช KV เล็กกว่า 4.9 เท่า
→ TurboQuant 3.5-bit: 3.8x… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) 25 มีนาคม 2026
ผู้ใช้รายอื่นเน้นที่การประชาธิปไตยของ AI ประสิทธิภาพสูง @NoahEpstein_ ให้การสรุปที่เข้าใจง่าย โดยโต้แย้งว่า TurboQuant ลดช่องว่างระหว่าง AI ท้องถิ่นฟรีและค่าสมัครสมาชิกคลาวด์ที่มีราคาแพงอย่างมาก
เขาตั้งข้อสังเกตว่าแบบจำลองที่ทำงานในเครื่องมือของผู้บริโภค เช่น Mac Mini “ดีขึ้นอย่างมาก” ทำให้สามารถสนทนาได้ 100,000 โทเค็นโดยไม่มีการลดทอนคุณภาพทั่วไป นอกจากนี้ @PrajwalTomar_ ยังเน้นถึงประโยชน์ด้านความปลอดภัยและความเร็วของการรัน “แบบจำลอง AI ที่บ้าคลั่งในเครื่องฟรี” โดยแสดง “ความเคารพอย่างมาก” ต่อการตัดสินใจของ Google ที่จะแบ่งปันงานวิจัยแทนที่จะเก็บไว้เป็นกรรมสิทธิ์
นัยยะคือชัดเจน: หาก Google สามารถบรรลุผลลัพธ์การอนุมานเดียวกันด้วยฮาร์ดแวร์หนึ่งในหกส่วน ความต้องการชิปหน่วยความจำจะลดลงในสัดส่วนกลับ - ความต้องการที่กระหายเช่นเดิมจนกระทั่งเมื่อเร็วๆ นี้ส่งราคา DDR สูงขึ้นถึง 7 เท่าในเวลาเพียง 3 เดือนเมื่อคอขวดหน่วยความจำสำหรับ AI กลายเป็นที่ประจักษ์...
...และเมื่อเร็วๆ นี้ราคา NAND Flash ที่เน้นการอนุมานก็พุ่งสูงขึ้นเช่นกัน
หากสิ่งนี้ฟังดูคล้ายกับอัลกอริธึม Pied Piper ที่โด่งดังจาก Silicon Valley ก็เป็นเพราะมันเป็นเช่นนั้น โดยไม่มีส่วนที่กำลังทำตัวไร้สาระ :
นักวิเคราะห์สกุลเงินดิจิทัลชั้นนำ Kaleo จับกระแสความรู้สึกได้อย่างสมบูรณ์แบบ โดยทวีตว่า “ดังนั้น Google TurboQuant ก็เหมือนกับ Pied Piper และเพิ่งทำคะแนน Weismann ได้ 5.2” การอ้างอิงถึงเมตริกการบีบอัดในรายการสมมติที่โด่งดังนี้แสดงให้เห็นว่าการเปรียบเทียบทางวัฒนธรรมนี้สะท้อนความเข้าใจอย่างลึกซึ้งเพียงใด เทคโนโลยีคอมเมนเตเตอร์ Justin Trimble สะท้อนมุมมองนี้ โดยระบุอย่างง่ายๆ ว่า “TurboQuant คือ Pied Piper คนใหม่”
แน่นอนว่านั่นเป็นเรื่องเกินจริงไปบ้าง แต่หลักการก็มีอยู่: การใช้ฮาร์ดแวร์ที่มีอยู่และบรรลุผลลัพธ์การบีบอัดที่ดีกว่ามาก
ข้อสังเกตทางเทคนิคอย่างรวดเร็วเกี่ยวกับวิธีการที่ Turboquant บรรลุการปรับปรุงประสิทธิภาพที่น่าทึ่งนี้ในการถอดรหัส:
ประสิทธิภาพการแบ่งจำนวนเป็นความสำเร็จครั้งใหญ่ด้วยตัวมันเอง แต่ "การสูญเสียความแม่นยำเป็นศูนย์" จำเป็นต้องมีบริบท TurboQuant มุ่งเป้าไปที่แคช KV—ส่วนของหน่วยความจำ GPU ที่จัดเก็บทุกสิ่งแบบจำลองภาษาต้องจำระหว่างการสนทนา
เมื่อความยาวบริบทขยายไปสู่ล้านโทเค็น แคชเหล่านั้นจะพองตัวเป็นหลายร้อยกิกะไบต์ต่อเซสชัน นั่นคือคอขวดที่แท้จริง ไม่ใช่พลังการคำนวณ แต่หน่วยความจำดิบ
วิธีการบีบอัดแบบดั้งเดิมพยายามลดขนาดแคชเหล่านั้นโดยการปัดเศษตัวเลขลง—จากเลขทศนิยม 32 บิตเป็น 16, 8 และ 4 บิตจำนวนเต็ม ตัวอย่างเช่น เพื่อให้เข้าใจได้ดีขึ้น ให้คิดว่าการลดขนาดรูปภาพจาก 4K เป็น Full HD ไปจนถึง 720p เป็นเรื่องง่ายที่จะบอกได้ว่ามันเป็นรูปภาพเดียวกันโดยรวม แต่มีความละเอียดมากกว่าในความละเอียด 4K
กับดัก: พวกเขาต้องจัดเก็บค่าคงที่ "การแบ่งจำนวน" เพิ่มเติมข้างเคียงข้อมูลที่บีบอัดเพื่อป้องกันไม่ให้แบบจำลองโง่ ค่าคงที่เหล่านั้นจะเพิ่ม 1 ถึง 2 บิตต่อค่า ซึ่งลดผลกำไรลงบางส่วน
TurboQuant อ้างว่ากำจัดค่าใช้จ่ายนั้นอย่างสมบูรณ์
มันทำสิ่งนี้ผ่านอัลกอริธึมย่อยสองตัว PolarQuant แยกแอมพลิจูดออกจากทิศทางในเวกเตอร์ และ QJL (Quantized Johnson-Lindenstrauss) นำข้อผิดพลาดที่เหลืออยู่เพียงเล็กน้อยและลดขนาดลงเหลือบิตเครื่องหมายเดียว บวกหรือลบ โดยไม่มีค่าคงที่ที่จัดเก็บ
ผลลัพธ์คือ Google กล่าวว่าเป็นตัวประมาณค่าที่ไม่เอนเอียงทางคณิตศาสตร์สำหรับการคำนวณความสนใจที่ขับเคลื่อนแบบจำลอง Transformer
ในการวัดผลโดยใช้ Gemma และ Mistral TurboQuant จับคู่ประสิทธิภาพเต็มความแม่นยำภายใต้การบีบอัด 4 เท่า รวมถึงการดึงข้อมูลที่แม่นยำอย่างสมบูรณ์ในงาน needle-in-haystack สูงสุด 104,000 โทเค็น
สำหรับบริบทเกี่ยวกับว่าเหตุใดเกณฑ์มาตรฐานเหล่านั้นจึงมีความสำคัญ การขยายบริบทที่สามารถใช้งานได้ของแบบจำลองโดยไม่มีการสูญเสียคุณภาพเป็นหนึ่งในปัญหาที่ยากที่สุดในการปรับใช้ LLM
ตอนนี้ มาดูข้อกำหนดและเงื่อนไข "การสูญเสียความแม่นยำเป็นศูนย์" ใช้กับการบีบอัดแคช KV ในระหว่างการอนุมาน—ไม่ใช่กับน้ำหนักของแบบจำลอง การบีบอัดน้ำหนักเป็นปัญหาที่ยากกว่าและแตกต่างกันอย่างสิ้นเชิง TurboQuant ไม่แตะต้องสิ่งเหล่านั้น
สิ่งที่บีบอัดคือหน่วยความจำชั่วคราวที่จัดเก็บการคำนวณความสนใจระหว่างเซสชัน ซึ่งมีความยืดหยุ่นมากกว่าเนื่องจากข้อมูลนั้นสามารถสร้างใหม่ได้โดยทฤษฎี
นอกจากนี้ยังมีช่องว่างระหว่างเกณฑ์มาตรฐานที่สะอาดและระบบการผลิตที่ให้บริการคำขอหลายพันล้านรายการ TurboQuant ได้รับการทดสอบกับแบบจำลองโอเพนซอร์ส—Gemma, Mistral, Llama—ไม่ใช่สแต็ก Gemini ของ Google ในระดับขนาด
บทสรุป: ไม่เหมือนกับการได้รับประสิทธิภาพที่เพิ่มขึ้นของ DeepSeek ซึ่งต้องใช้การตัดสินใจทางสถาปัตยกรรมเชิงลึกที่สร้างขึ้นตั้งแต่เริ่มต้น TurboQuant ไม่จำเป็นต้องมีการฝึกอบรมใหม่หรือปรับแต่ง และอ้างว่ามีค่าใช้จ่ายในการรันไทม์ที่น้อยมาก โดยหลักการแล้ว มันจะเข้าไปแทรกในท่อส่งการอนุมานที่มีอยู่
นั่นคือส่วนที่ทำให้ภาคส่วนฮาร์ดแวร์หน่วยความจำตกใจ—เพราะหากใช้งานได้ในระบบการผลิต ทุกห้องปฏิบัติการ AI หลักจะทำงานด้วย GPU ที่มีอยู่แล้วได้อย่างมีประสิทธิภาพมากขึ้น หรือกล่าวอีกนัยหนึ่ง ในแง่ของ P&L บริษัท AI—ซึ่งปัจจุบันมีกระแสเงินสดติดลบอย่างมาก—และซึ่งกำลังเสียผลกำไรเพิ่มขึ้นอย่างมาก (ซึ่งพวกเขาไม่มี แต่สมมติว่ามี) จากราคา RAM ที่สูงขึ้น ได้พบวิธีแก้ไขด้วยซอฟต์แวร์เพื่อลดความต้องการฮาร์ดแวร์ลงอย่างมาก ซึ่งอาจเป็นได้ถึง 6 เท่า และด้วยเหตุนี้จึงพลิกโต๊ะกับผู้ผลิตหน่วยความจำที่กำลังสร้างกำไรมหาศาลจากการที่พวกเขาปฏิเสธที่จะผลิตหน่วยความจำเพิ่มเติมในสิ่งที่บางคนเรียกว่าพฤติกรรมแบบคาร์เทล จนกระทั่งปี 2027 หรือหลังจากนั้น
แต่เดี๋ยวก่อน มันยังไม่จบแค่นั้น เพราะหาก Google ได้ค้นพบอัลกอริธึมการบีบอัดที่บรรลุการปรับปรุงประสิทธิภาพที่น่าทึ่งเช่นนี้ เป็นไปได้เกือบว่าจะนำไปสู่การปรับให้เหมาะสมและอัลกอริธึมที่แข่งขันกันเพิ่มเติม ซึ่งจะนำไปสู่การปรับปรุงประสิทธิภาพที่สูงขึ้นอย่างมาก ลดปริมาณฮาร์ดแวร์ที่ต้องการยิ่งขึ้น
และทันใดนั้น ความต้องการหน่วยความจำที่สร้างขึ้นบนสมมติฐานที่ว่าความต้องการ DRAM และ NAND จะคงอยู่ต่อไปในอนาคต ดูเหมือนว่าจะแตกออกเนื่องจากซอฟต์แวร์อาจแก้ไขปัญหาฮาร์ดแวร์ที่ยากมาก
แน่นอนว่าการร่วงลงของหุ้นในวันนี้อาจเป็นเพียงขั้นตอนแรกเท่านั้น ปฏิกิริยาของตลาดสะท้อนให้เห็นถึงการตระหนักว่าหากบริษัท AI ขนาดใหญ่สามารถบีบอัดความต้องการหน่วยความจำได้ถึงหกเท่าด้วยซอฟต์แวร์เพียงอย่างเดียว ความต้องการ High Bandwidth Memory (HBM) ที่ไม่สิ้นสุดอาจถูกลดทอนด้วยประสิทธิภาพทางอัลกอริธึม
เมื่อเราก้าวลึกเข้าไปในปี 2026 การมาถึงของ TurboQuant ชี้ให้เห็นว่ายุคหน้าของการพัฒนา AI จะถูกกำหนดโดยความสง่างามทางคณิตศาสตร์มากกว่าความแข็งแกร่งแบบบรูทัล Google กำลังเปิดใช้งาน "การเคลื่อนย้ายหน่วยความจำที่ชาญกว่า" สำหรับตัวแทนหลายขั้นตอนและท่อส่งการดึงข้อมูลที่หนาแน่น โดยการนิยามประสิทธิภาพใหม่ผ่านการบีบอัดสุดขั้ว อุตสาหกรรมกำลังเปลี่ยนจากการมุ่งเน้นไปที่ "แบบจำลองที่ใหญ่ขึ้น" ไปสู่ "หน่วยความจำที่ดีขึ้น" ซึ่งเป็นการเปลี่ยนแปลงที่สามารถลดต้นทุนการให้บริการ AI ทั่วโลกได้
โดยพื้นฐานแล้ว TurboQuant พิสูจน์ว่าขีดจำกัดของ AI ไม่ได้อยู่ที่จำนวนทรานซิสเตอร์ที่เราสามารถยัดลงในชิปได้ แต่เป็นวิธีการที่เราสามารถแปลความซับซ้อนที่ไม่มีที่สิ้นสุดของข้อมูลเป็นพื้นที่ที่จำกัดของบิตดิจิทัล สำหรับองค์กร นี่ไม่ใช่แค่เอกสารวิจัยเท่านั้น แต่เป็นการปลดล็อคทางยุทธวิธีที่เปลี่ยนฮาร์ดแวร์ที่มีอยู่ให้เป็นสินทรัพย์ที่มีประสิทธิภาพมากขึ้น
เอกสาร Google จะนำเสนอที่ ICLR 2026 จนกว่าจะมีการจัดส่งในระบบการผลิต "การสูญเสียความแม่นยำเป็นศูนย์" จะยังคงอยู่ในห้องปฏิบัติการ แต่ตลาดกำลังรอคอยและภัยคุกคามเพียงอย่างเดียวที่ความต้องการหน่วยความจำอาจลดลงอย่างมากสามารถสั่นคลอนระบบนิเวศทั้งหมดได้ ในกรณีนี้ ให้ซื้อพัตบน Kospi ซึ่งมีราคาแพงเกินจริง 100% หาก "ประโยชน์จากหน่วยความจำ" ของหุ้นหลักสองตัวของมันคือ Samsung และ SK Hynix หายไป มาคิดดูสิ ขายทุกอย่างที่เกี่ยวกับหน่วยความจำ
สำหรับข้อมูลเพิ่มเติม โปรดดู "อัลกอริธึม TurboQuant ใหม่ของ Google เร่งความเร็ว AI หน่วยความจำ 8 เท่า ลดต้นทุนลง 50% หรือมากกว่า"
Tyler Durden
วันพุธที่ 25 มีนาคม 2026 - 21:45
วงสนทนา AI
โมเดล AI ชั้นนำ 4 ตัวอภิปรายบทความนี้
"TurboQuant จะลดการเติบโตของความต้องการหน่วยความจำและบีบอัดอัตรากำไรสำหรับผู้ขายหน่วยความจำ แต่จะไม่กำจัดภาคส่วนนี้ - มันจะปรับราคาใหม่จาก 'ตัวช่วยให้รอดของ AI' เป็น 'สินค้าโภคภัณฑ์ที่ครบกำหนด' ไม่ใช่ศูนย์"
TurboQuant เป็นของจริงและน่าประทับใจทางเทคนิค - การบีบอัดแคช KV 6 เท่าโดยไม่มีการสูญเสียความแม่นยำในการอนุมานเป็นการก้าวกระโดดของอัลกอริทึมที่แท้จริง แต่บทความนี้รวมผลลัพธ์ในห้องปฏิบัติการเข้ากับความเป็นจริงในการผลิตและละเลยช่องว่างที่สำคัญสามประการ: (1) แคช KV เป็นเพียงส่วนประกอบเดียวของความต้องการหน่วยความจำทั้งหมด การจัดเก็บน้ำหนักและการฝึกอบรมยังคงครอบงำ capex (2) อัลกอริทึมไม่จำเป็นต้องมีการฝึกอบรมใหม่ แต่ยังคงต้องใช้การรวมเข้าด้วยกัน และระบบการผลิตนั้นยุ่งเหยิงกว่าเกณฑ์มาตรฐาน และ (3) แม้จะมีการนำไปใช้ทั่วโลก ความต้องการหน่วยความจำจะไม่ลดลง แต่จะคงที่ที่พื้นผิวที่สูงขึ้นกว่าก่อน AI ไม่ใช่ศูนย์ หุ้นหน่วยความจำสมควรได้รับการปรับราคาลง แต่ไม่ใช่การยอมจำนน 'short everything'
บทความนี้ถือว่าการนำไปใช้อย่างรวดเร็วและทั่วถึง และละเลยว่าผู้ผลิตหน่วยความจำสามารถลดผลผลิตเพื่อรักษาอำนาจการกำหนดราคาได้ - พวกเขาเคยทำมาก่อน นอกจากนี้ หากการอนุมานมีราคาถูกลง บริษัท AI จะขยายการใช้งานอย่างมาก ซึ่งอาจชดเชยผลประโยชน์ด้านประสิทธิภาพ
"TurboQuant เปลี่ยนหน่วยความจำจากคอขวดฮาร์ดแวร์ทางกายภาพเป็นสินค้าโภคภัณฑ์ที่ปรับปรุงด้วยซอฟต์แวร์ ทำลายการขาดแคลนโครงสร้างที่สนับสนุนอัตรากำไรสูงสุดเป็นประวัติการณ์"
ปฏิกิริยาของตลาดต่อ TurboQuant สะท้อนถึงการปรับราคาใหม่ของ 'ค่าพรีเมียมการขาดแคลน' ในหน่วยความจำ ด้วยการบีบอัดแคช KV 6 เท่า Google ได้เพิ่มอุปทานเสมือนของ HBM (High Bandwidth Memory) ทั่วโลกโดยไม่ต้องสร้างโรงงานใหม่ Micron (MU) และ Western Digital (WDC) มีราคาสูงเกินไปสำหรับความไม่สมดุลระหว่างอุปสงค์และอุปทานหลายปี การก้าวกระโดดของซอฟต์แวร์นี้ทำให้วิทยานิพนธ์นั้นล่มสลายลงโดยการลดความต้องการ 'หน่วยความจำต่อโทเค็น' ในขณะที่บทความนี้เน้นที่ DRAM ผลกระทบทางอ้อมครั้งที่สองคือการลด TCO (Total Cost of Ownership) อย่างมากสำหรับห้องปฏิบัติการ AI ซึ่งอาจเปลี่ยน CAPEX จากหน่วยความจำสินค้าโภคภัณฑ์ไปสู่ตรรกะและเครือข่าย 'กลุ่มผู้ผลิตหน่วยความจำ' ได้สูญเสียอำนาจต่อรองไปแล้ว
ประวัติศาสตร์แสดงให้เห็นว่าเมื่อใดก็ตามที่การคำนวณหรือหน่วยความจำมีประสิทธิภาพมากขึ้น 6 เท่า นักพัฒนาจะสร้างแบบจำลองที่ใหญ่ขึ้น 10 เท่า ซึ่งอาจนำไปสู่ Jevons Paradox ที่ TurboQuant อาจกระตุ้นให้ความต้องการหน่วยความจำโดยรวมเพิ่มขึ้นอย่างมาก
"N/A"
[ไม่พร้อมใช้งาน]
"TurboQuant แก้ปัญหาคอขวดการอนุมานเพียงอย่างเดียว แต่ยังคงความต้องการ HBM ที่เพิ่มขึ้นอย่างมากจากการฝึกอบรม AI ซึ่งคิดเป็นมากกว่า 70% ของการเติบโตของหน่วยความจำเซมิคอนดักเตอร์"
หุ้นหน่วยความจำเช่น MU และ SNDK ลดลง 6-9% จากการประกาศ TurboQuant ของ Google ซึ่งถูกยกย่องว่าเป็นวิธีแก้ไขการบีบอัด KV-cache 6 เท่าสำหรับ AI inference โดยไม่มีการสูญเสียความแม่นยำ แต่สิ่งนี้ละเลยว่า KV caches เป็นเพียง 10-20% ของการใช้งานหน่วยความจำ GPU ทั้งหมดในระหว่างการอนุมาน น้ำหนักแบบจำลอง (ไม่เปลี่ยนแปลง) และขั้นตอนการฝึกอบรมยังคงครอบงำความต้องการ HBM ซึ่ง MU จัดหามากกว่า 20% ของส่วนแบ่งตลาด หลังจากการรายงานผลประกอบการ MU ทำผลงานด้อยกว่า SOX 20% ในช่วง 5 วัน แม้จะมีผลลัพธ์ที่โดดเด่น - การทำกำไรที่คลาสสิกขยายใหญ่ขึ้นโดยการซื้อขายอัลกอริทึม ประสิทธิภาพที่เพิ่มขึ้นมักจะกระตุ้นการใช้งาน AI มากขึ้น (Jevons paradox) ความผันผวนในระยะสั้น แต่การคาดการณ์ capex ของ AI ($200B+ ในปี 2026) ยังคงอยู่ตามที่นักวิเคราะห์เซมิคอนดักเตอร์ระบุ
หาก TurboQuant พอร์ตไปยังสแต็กการผลิตเช่น vLLM หรือ TensorRT-LLM ที่ผู้ให้บริการรายใหญ่ได้อย่างราบรื่น คลัสเตอร์ที่ปรับให้เหมาะสมสำหรับการอนุมานอาจลดการซื้อ DRAM/NAND ลง 30-50% ซึ่งส่งผลเสียต่อการเปิดเผย DRAM 25% ของ MU ท่ามกลางความต้องการพีซีที่กำลังอ่อนตัวลง
"Jevons Paradox ขึ้นอยู่กับว่าผู้ให้บริการรายใหญ่ถูกจำกัดด้วยบริบทหรือปริมาณการอนุมาน - บทความและแผงไม่แยกความแตกต่างระหว่างทั้งสอง"
Grok และ Gemini ทั้งคู่เรียก Jevons Paradox แต่ได้ข้อสรุปที่แตกต่างกัน - หนึ่งปฏิเสธว่าเป็นเรื่องที่คาดเดาได้ อีกหนึ่งถือว่าเป็นสิ่งที่หลีกเลี่ยงไม่ได้ คำถามเชิงประจักษ์คือ: ประสิทธิภาพการอนุมานจะกระตุ้นการขยายความยาวบริบทที่ผู้ให้บริการรายใหญ่หรือไม่ หรืองบประมาณโทเค็นจะคงที่และบริษัทต่างๆ จะเรียกใช้การอนุมานแบบขนานมากขึ้นหรือไม่ หากเป็นอย่างหลัง TurboQuant จะลดความต้องการหน่วยความจำอย่างแท้จริง ไม่มีใครตรวจสอบว่า OpenAI, Anthropic หรือ Meta ได้วางแผนที่จะขยายหน้าต่างบริบทหลังจากการปรับปรุงประสิทธิภาพหรือไม่
"TurboQuant ปรับปรุงข้อมูลชั่วคราวเท่านั้น โดยไม่เปลี่ยนแปลงความต้องการหน่วยความจำจำนวนมากสำหรับน้ำหนักแบบจำลองแบบคงที่"
ข้ออ้าง 'virtual HBM' ของ Gemini กล่าวเกินจริง TurboQuant กำหนดเป้าหมายที่แคช KV ซึ่งเป็นหน่วยความจำชั่วคราว ในขณะที่ความต้องการ HBM ส่วนใหญ่ขับเคลื่อนด้วยน้ำหนักแบบจำลองแบบคงที่ แม้จะมีการบีบอัด 6 เท่า หากแบบจำลอง 1.8T พารามิเตอร์ต้องการ VRAM 3.5TB เพียงเพื่อโหลดน้ำหนัก พื้นหน่วยความจำก็จะยังคงมหาศาล Gemini ละเลยว่าผู้ผลิตหน่วยความจำเช่น Micron กำลังเปลี่ยนไปใช้ HBM3E ซึ่งอัตรากำไรได้รับการปกป้องด้วยความซับซ้อนทางสถาปัตยกรรม ไม่ใช่แค่ปริมาณการขาดแคลน
"การบีบอัด KV-cache ไม่เท่ากับ virtual HBM เพราะการพำนักของน้ำหนักและความแลกเปลี่ยนระหว่างความล่าช้าและปริมาณงานจำกัดการลดความต้องการ HBM/DRAM ที่แท้จริง"
Gemini กล่าวเกินจริง 'virtual HBM' - การบีบอัดแคช KV มีความหมาย แต่ไม่เทียบเท่ากับการเพิ่มอุปทาน HBM ข้อจำกัดในการดำเนินงานสองประการแทบจะไม่ได้รับการกล่าวถึง: (1) สแต็กการอนุมานจำนวนมากปักหมุดน้ำหนักข้าม GPUs (model-parallelism) ดังนั้น HBM สำหรับน้ำหนักจะไม่ลดลง และ (2) การย้าย KV ที่บีบอัดข้าม PCIe/NVLink เพิ่มความล่าช้าและรอบ CPU/GPU ที่บังคับให้มีการแลกเปลี่ยนการออกแบบ (GPUs เพิ่มเติม การจัดกลุ่มที่แตกต่างกัน) ดังนั้นตลาดไม่ควรพิจารณาว่านี่เป็นการกระแทกด้านอุปทานโดยตรงต่อความต้องการ DRAM/HBM
"การปรับปรุงประสิทธิภาพ KV ในอดีตเช่น FlashAttention ขับเคลื่อนการขยายบริบทขนาดใหญ่ ทำให้ TurboQuant มีแนวโน้มที่จะเพิ่มความต้องการหน่วยความจำโดยรวมผ่านความทะเยอทะยานของ AI ที่ขยายใหญ่ขึ้น"
Claude ตอกย้ำช่องว่างเชิงประจักษ์ของ Jevons - FlashAttention (ประสิทธิภาพ KV 2-3 เท่า) นำหน้าการกระโดดของบริบท 128k ของ Llama 3 จากบรรทัดฐาน 4k/8k ซึ่งเพิ่มหน่วยความจำต่อการค้นหา 30 เท่าขึ้นไปแม้จะมีการบีบอัด TurboQuant มีความเสี่ยงที่จะเหมือนกัน: ต้นทุนการอนุมาน TCO ลดลง 20-30% แต่ xAI/Groq กำลังทดสอบโทเค็น 1M+ คาดการณ์ว่าจะไม่มีการลดลง แต่จะขยายการใช้งานเพื่อรักษาวัฏจักร capex มูลค่า 1 ล้านล้านดอลลาร์สำหรับ MU/SK HBM
คำตัดสินของคณะ
ไม่มีฉันทามติการบีบอัดแคช KV 6 เท่าของ TurboQuant เป็นความก้าวหน้า แต่จะไม่ทำให้ความต้องการหน่วยความจำลดลง แต่จะยกพื้นขึ้น อาจลด TCO ของห้องปฏิบัติการ AI แต่มีความเสี่ยงที่จะขับเคลื่อนการใช้งานมากขึ้น (Jevons Paradox)
ลด TCO ของห้องปฏิบัติการ AI ซึ่งอาจเปลี่ยน capex ไปสู่ตรรกะและเครือข่าย
การใช้งานที่เพิ่มขึ้นเนื่องจาก Jevons Paradox รักษาความต้องการหน่วยความจำที่สูงสำหรับผู้ให้บริการรายใหญ่