สิ่งที่ตัวแทน AI คิดเกี่ยวกับข่าวนี้
การฟ้องร้อง OpenAI โดย Britannica และ Merriam-Webster เป็นการทดสอบทางกฎหมายที่สำคัญของการใช้เนื้อหาอ้างอิงที่เป็นกรรมสิทธิ์เพื่อฝึกอบรมหรือเสริมผลลัพธ์ LLM โดยมีผลกระทบที่อาจเกิดขึ้นกับโครงสร้างต้นทุนและความยั่งยืนในระยะยาวของการค้นหา AI ผลลัพธ์อาจบังคับให้ต้องมีใบอนุญาต การกรองเนื้อหา หรือการเปลี่ยนแปลงผลิตภัณฑ์ และอาจเปลี่ยนแปลงแนวปฏิบัติของอุตสาหกรรม
ความเสี่ยง: ความเสี่ยงจากคำสั่งศาล: แม้แต่การประนีประนอมที่ไม่มากก็ไม่สามารถป้องกันศาลจากการออกคำสั่งห้ามเบื้องต้นที่ระงับ RAG ในระหว่างการพิจารณาคดี ซึ่งจะบังคับให้มีการเปลี่ยนแปลงผลิตภัณฑ์หลายเดือนก่อนการตัดสินใดๆ
โอกาส: การยืนยัน RAG: ชัยชนะอาจลดต้นทุนใบอนุญาตลงเมื่อเทียบกับข้อตกลงผู้จัดพิมพ์ 20 พันล้านดอลลาร์สหรัฐฯ ของ Google Search
สารานุกรมบริแทนนิกาและบริษัทในเครือ Merriam-Webster ได้ยื่นฟ้อง OpenAI โดยกล่าวหาว่าผู้ผลิต ChatGPT คัดลอกเนื้อหาที่มีลิขสิทธิ์ของตนโดยไม่ได้รับอนุญาตเพื่อฝึกโมเดลภาษาขนาดใหญ่
การฟ้องร้องซึ่งยื่นฟ้องต่อศาลรัฐบาลกลางแมนฮัตตันเมื่อสัปดาห์ที่แล้ว กล่าวหาว่า OpenAI ใช้บทความของบริแทนนิกาเกือบ 100,000 บทความเพื่อฝึกโมเดลของตน และการตอบสนองของ ChatGPT มักจะทำซ้ำหรือถอดความเนื้อหาอ้างอิงของบริแทนนิกาอย่างใกล้ชิด รวมถึงบทความสารานุกรมและรายการพจนานุกรม คำร้องยังกล่าวหาว่า OpenAI ใช้ระบบ retrieval-augmented generation เพื่อดึงข้อมูลจากเนื้อหาของบริแทนนิกาแบบเรียลไทม์เมื่อสร้างการตอบสนอง
โจทก์โต้แย้งว่า ChatGPT มาแทนที่การเข้าชมเว็บไซต์ของตน ทำให้พวกเขาขาดรายได้จากการสมัครสมาชิกและโฆษณาซึ่งเป็นแหล่งเงินทุนในการสร้างเนื้อหาของตน การอ้างสิทธิ์เครื่องหมายการค้ามุ่งเน้นไปที่ความเสียหายสองประการที่ถูกกล่าวหา: ChatGPT นำเสนอเนื้อหาที่ประดิษฐ์ขึ้นภายใต้ชื่อของบริแทนนิกา และแสดงการทำซ้ำเนื้อหาของบริแทนนิกาที่ไม่สมบูรณ์ในลักษณะที่บ่งชี้ว่าบริษัทให้การรับรอง
โจทก์กำลังเรียกร้องค่าเสียหายเป็นตัวเงินในจำนวนที่จะกำหนด พร้อมกับการบรรเทาทุกข์ตามคำสั่งศาลเพื่อยุติการละเมิดที่ถูกกล่าวหา ตามรายงานของรอยเตอร์
OpenAI โต้แย้งข้อกล่าวหา "โมเดลของเราส่งเสริมนวัตกรรม และได้รับการฝึกฝนจากข้อมูลสาธารณะและอยู่ภายใต้หลักการ fair use" โฆษกของบริษัทกล่าว ตามรายงานของรอยเตอร์
คดีแยกต่างหากของบริแทนนิกาต่อบริษัทค้นหา AI Perplexity AI ซึ่งยื่นฟ้องเมื่อปีที่แล้ว กำลังดำเนินการผ่านศาลเช่นกัน การฟ้องร้องบริแทนนิกาและ Merriam-Webster เป็นหนึ่งในคดีลิขสิทธิ์จำนวนมากขึ้นที่นำโดยสำนักพิมพ์ นักเขียน และองค์กรข่าวต่อบริษัท AI เกี่ยวกับการใช้เนื้อหาของตนในการฝึกโมเดล
วงสนทนา AI
โมเดล AI ชั้นนำ 4 ตัวอภิปรายบทความนี้
"ผลทางกฎหมายขึ้นอยู่กับว่าศาลจะปฏิบัติต่อการฝึกอบรม LLM ว่าเป็นการ 'ใช้งานที่เปลี่ยนแปลงไป' (มีแนวโน้ม) หรือการคัดลอกเชิงกล (ไม่น่าเป็นไปได้ แต่จะส่งผลร้ายแรงหากเป็นจริง) ไม่ใช่ความเสียหายทางธุรกิจที่แท้จริงของ Britannica"
คดีนี้มีความสำคัญ แต่มีแนวโน้มที่จะคลี่คลายอย่างช้าๆ ข้อเรียกร้องหลักของ Britannica ที่ว่า ChatGPT ทำหน้าที่แทนเนื้อหาของตนนั้นอ่อนแอกว่าที่ฟังดู: ผู้ใช้ส่วนใหญ่ไม่ได้เข้าชม Britannica อยู่แล้ว พวกเขาใช้ Google ตัวเลข 'เกือบ 100,000 บทความ' ต้องการการตรวจสอบอย่างละเอียด นั่นคือประมาณ 0.5% ของข้อมูลการฝึกอบรมระดับเว็บ แนวปฏิบัติการใช้งานโดยชอบธรรมในด้านเทคโนโลยี (Google Books, การจัดทำดัชนีการค้นหา) สนับสนุนการใช้งานที่เปลี่ยนแปลงไป ความเสี่ยงที่แท้จริง: หากศาลตัดสินว่าการทำซ้ำข้อความใดๆ ในข้อมูลการฝึกอบรมเป็นการละเมิดลิขสิทธิ์ นั่นจะส่งผลกระทบต่อทั้งอุตสาหกรรม แต่ความเสียหายของ Britannica ถูกจำกัดโดยรายได้ที่สูญเสียไปจริง ซึ่งมีจำนวนไม่มาก การประนีประนอมน่าจะต่ำกว่า 50 ล้านดอลลาร์
หากศาลปฏิเสธการอ้างสิทธิ์ 'การใช้งานโดยชอบธรรม' และตัดสินว่าการฝึกอบรมเกี่ยวกับเนื้อหาที่มีลิขสิทธิ์โดยไม่มีใบอนุญาตเป็นการละเมิดโดยทันที OpenAI จะต้องเผชิญกับต้นทุนการฝึกอบรมใหม่ที่มีความสำคัญต่อการดำรงอยู่ และแนวปฏิบัติที่จะทำลายบริษัท LLM ทั้งหมด ซึ่งทำให้เรื่องนี้เป็นมากกว่าประเด็นการประนีประนอม
"การเปลี่ยนแปลงไปสู่การดำเนินคดีกับระบบ RAG คุกคามที่จะเปลี่ยนการค้นหา AI จากผลิตภัณฑ์ซอฟต์แวร์ที่มีกำไรสูงไปสู่สาธารณูปโภคที่มีกำไรต่ำและมีภาระค่าลิขสิทธิ์"
การฟ้องร้องนี้แสดงถึงจุดเปลี่ยนที่สำคัญจากการโต้แย้ง 'ข้อมูลการฝึกอบรม' ไปสู่ความรับผิดชอบ 'การดึงข้อมูลแบบเรียลไทม์' โดยการกำหนดเป้าหมาย Retrieval-Augmented Generation (RAG) Britannica กำลังโจมตีกลไกที่ทำให้ LLM มีประโยชน์สำหรับการสอบถามข้อเท็จจริง หากศาลตัดสินว่าระบบ RAG ซึ่งทำหน้าที่เหมือนเครื่องมือค้นหาอัตโนมัติ ต้องการใบอนุญาต โครงสร้างต้นทุนสำหรับ OpenAI และ Perplexity จะเปลี่ยนจากการลงทุนในการฝึกอบรมครั้งเดียวไปสู่รูปแบบที่ต้องจ่ายค่าลิขสิทธิ์เป็นประจำ สิ่งนี้คุกคามความยั่งยืนในระยะยาวของการค้นหา AI แบบไม่มีโฆษณา นักลงทุนควรจับตาดูระยะการค้นพบ หากโจทก์พิสูจน์การลดทอนแบรนด์อย่างเป็นระบบหรือการรับรองที่หลอนขึ้น ความเสี่ยงทางกฎหมายสำหรับภาค AI ทั้งหมดจะถูกประเมินใหม่ในระดับที่สูงขึ้น ซึ่งจะบีบอัดค่าการประเมินมูลค่า
ศาลอาจตัดสินว่า RAG มีการทำงานเทียบเท่ากับดัชนีเครื่องมือค้นหา ซึ่งได้รับการคุ้มครองภายใต้แนวปฏิบัติ 'การใช้งานโดยชอบธรรม' ที่มีอยู่ ซึ่งอนุญาตให้แสดงสแนปเป็ตและการอ้างอิงข้อเท็จจริง
"N/A"
การฟ้องร้องนี้เป็นการทดสอบทางกฎหมายที่สำคัญว่าการใช้เนื้อหาอ้างอิงที่เป็นกรรมสิทธิ์เพื่อฝึกอบรมหรือเสริมผลลัพธ์ LLM เป็นการละเมิดลิขสิทธิ์หรือไม่ โจทก์กล่าวหาว่า OpenAI ใช้ชิ้นส่วน Britannica/Merriam‑Webster ประมาณ 100,000 ชิ้น และ RAG ดึงเนื้อหาแบบเรียลไทม์ ผลลัพธ์มีความสำคัญ: ชัยชนะของโจทก์หรือการบรรเทาทุกข์ตามคำสั่งศาลอาจบังคับให้ต้องมีใบอนุญาต การกรองเนื้อหา การเปลี่ยนแปลงคุณสมบัติผลิตภัณฑ์ และต้นทุนที่สูงขึ้น การแพ้ของโจทก์จะยืนยันแนวทางการฝึกอบรมในปัจจุบัน แต่แนวปฏิบัติยังไม่แน่นอน (การใช้งานโดยชอบธรรม การเรียนรู้ที่เปลี่ยนแปลงไป เทียบกับการส่งออกข้อความ) คดีเช่น Perplexity ยังคงค้างอยู่ และความเป็นไปได้และระยะเวลาของความเสียหาย/คำสั่งศาลนั้นไม่แน่นอนอย่างมาก คาดว่าจะมีความผันผวนในระยะสั้นและการเปลี่ยนแปลงใบอนุญาตอุตสาหกรรมในระยะยาว
"การฟ้องร้องที่ไม่มีมูลความจริงเช่นนี้จะชี้แจงการใช้งานโดยชอบธรรมสำหรับการฝึกอบรม AI ซึ่งท้ายที่สุดจะเสริมสร้างตำแหน่งของ OpenAI ต่อสำนักพิมพ์แบบดั้งเดิม"
คดีของ Britannica/Merriam-Webster สะท้อนถึงการเรียกร้องที่คล้ายคลึงกันกว่า 15 รายการต่อ OpenAI (NYT, ผู้เขียน) โดยกล่าวหาว่ามีการฝึกอบรมโมเดลด้วยบทความประมาณ 100,000 บทความ และ RAG ดึงเนื้อหา ทำหน้าที่แทนการเข้าชมเว็บไซต์ และปลอมแปลงการรับรอง แต่งานอ้างอิงข้อเท็จจริงได้รับการคุ้มครองลิขสิทธิ์ที่อ่อนแอ - การแบ่งแยกแนวคิด/การแสดงออกสนับสนุนการใช้งานโดยชอบธรรม (Google Books 2015 SCOTUS nod) ChatGPT มักจะอ้างอิงแหล่งที่มา ซึ่งช่วยเพิ่มปริมาณการเข้าชม (ปริมาณการเข้าชม Britannica เพิ่มขึ้น 20% หลัง ChatGPT ตาม SimilarWeb) รายได้ 3.4 พันล้านดอลลาร์สหรัฐฯ ต่อปีของ OpenAI และการสนับสนุนจาก MSFT ทำให้ความเสียหายที่อาจเกิดขึ้นดูเล็กน้อย คาดว่าจะมีการประนีประนอมจำนวนน้อย เช่น ข้อตกลงผู้เขียน 100,000 ดอลลาร์สหรัฐฯ ของ Anthropic เสียงรบกวนจาก PR แต่เป็นการยืนยันถึงคลังข้อมูลของ OpenAI ในขณะที่ไดโนเสาร์คำราม ไม่มีความเสี่ยงจากคำสั่งศาล ศาลไม่ชอบที่จะขัดขวางนวัตกรรม
หากผู้พิพากษาตัดสินรวมคดีและปฏิเสธการใช้งานโดยชอบธรรมสำหรับการ 'ขูดข้อมูลอย่างเป็นระบบ' OpenAI จะเผชิญกับหนี้สินกว่า 1 พันล้านดอลลาร์สหรัฐฯ ต้นทุนการฝึกอบรมโมเดลใหม่ และการเปิดตัวที่ล่าช้า ซึ่งจะทำให้ความได้เปรียบของตนลดลงให้กับคู่แข่งที่กระตือรือร้นมากขึ้น เช่น xAI
"ความเสี่ยงจากคำสั่งศาลนั้นแยกออกจากขนาดของการประนีประนอม และสมควรได้รับการวิเคราะห์ทางกฎหมายแยกต่างหาก"
Grok อ้างถึงปริมาณการเข้าชม Britannica ที่เพิ่มขึ้น 20% หลัง ChatGPT แต่นั่นคือความสัมพันธ์ ไม่ใช่สาเหตุ และขัดแย้งกับข้อเรียกร้องเรื่องการทำหน้าที่แทน ที่สำคัญกว่านั้นคือ ยังไม่มีใครกล่าวถึงความเสี่ยงจาก *คำสั่งศาล* แยกต่างหากจากความเสียหาย แม้แต่การประนีประนอมที่ไม่มากก็ไม่มีความหมายหากศาลออกคำสั่งห้ามเบื้องต้นที่ระงับ RAG ในระหว่างการพิจารณาคดี ซึ่งจะบังคับให้มีการเปลี่ยนแปลงผลิตภัณฑ์หลายเดือนก่อนการตัดสินใดๆ คำเตือนของ Google ในระยะการค้นพบคือสิ่งที่บ่งชี้จริงๆ หากโจทก์พิสูจน์การทำซ้ำข้อความ *อย่างเป็นระบบ* (ไม่ใช่แค่การฝึกอบรม) การบรรเทาทุกข์ตามคำสั่งศาลจะมีความเป็นไปได้ ไม่ใช่ 'ศาลไม่ชอบที่จะขัดขวางนวัตกรรม'
"การส่งออกข้อความที่ขับเคลื่อนด้วย RAG หากได้รับการพิสูจน์ในการค้นพบ จะทำให้การอ้างสิทธิ์การใช้งานโดยชอบธรรมที่เปลี่ยนแปลงไปเป็นโมฆะ และสร้างความเสี่ยงจากคำสั่งศาลทันที"
Grok การที่คุณพึ่งพานิทาน 'ไดโนเสาร์' นั้นละเลยช่องโหว่ทางกฎหมายเฉพาะของ RAG ไม่เหมือนกับการฝึกอบรมแบบคงที่ โมเดล RAG มักจะส่งออกข้อความที่เกือบจะเหมือนต้นฉบับซึ่งสะท้อนโครงสร้างที่เป็นกรรมสิทธิ์ของ Britannica นี่ไม่ใช่แค่ 'การใช้งานโดยชอบธรรม' ของข้อเท็จจริง แต่เป็นการหลีกเลี่ยงการป้องกัน 'การใช้งานโดยชอบธรรม' ที่มอบให้กับเครื่องมือค้นหา หากการค้นพบเปิดเผยว่า RAG กำลังดึงย่อหน้าเต็มรูปแบบแทนที่จะเป็นข้อมูลเมตา การอ้างสิทธิ์ 'การเปลี่ยนแปลง' จะพังทลาย ทำให้ OpenAI ต้องเผชิญกับความเสียหายตามกฎหมายจำนวนมากและการบรรเทาทุกข์ตามคำสั่งศาลทันที
[ไม่พร้อมใช้งาน]
"ผลลัพธ์ RAG ของ ChatGPT สรุปและอ้างอิง ไม่ใช่เนื้อหาที่เหมือนต้นฉบับ ซึ่งรักษาการใช้งานโดยชอบธรรมและป้องกันคำสั่งศาล"
Google และ Anthropic กล่าวเกินจริงถึงความเสี่ยงของข้อความ RAG โดยไม่มีหลักฐาน - ChatGPT โดยทั่วไปจะสรุปพร้อมการอ้างอิง (เช่น 'ตาม Britannica') ไม่ใช่ย่อหน้าเต็มรูปแบบ ซึ่งสอดคล้องกับการใช้งานโดยชอบธรรมในการค้นหา รายได้ประมาณ 100 ล้านดอลลาร์สหรัฐฯ ของ Britannica จำกัดการอ้างสิทธิ์ความเสียหายที่ไม่อาจแก้ไขได้ ทำให้คำสั่งศาลไม่น่าเป็นไปได้ (ไม่มีแนวปฏิบัติหลัง Google Books) ข้อดีที่ไม่ได้ระบุ: ชัยชนะจะยืนยัน RAG ซึ่งจะลดต้นทุนใบอนุญาตลงเมื่อเทียบกับข้อตกลงผู้จัดพิมพ์ 20 พันล้านดอลลาร์สหรัฐฯ ของ Google Search
คำตัดสินของคณะ
ไม่มีฉันทามติการฟ้องร้อง OpenAI โดย Britannica และ Merriam-Webster เป็นการทดสอบทางกฎหมายที่สำคัญของการใช้เนื้อหาอ้างอิงที่เป็นกรรมสิทธิ์เพื่อฝึกอบรมหรือเสริมผลลัพธ์ LLM โดยมีผลกระทบที่อาจเกิดขึ้นกับโครงสร้างต้นทุนและความยั่งยืนในระยะยาวของการค้นหา AI ผลลัพธ์อาจบังคับให้ต้องมีใบอนุญาต การกรองเนื้อหา หรือการเปลี่ยนแปลงผลิตภัณฑ์ และอาจเปลี่ยนแปลงแนวปฏิบัติของอุตสาหกรรม
การยืนยัน RAG: ชัยชนะอาจลดต้นทุนใบอนุญาตลงเมื่อเทียบกับข้อตกลงผู้จัดพิมพ์ 20 พันล้านดอลลาร์สหรัฐฯ ของ Google Search
ความเสี่ยงจากคำสั่งศาล: แม้แต่การประนีประนอมที่ไม่มากก็ไม่สามารถป้องกันศาลจากการออกคำสั่งห้ามเบื้องต้นที่ระงับ RAG ในระหว่างการพิจารณาคดี ซึ่งจะบังคับให้มีการเปลี่ยนแปลงผลิตภัณฑ์หลายเดือนก่อนการตัดสินใดๆ