สิ่งที่ตัวแทน AI คิดเกี่ยวกับข่าวนี้
การสนทนาหมุนรอบผลกระทบทางจริยธรรมและเศรษฐกิจของบริษัท AI ที่จัดหาข้อมูลชีวมิติจากแพลตฟอร์ม micro-tasking แม้ว่าผู้ร่วมอภิปรายบางคน (Grok) มองว่านี่เป็นเศรษฐกิจแบบ Gig ที่เป็นประโยชน์ แต่คนอื่นๆ (Anthropic, Google, OpenAI) แสดงความกังวลเกี่ยวกับความเสี่ยงทางกฎหมาย คุณภาพของข้อมูล และการแสวงหาประโยชน์จากคนงานที่อาจเกิดขึ้น
ความเสี่ยง: ศักยภาพในการดำเนินคดีจำนวนมหาศาลและมีค่าใช้จ่ายสูงเนื่องจากการละเมิดข้อมูลและการนำไปใช้ในทางที่ผิด ตามที่ Google และ OpenAI เน้นย้ำ
โอกาส: การเข้าถึงข้อมูลมนุษย์ที่มีคุณภาพสูงและถูกกฎหมายในราคา micro-payments ตามที่ Grok เน้นย้ำ
เช้าวันหนึ่งเมื่อปีที่แล้ว Jacobus Louw ออกไปเดินเล่นในละแวกบ้านตามปกติเพื่อให้อาหารนกนางนวลที่เขาพบระหว่างทาง แต่ครั้งนี้ เขาได้บันทึกวิดีโอหลายรายการเกี่ยวกับเท้าของเขาและทิวทัศน์ขณะที่เขาเดินไปตามทางเท้า วิดีโอนี้ทำให้เขาได้รับเงิน 14 ดอลลาร์ ซึ่งประมาณ 10 เท่าของค่าแรงขั้นต่ำของประเทศ หรือสำหรับ Louw ชายวัย 27 ปีที่อาศัยอยู่ในเคปทาวน์ แอฟริกาใต้ เท่ากับค่าของชำครึ่งสัปดาห์
วิดีโอดังกล่าวเป็นส่วนหนึ่งของงาน "Urban Navigation" ที่ Louw พบใน Kled AI ซึ่งเป็นแอปที่จ่ายเงินให้ผู้ร่วมให้ข้อมูลสำหรับการอัปโหลดข้อมูลของตน เช่น วิดีโอและรูปภาพ เพื่อฝึกโมเดลปัญญาประดิษฐ์ ในเวลาไม่กี่สัปดาห์ Louw ทำเงินได้ 50 ดอลลาร์จากการอัปโหลดรูปภาพและวิดีโอชีวิตประจำวันของเขา
ห่างออกไปหลายพันไมล์ในเมือง Ranchi ประเทศอินเดีย Sahil Tigga นักศึกษาวัย 22 ปี ได้รับเงินเป็นประจำจากการอนุญาตให้ Silencio ซึ่งรวบรวมข้อมูลเสียงสำหรับการฝึก AI เข้าถึงไมโครโฟนในโทรศัพท์ของเขาเพื่อจับเสียงรบกวนรอบข้างในเมือง เช่น เสียงภายในร้านอาหารหรือการจราจรที่ทางแยกที่พลุกพล่าน เขายังอัปโหลดการบันทึกเสียงของเขาด้วย Sahil เดินทางเพื่อจับภาพสภาพแวดล้อมที่ไม่เหมือนใคร เช่น ล็อบบี้โรงแรมที่ยังไม่มีการบันทึกในแผนที่ของ Silencio เขามีรายได้มากกว่า 100 ดอลลาร์ต่อเดือนจากการทำเช่นนี้ ซึ่งเพียงพอที่จะครอบคลุมค่าใช้จ่ายด้านอาหารทั้งหมดของเขา
และในชิคาโก Ramelio Hill นักฝึกหัดเชื่อมวัย 18 ปี ได้เงินหลายร้อยดอลลาร์จากการขายการสนทนาส่วนตัวทางโทรศัพท์กับเพื่อนและครอบครัวให้กับ Neon Mobile ซึ่งเป็นแพลตฟอร์มฝึกอบรม AI สนทนาที่จ่าย 0.50 ดอลลาร์ต่อนาที สำหรับ Hill การคำนวณนั้นง่ายมาก: เขาคิดว่าบริษัทเทคโนโลยีได้รวบรวมข้อมูลส่วนตัวของเขาไปมากแล้ว ดังนั้นเขาจึงควรได้รับส่วนแบ่งจากผลกำไร
ผู้ฝึก AI แบบกิ๊กเหล่านี้ ซึ่งอัปโหลดทุกอย่างตั้งแต่ฉากรอบตัวไปจนถึงรูปภาพ วิดีโอ และเสียงของตนเอง อยู่ในแนวหน้าของการแข่งขันเพื่อข้อมูลทองคำระดับโลกใหม่ เมื่อความต้องการข้อมูลคุณภาพสูงระดับมนุษย์ของ Silicon Valley แซงหน้าสิ่งที่สามารถรวบรวมได้จากอินเทอร์เน็ตสาธารณะ อุตสาหกรรมตลาดข้อมูลที่เฟื่องฟูได้เกิดขึ้นเพื่อเชื่อมช่องว่าง ตั้งแต่เคปทาวน์ไปจนถึงชิคาโก ผู้คนหลายพันคนกำลังให้สิทธิ์ใช้งานข้อมูลประจำตัวทางชีวภาพและข้อมูลส่วนตัวของตนเองในระดับจุลภาคเพื่อฝึก AI รุ่นต่อไป
แต่เศรษฐกิจกิ๊กแบบใหม่นี้มาพร้อมกับการแลกเปลี่ยน เพื่อแลกกับเงินไม่กี่ดอลลาร์ ผู้ฝึกอบรมเหล่านี้กำลังขับเคลื่อนอุตสาหกรรมที่อาจทำให้ทักษะของพวกเขาหมดความจำเป็นในที่สุด ขณะเดียวกันก็ทำให้บางคนเสี่ยงต่อการถูกใช้ในอนาคตด้วย deepfakes การโจรกรรมข้อมูลประจำตัว และการแสวงหาประโยชน์ทางดิจิทัลที่พวกเขาเพิ่งเริ่มทำความเข้าใจ
การรักษาให้วงล้อ AI หมุนต่อไป
โมเดลภาษาของ AI เช่น ChatGPT และ Gemini ต้องการแหล่งข้อมูลการเรียนรู้จำนวนมหาศาลเพื่อปรับปรุง แต่กำลังเผชิญกับภาวะขาดแคลนข้อมูล แหล่งข้อมูลการฝึกอบรมที่ใช้มากที่สุด เช่น C4, RefinedWeb และ Dolma ซึ่งคิดเป็นหนึ่งในสี่ของชุดข้อมูลคุณภาพสูงสุดบนเว็บ กำลังจำกัดบริษัท AI เชิงกำเนิดจากการฝึกโมเดลด้วยข้อมูลของตน นักวิจัยคาดการณ์ว่าบริษัท AI จะขาดแคลนข้อความคุณภาพสูงที่สดใหม่เพื่อฝึกอบรมได้เร็วที่สุดในปี 2026 แม้ว่าบางห้องทดลองจะหันไปใช้ข้อมูลสังเคราะห์ที่ AI สร้างขึ้น แต่กระบวนการแบบวนซ้ำดังกล่าวอาจทำให้โมเดลสร้างข้อมูลที่เต็มไปด้วยข้อผิดพลาดซึ่งนำไปสู่ความล่มสลายได้
นี่คือที่ที่แอปอย่าง Kled AI และ Silencio เข้ามา ในตลาดข้อมูลประเภทนี้ ผู้คนนับล้านกำลังสร้างรายได้จากข้อมูลประจำตัวของตนเองเพื่อป้อนและฝึก AI นอกเหนือจาก Kled AI, Silencio และ Neon Mobile ยังมีตัวเลือกมากมายสำหรับผู้ฝึก AI: Luel AI ซึ่งได้รับการสนับสนุนจาก Y-Combinator ซึ่งเป็นศูนย์บ่มเพาะสตาร์ทอัพที่มีชื่อเสียง รวบรวมบทสนทนาหลายภาษาในราคาประมาณ 0.15 ดอลลาร์ต่อนาที ElevenLabs ช่วยให้คุณสามารถโคลนเสียงของคุณแบบดิจิทัลและให้ใครก็ตามใช้ได้โดยมีค่าธรรมเนียมพื้นฐาน 0.02 ดอลลาร์ต่อนาที
การฝึก AI แบบกิ๊กเป็นประเภทงานใหม่ที่กำลังเกิดขึ้น และจะเติบโตอย่างมาก Bouke Klein Teeselink ศาสตราจารย์ด้านเศรษฐศาสตร์ที่ King's College London กล่าว
บริษัท AI ทราบดีว่าการจ่ายเงินให้ผู้คนเพื่ออนุญาตให้ใช้ข้อมูลของตนช่วยหลีกเลี่ยงความเสี่ยงของข้อพิพาทด้านลิขสิทธิ์ที่อาจเผชิญหากพวกเขาพึ่งพาเนื้อหาที่รวบรวมจากเว็บทั้งหมด Tesselink กล่าว บริษัทเหล่านี้ยังต้องการข้อมูลคุณภาพสูงเพื่อสร้างพฤติกรรมใหม่ๆ ที่ดีขึ้นในระบบของตน Veniamin Veselovsky นักวิจัย AI กล่าว "ข้อมูลมนุษย์ ในตอนนี้ ถือเป็นมาตรฐานทองคำที่จะสุ่มตัวอย่างจากภายนอกการกระจายของโมเดล" Veselovsky กล่าวเสริม
มนุษย์ที่ขับเคลื่อนเครื่องจักร โดยเฉพาะอย่างยิ่งผู้ที่อยู่ในประเทศกำลังพัฒนา มักต้องการเงินและมีทางเลือกอื่นในการหารายได้น้อย สำหรับผู้ฝึก AI แบบกิ๊กหลายคน การทำงานนี้เป็นการตอบสนองเชิงปฏิบัติต่อความไม่เท่าเทียมกันทางเศรษฐกิจ ในประเทศที่มีการว่างงานสูงและสกุลเงินที่เสื่อมค่า การได้รับสกุลเงินสหรัฐฯ มักจะมีความมั่นคงและให้ผลตอบแทนมากกว่างานในท้องถิ่น บางคนประสบปัญหาในการหางานระดับเริ่มต้น และทำงานฝึก AI ด้วยความจำเป็น แม้แต่ในประเทศที่ร่ำรวยกว่า ค่าครองชีพที่สูงขึ้นได้เปลี่ยนการขายตัวเองให้กลายเป็นการหมุนทางการเงินที่มีเหตุผล
อย่างไรก็ตาม ข้อผิดพลาดของการฝึก AI แบบกิ๊กอาจมองไม่เห็น ในตลาด AI บางแห่ง ผู้ฝึกข้อมูลจะให้สิทธิ์ใช้งานแบบเพิกถอนไม่ได้และปลอดค่าลิขสิทธิ์ ซึ่งอนุญาตให้บริษัทต่างๆ สร้าง "งานดัดแปลง" ซึ่งหมายความว่าการบันทึกเสียง 20 นาทีในวันนี้อาจขับเคลื่อนบอทบริการลูกค้า AI ไปอีกหลายปี โดยที่ผู้ฝึกจะไม่ได้รับเงินอีกเลย นอกจากนี้ เนื่องจากขาดความโปร่งใสในตลาดเหล่านี้ ใบหน้าของผู้ใช้ก็อาจปรากฏในฐานข้อมูลการรู้จำใบหน้าหรือโฆษณาที่เอารัดเอาเปรียบที่อยู่ห่างไกลครึ่งโลก โดยแทบไม่มีทางแก้ไขทางกฎหมาย
ข้อมูลมนุษย์ ในตอนนี้ ถือเป็นมาตรฐานทองคำที่จะสุ่มตัวอย่างจากภายนอกการกระจายของโมเดล
Louw ผู้ฝึก AI ในเคปทาวน์ ตระหนักถึงการแลกเปลี่ยนความเป็นส่วนตัว และแม้ว่ารายได้จะไม่สม่ำเสมอและไม่เพียงพอที่จะครอบคลุมค่าใช้จ่ายรายเดือนทั้งหมดของเขา เขาก็ยินดีที่จะยอมรับเงื่อนไขเหล่านี้เพื่อหารายได้ เขามีปัญหากับความผิดปกติทางระบบประสาทมาหลายปีและไม่สามารถหางานได้ แต่เงินที่ได้จากตลาด AI รวมถึง Kled AI ทำให้เขาสามารถเก็บเงินเพื่อลงเรียนหลักสูตรฝึกอบรมสปา 500 ดอลลาร์เพื่อเป็นนักนวดบำบัด
"ในฐานะชาวแอฟริกาใต้ การได้รับเงินเป็น USD มีค่ามากกว่าที่ผู้คนคิด" Louw กล่าว
Mark Graham ศาสตราจารย์ด้านภูมิศาสตร์อินเทอร์เน็ตที่ University of Oxford และผู้เขียน Feeding the Machine ยอมรับว่าสำหรับบุคคลในประเทศกำลังพัฒนา เงินจำนวนนี้อาจมีความหมายในระยะสั้น แต่เตือนว่า "ในเชิงโครงสร้าง งานนี้มีความไม่แน่นอน ไม่ก้าวหน้า และเป็นทางตันอย่างมีประสิทธิภาพ"
Graham กล่าวว่าตลาด AI พึ่งพา "การแข่งขันเพื่อค่าแรงที่ต่ำที่สุด" และ "ความต้องการข้อมูลมนุษย์ชั่วคราว" เมื่อความต้องการนี้เปลี่ยนไป "คนงานจะไม่มีการคุ้มครอง ทักษะที่ถ่ายทอดได้ หรือตาข่ายนิรภัย"
Graham กล่าวว่าผู้ชนะเพียงคนเดียวที่ปรากฏคือ "แพลตฟอร์มในซีกโลกเหนือ [ที่] รวบรวมคุณค่าที่ยั่งยืนทั้งหมด"
การอนุญาตแบบ carte blanche
Hill ผู้ฝึก AI ที่อาศัยอยู่ในชิคาโก มีความรู้สึกขัดแย้งเกี่ยวกับการขายการสนทนาส่วนตัวทางโทรศัพท์ให้กับ Neon Mobile สำหรับการโทรประมาณ 11 ชั่วโมง เขาได้รับเงิน 200 ดอลลาร์ แต่เขากล่าวว่าแอปมักจะออฟไลน์และไม่สามารถชำระเงินที่ค้างอยู่ได้ "Neon ดูน่าสงสัยสำหรับฉันเสมอ แต่ฉันก็ยังคงใช้มันเพื่อรับเงินพิเศษง่ายๆ สำหรับค่าใช้จ่ายและค่าใช้จ่ายเบ็ดเตล็ดอื่นๆ" Hill กล่าว
ตอนนี้เขากำลังพิจารณาใหม่ว่าเงินนั้นง่ายแค่ไหน ในเดือนกันยายน เพียงไม่กี่สัปดาห์หลังจากเปิดตัว Neon Mobile ก็ออฟไลน์หลังจาก TechCrunch ค้นพบช่องโหว่ด้านความปลอดภัยที่อนุญาตให้ใครก็ตามเข้าถึงหมายเลขโทรศัพท์ บันทึกการโทร และการถอดความของผู้ใช้ Hill กล่าวว่า Neon Mobile ไม่เคยแจ้งให้เขาทราบเกี่ยวกับเรื่องนี้ และตอนนี้เขากังวลว่าเสียงของเขาอาจถูกนำไปใช้ในทางที่ผิดบนอินเทอร์เน็ต
สิ่งที่ Jennifer King นักวิจัยด้านความเป็นส่วนตัวของข้อมูลที่ Stanford Institute for Human-Centered Artificial Intelligence พบว่าน่ากังวลคือตลาด AI ไม่ชัดเจนเกี่ยวกับวิธีการและสถานที่ที่จะนำข้อมูลของผู้ใช้ไปใช้ หากไม่มีการเจรจาต่อรองหรือทราบสิทธิ์ของตน เธอกล่าวเสริม "ผู้บริโภคมีความเสี่ยงที่ข้อมูลของตนจะถูกนำไปใช้ซ้ำในลักษณะที่พวกเขาไม่ชอบหรือไม่เข้าใจหรือไม่คาดคิด และพวกเขาจะมีการแก้ไขน้อยมากหากเป็นเช่นนั้น"
เมื่อผู้ฝึก AI แบ่งปันข้อมูลของตนบน Neon Mobile และ Kled AI พวกเขากำลังให้สิทธิ์ใช้งานแบบ carte blanche (ทั่วโลก เฉพาะตัว เพิกถอนไม่ได้ โอนย้ายได้ และปลอดค่าลิขสิทธิ์) เพื่อขาย ใช้ แสดงต่อสาธารณะ และจัดเก็บภาพลักษณ์ของตน – และแม้แต่งานดัดแปลงของพวกเขา
Avi Patel ผู้ก่อตั้ง Kled AI กล่าวว่าข้อตกลงข้อมูลของบริษัทของเขามีข้อจำกัดการใช้งานเพื่อวัตถุประสงค์ในการฝึกอบรม AI และการวิจัย "ธุรกิจทั้งหมดขึ้นอยู่กับความไว้วางใจของผู้ใช้ หากผู้ร่วมให้ข้อมูลเชื่อว่าข้อมูลของตนอาจถูกนำไปใช้ในทางที่ผิด แพลตฟอร์มจะหยุดทำงาน" เขากล่าวว่าบริษัทของเขาตรวจสอบธุรกิจต่างๆ ก่อนที่จะขายชุดข้อมูล เพื่อหลีกเลี่ยงการทำงานกับผู้ที่มี "เจตนาที่น่าสงสัย" เช่น สื่อลามกอนาจาร และ "หน่วยงานรัฐบาล" ที่พวกเขาเชื่อว่าอาจใช้ข้อมูลในลักษณะที่ขัดแย้งกับความไว้วางใจนั้น
ในฐานะชาวแอฟริกาใต้ การได้รับเงินเป็น USD มีค่ามากกว่าที่ผู้คนคิด
Neon Mobile ไม่ได้ตอบสนองต่อคำขอความคิดเห็น
ตามที่ Enrico Bonadio ศาสตราจารย์ด้านกฎหมายที่ City St George's, University of London กล่าว ข้อกำหนดของข้อตกลงเหล่านี้อนุญาตให้แพลตฟอร์ม รวมถึงลูกค้าของแพลตฟอร์ม ทำ "เกือบทุกอย่างกับเนื้อหานั้น ตลอดไป โดยไม่มีการชำระเงินเพิ่มเติมและไม่มีทางที่เป็นไปได้สำหรับผู้ร่วมให้ข้อมูลที่จะถอนความยินยอมหรือเจรจาต่อรองใหม่ได้อย่างมีความหมาย"
ความเสี่ยงที่น่ากังวลยิ่งกว่า ได้แก่ ข้อมูลของผู้ฝึกอบรมถูกนำไปใช้สำหรับ deepfakes และการปลอมแปลงตัวตน แม้ว่าตลาดข้อมูลจะอ้างว่าลบข้อมูลประจำตัว เช่น ชื่อและที่ตั้ง ก่อนที่จะขาย แต่รูปแบบทางชีวภาพโดยธรรมชาติแล้วยากที่จะไม่ระบุตัวตนในลักษณะที่แข็งแกร่ง Bonadio กล่าวเสริม
ความเสียใจของผู้ขาย
แม้ว่าผู้ฝึก AI จะสามารถเจรจาการป้องกันที่ซับซ้อนมากขึ้นเกี่ยวกับวิธีการใช้ข้อมูลของตนได้ แต่พวกเขาก็ยังคงรู้สึกเสียใจ เมื่อ Adam Coy นักแสดงจากนิวยอร์ก ขายภาพลักษณ์ของเขาในปี 2024 ด้วยเงิน 1,000 ดอลลาร์ให้กับ Captions ซึ่งเป็นโปรแกรมแก้ไขวิดีโอที่ขับเคลื่อนด้วย AI ซึ่งปัจจุบันเรียกว่า Mirage ข้อตกลงของเขารับประกันว่าตัวตนของเขาจะไม่ถูกนำไปใช้เพื่อวัตถุประสงค์ทางการเมืองใดๆ หรือเพื่อขายเครื่องดื่มแอลกอฮอล์ ยาสูบ หรือสื่อลามกอนาจาร และใบอนุญาตจะหมดอายุในหนึ่งปี
Captions ไม่ได้ตอบสนองต่อคำขอความคิดเห็น
ไม่นานหลังจากนั้น เพื่อนของ Adam ก็เริ่มส่งวิดีโอที่พวกเขาพบทางออนไลน์ซึ่งมีใบหน้าและเสียงของเขาได้รับยอดวิวหลายล้านครั้ง ในวิดีโอหนึ่ง ซึ่งเป็น Instagram reel สำเนา AI ของ Adam อ้างว่าเป็น "หมอช่องคลอด" และส่งเสริมผลิตภัณฑ์เสริมอาหารทางการแพทย์ที่ยังไม่ผ่านการพิสูจน์สำหรับสตรีมีครรภ์และหลังคลอด
"รู้สึกอายที่จะอธิบายให้คนอื่นฟัง" Coy กล่าว
"ความคิดเห็นอ่านแล้วแปลกเพราะพวกเขาแสดงความคิดเห็นเกี่ยวกับรูปลักษณ์ภายนอกของฉัน แต่นั่นไม่ใช่ฉันจริงๆ" Coy กล่าวเสริม "ความรู้สึกของฉัน [ขณะตัดสินใจขายภาพลักษณ์ของฉัน] คือโมเดลส่วนใหญ่จะรวบรวมข้อมูลและภาพลักษณ์จากอินเทอร์เน็ต [อยู่แล้ว] ดังนั้นจึงควรได้รับค่าตอบแทนสำหรับมัน"
Coy กล่าวว่าเขาไม่ได้ลงทะเบียนสำหรับงานข้อมูล AI ใดๆ อีกเลย เขาจะพิจารณาเท่านั้น หากบริษัทเสนอค่าตอบแทนจำนวนมาก
วงสนทนา AI
โมเดล AI ชั้นนำ 4 ตัวอภิปรายบทความนี้
"แพลตฟอร์มเหล่านี้แสดงถึงการตอบสนองของตลาดที่มีเหตุผลต่อการขาดแคลนข้อมูลที่แท้จริง ไม่ใช่การแสวงหาประโยชน์—แต่การขาดความโปร่งใสและเงื่อนไขการอนุญาตที่ไม่สามารถเพิกถอนได้สร้างความเสี่ยงที่แท้จริง (deepfakes, การโจรกรรมข้อมูลประจำตัว) ที่หน่วยงานกำกับดูแลจะบังคับให้แพลตฟอร์มต้องคำนวณในที่สุด ซึ่งจะบีบอัดอัตรากำไร"
บทความนี้มองปัญหาการเก็งกำไรแรงงานว่าเป็นวิกฤตความเป็นส่วนตัว แต่พลาดการคำนวณทางเศรษฐกิจ ตลาดข้อมูลจ่าย 0.15–0.50 ดอลลาร์/นาทีสำหรับข้อมูลชีวมิติ เพราะทางเลือก—ข้อมูลสังเคราะห์หรือการล่มสลายของโมเดล—แย่กว่านั้น เรื่องจริงไม่ใช่การแสวงหาประโยชน์ แต่เป็นความจริงที่บริษัท AI กำลังเผชิญกับการขาดแคลนอย่างแท้จริง สิ่งที่ขาดหายไป: (1) ผู้ร่วมให้ข้อมูลส่วนใหญ่เป็นผู้กระทำการอย่างมีเหตุผลซึ่งทำการวิเคราะห์ต้นทุนและผลประโยชน์ ไม่ใช่เหยื่อ (2) ความเสี่ยง deepfake เป็นเรื่องจริงแต่ถูกกล่าวเกินจริง—โมเดลการจดจำใบหน้าไม่ต้องการการเชื่อมโยงข้อมูลประจำตัว (3) ไม่มีการอภิปรายว่าแพลตฟอร์มเหล่านี้ปรับปรุงประสิทธิภาพของโมเดลจริงหรือไม่ หรือเพียงแค่รู้สึกมีความเสี่ยงทางกฎหมายน้อยลง ความไม่แน่นอนเป็นเรื่องจริง แต่ธรรมชาติของการเข้าร่วมโดยสมัครใจก็เป็นเรื่องจริงเช่นกัน
หากตลาดข้อมูลสามารถแก้ปัญหา 'ภาวะขาดแคลนข้อมูล' ได้จริง ทำไมเราถึงไม่เห็นการปรับปรุงที่วัดผลได้ในคุณภาพของโมเดลแนวหน้าหลังปี 2023? บทความนี้สันนิษฐานว่าความต้องการเป็นโครงสร้าง แต่ก็อาจเป็นเพียงการแก้ปัญหาชั่วคราวในขณะที่ข้อมูลสังเคราะห์และ AI ตามรัฐธรรมนูญเติบโตเต็มที่
"การพึ่งพา 'ข้อมูล Gig' ที่มีข้อสงสัยทางจริยธรรมและกฎหมายสร้างความรับผิดชอบที่เป็นระบบซึ่งจะบังคับให้โมเดลพื้นฐานในปัจจุบันต้องล้าสมัยอย่างมีค่าใช้จ่ายในที่สุด"
การทำให้ข้อมูลชีวมิติกลายเป็นสินค้าโภคภัณฑ์ผ่านแพลตฟอร์มงานขนาดเล็กเป็น "การแข่งขันเพื่อสู่จุดต่ำสุด" แบบคลาสสิกที่บดบังหนี้สินที่ค้างอยู่จำนวนมหาศาลสำหรับภาค AI แม้ว่าบทความนี้จะนำเสนอว่าเป็นเรื่องราวการเสริมสร้างพลังทางเศรษฐกิจ แต่จริงๆ แล้วเป็นความพยายามที่สิ้นหวังของห้องทดลอง AI เพื่อหลีกเลี่ยง 'ภาวะขาดแคลนข้อมูล' โดยการโอนความเสี่ยงทางกฎหมายให้กับแรงงานที่ไม่แน่นอน ด้วยการรักษาใบอนุญาต 'ที่ไม่สามารถเพิกถอนได้' บริษัทเหล่านี้กำลังสร้างอนาคตของการฟ้องร้อง เมื่อชุดข้อมูลเหล่านี้ถูกรวมเข้ากับโมเดลพื้นฐาน พวกมันจะกลายเป็นสินทรัพย์ที่เป็นพิษ การละเมิดหรือการใช้ในทางที่ผิด—เช่น การรั่วไหลของ Neon Mobile—จะสร้างความรับผิดชอบที่เป็นระบบซึ่งจะกระตุ้นการฟ้องร้องแบบกลุ่ม ซึ่งอาจบังคับให้ต้องฝึกอบรมโมเดลใหม่ครั้งใหญ่และมีค่าใช้จ่ายสูงเพื่อกำจัดข้อมูลที่ปนเปื้อน
แพลตฟอร์มเหล่านี้อาจช่วยลดอุปสรรคในการเข้าสู่การพัฒนา AI ซึ่งส่งเสริมตลาดที่มีการแข่งขันมากขึ้นซึ่งทำลายการผูกขาดของ Big Tech ซึ่งปัจจุบันกักตุนข้อมูลที่เป็นกรรมสิทธิ์คุณภาพสูงสุด
"ตลาดข้อมูลที่มาจากผู้บริโภคจัดหาอุปทานการฝึกอบรมระยะสั้น แต่รวบรวมมูลค่าทางกฎหมาย ชื่อเสียง และเศรษฐกิจที่ยั่งยืนไว้กับผู้ซื้อแพลตฟอร์ม ทำให้โมเดลมีความเสี่ยงเชิงโครงสร้างและไม่ยั่งยืน เว้นแต่จะมีการกำกับดูแลที่เข้มงวดขึ้น หรือค่าตอบแทน/การควบคุมที่ดีขึ้นอย่างมีนัยสำคัญ"
ชิ้นงานนี้เน้นย้ำถึงเศรษฐกิจขนาดเล็กที่แท้จริงและเติบโตอย่างรวดเร็ว: บุคคลในหลายประเทศขายเสียง วิดีโอ และข้อมูลชีวมิติให้กับตลาดฝึกอบรม AI เพื่อรับค่าตอบแทนเล็กน้อยทันที อุปทานดังกล่าวช่วยปิดช่องว่างข้อมูลที่เฉียบพลันในวันนี้ แต่ข้อตกลง (มักจะเป็นใบอนุญาตที่ไม่สามารถเพิกถอนได้และปลอดค่าลิขสิทธิ์) จะโอนมูลค่าระยะยาวและความเสี่ยงทางกฎหมายไปยังผู้ซื้อแพลตฟอร์ม — สร้างการเปิดรับชื่อเสียง กฎระเบียบ และการฉ้อโกงในภายหลัง บริบทที่ขาดหายไป: ขนาดและคุณภาพของชุดข้อมูลเหล่านี้ ความแตกต่างของกฎหมายความยินยอมข้ามเขตอำนาจศาล ต้นทุนการตรวจสอบสถานะของฝั่งผู้ซื้อ และความเร็วที่ข้อมูลสังเคราะห์ การเรียนรู้บนอุปกรณ์ หรือกฎระเบียบสามารถลดความต้องการได้ สำหรับนักลงทุน สิ่งนี้สำคัญที่สุดสำหรับบริษัทที่สร้างรายได้จากข้อมูลมนุษย์ของบุคคลที่สาม และสำหรับผู้ขายประกัน การยืนยันตัวตน และการบรรเทา deepfake
สิ่งนี้ประเมินประโยชน์ของคนงานต่ำไป: การจ่ายเงิน USD micro-gigs สามารถมีความหมายในภูมิภาคที่มีการว่างงานสูงและอาจกระตุ้นโมเดลการอนุญาตที่ได้มาตรฐานและได้รับค่าตอบแทนที่ดีขึ้น นอกจากนี้ ความก้าวหน้าในข้อมูลสังเคราะห์ที่รักษาความเป็นส่วนตัวหรือการเรียนรู้แบบสหพันธ์อาจลดการพึ่งพาชุดข้อมูลที่มาจากมนุษย์ที่มีความเสี่ยงก่อนที่ความเสียหายจำนวนมากจะปรากฏขึ้น
"ตลาดข้อมูลอย่าง Kled AI และ Silencio เสนอช่องทางที่ถูกกฎหมายและราคาถูกสำหรับบริษัท AI ในการเข้าถึงข้อมูลฝึกอบรมระดับมนุษย์ หลีกเลี่ยงภาวะข้อมูลเว็บหมดอายุในปี 2026"
บทความนี้เน้นเศรษฐกิจแบบ Gig ที่กำลังเกิดขึ้นและเติบโตอย่างรวดเร็วสำหรับข้อมูลฝึกอบรม AI — แอปอย่าง Kled AI (วิดีโอละ 14 ดอลลาร์), Silencio (เสียง 100 ดอลลาร์+/เดือน) และ Neon Mobile (สายสนทนา 0.50 ดอลลาร์/นาที) — เติมเต็มช่องว่างข้อมูลที่สำคัญเนื่องจากการรวบรวมข้อมูลเว็บจะแห้งไปในปี 2026 ในด้านการเงิน สิ่งนี้เป็นผลดีต่อบริษัท AI: ข้อมูลมนุษย์ที่มีคุณภาพสูงและถูกกฎหมาย (มาตรฐานทองคำตามนักวิจัย) ในราคา micro-payments หลีกเลี่ยงข้อพิพาทด้านลิขสิทธิ์ที่รบกวน OpenAI/Anthropic คนงานใน Global South ได้รับรายได้เป็น USD (10 เท่าของค่าแรงในท้องถิ่น) ทำให้เกิดการขยายตัวของอุปทานอย่างรวดเร็ว ความเสี่ยง เช่น ใบอนุญาตที่ไม่สามารถเพิกถอนได้ และการละเมิดของ Neon มีอยู่จริง แต่คำพูดของผู้เข้าร่วมแสดงให้เห็นถึงการยอมรับอย่างมีเหตุผล ซึ่งบ่งชี้ถึงการเติบโตที่ยั่งยืนเหนือความตื่นตระหนกเรื่องความเป็นส่วนตัว อาจารย์อย่าง Graham เรียกมันว่า 'ทางตัน' แต่คู่ขนานกับโมเดล Gig ของ Uber พิสูจน์เป็นอย่างอื่น—แพลตฟอร์มรวบรวมมูลค่า คนงานปรับตัว
การปราบปรามด้านกฎระเบียบเกี่ยวกับการขายข้อมูลชีวมิติ (เช่น การขยาย EU AI Act) อาจทำให้ตลาดเหล่านี้ปิดตัวลงในชั่วข้ามคืน ทำให้บริษัท AI ขาดทางเลือกท่ามกลางปัญหาของข้อมูลสังเคราะห์ ค่าแรง "การแข่งขันเพื่อสู่จุดต่ำสุด" ของแพลตฟอร์มและการละเมิดความไว้วางใจเช่น Neon อาจทำให้ผู้ร่วมให้ข้อมูลไม่พอใจ ซึ่งจะทำให้ปริมาณอุปทานลดลงก่อนที่อุปสงค์จะถึงจุดสูงสุด
"การยอมรับเงื่อนไขที่ไม่เอื้ออำนวยของคนงานบ่งบอกถึงความสิ้นหวัง ไม่ใช่สุขภาพของตลาด ข้อจำกัดคือข้อมูลนี้ปรับปรุงโมเดลจริงหรือไม่ หรือเพียงแค่ลดแรงเสียดทานทางกฎหมาย"
Grok ผสมปนเปสองพลวัตที่แยกจากกัน: การยอมรับของคนงานฝั่งอุปทานกับการความยั่งยืนฝั่งอุปสงค์ ใช่ ผู้เข้าร่วม Neon Mobile ไม่สนใจความเสี่ยงจากการละเมิด—แต่นั่นเป็นเพราะพวกเขาไม่มีอำนาจต่อรอง ไม่ใช่เพราะโมเดลนั้นแข็งแกร่ง การทดสอบที่แท้จริง: ห้องทดลอง AI *จะรวม* ข้อมูลนี้เข้ากับโมเดลการผลิตจริงหรือไม่ หรือมันยังคงเป็นเพียงการป้องกันทางกฎหมาย? ถ้าเป็นอย่างหลัง เศรษฐศาสตร์ 0.15–0.50 ดอลลาร์/นาที จะล่มสลายเมื่อทางเลือกสังเคราะห์เติบโตเต็มที่ การเปรียบเทียบ Uber ของ Grok ล้มเหลว—การแบ่งปันรถยนต์สร้างมูลค่าการประสานงานแบบเรียลไทม์ที่ไม่อาจทดแทนได้ ข้อมูลชีวมิติสามารถใช้แทนกันได้
"การบังคับใช้กฎระเบียบของ GDPR/EU AI Act จะทำให้ใบอนุญาตข้อมูลชีวมิติแบบ 'ไม่สามารถเพิกถอนได้' ไม่สามารถบังคับใช้ได้ตามกฎหมาย ซึ่งสร้างความรับผิดชอบแฝงที่สำคัญสำหรับบริษัท AI"
Anthropic ถูกต้องในการท้าทายการเปรียบเทียบ Uber แต่ทั้ง Anthropic และ Grok พลาดการเสียดสีทางภูมิรัฐศาสตร์ แพลตฟอร์มเหล่านี้ไม่ใช่แค่ 'ตลาดข้อมูล' แต่เป็นเครื่องมือเก็งกำไรที่ใช้ประโยชน์จากช่องว่างทางเขตอำนาจศาลใน EU AI Act และ GDPR หากสหภาพยุโรปบังคับใช้ข้อกำหนดการพกพาข้อมูลชีวมิติที่เข้มงวด หรือ 'สิทธิ์ที่จะถูกลืม' กับชุดข้อมูล ลักษณะ 'ที่ไม่สามารถเพิกถอนได้' ของใบอนุญาตเหล่านี้จะกลายเป็นเรื่องสมมติทางกฎหมาย สิ่งนี้สร้างต้นทุน 'การทำความสะอาด' ที่ซ่อนอยู่จำนวนมหาศาลสำหรับบริษัทใดก็ตามที่อาศัยข้อมูลนี้
[ไม่พร้อมใช้งาน]
"ความหลากหลายของข้อมูลนี้เหนือกว่าข้อมูลสังเคราะห์ และการเก็งกำไรทางเขตอำนาจศาลช่วยลดความเสี่ยงทางกฎหมาย"
การปฏิเสธความสามารถในการใช้แทนกันได้ของ Anthropic มองข้ามความแตกต่างทางประชากรของข้อมูลเสียง/วิดีโอ—ข้อมูลสังเคราะห์ล้มเหลวในสำเนียง/ภาษาถิ่นที่หายาก (ผลการวิจัย DeepMind/NeurIPS)—ทำให้การจัดหาจาก Global South ไม่สามารถทดแทนได้ในระยะสั้น 'เรื่องสมมติ' ของ Google ในสหภาพยุโรปเพิกเฉยต่อการจำกัดเขตภูมิศาสตร์ของแพลตฟอร์ม: ผู้ร่วมให้ข้อมูล 80%+ ในอินเดีย/ฟิลิปปินส์ (บทความ) หลีกเลี่ยงการบังคับใช้ GDPR นอกอาณาเขตสำหรับผู้ซื้อที่ตั้งอยู่ในสหรัฐอเมริกา ใบอนุญาตภาพถ่ายสต็อกแบบไม่สามารถเพิกถอนได้ก็เฟื่องฟูในลักษณะเดียวกัน ข้อมูล AI ก็ตามมาโดยไม่ล่มสลาย
คำตัดสินของคณะ
ไม่มีฉันทามติการสนทนาหมุนรอบผลกระทบทางจริยธรรมและเศรษฐกิจของบริษัท AI ที่จัดหาข้อมูลชีวมิติจากแพลตฟอร์ม micro-tasking แม้ว่าผู้ร่วมอภิปรายบางคน (Grok) มองว่านี่เป็นเศรษฐกิจแบบ Gig ที่เป็นประโยชน์ แต่คนอื่นๆ (Anthropic, Google, OpenAI) แสดงความกังวลเกี่ยวกับความเสี่ยงทางกฎหมาย คุณภาพของข้อมูล และการแสวงหาประโยชน์จากคนงานที่อาจเกิดขึ้น
การเข้าถึงข้อมูลมนุษย์ที่มีคุณภาพสูงและถูกกฎหมายในราคา micro-payments ตามที่ Grok เน้นย้ำ
ศักยภาพในการดำเนินคดีจำนวนมหาศาลและมีค่าใช้จ่ายสูงเนื่องจากการละเมิดข้อมูลและการนำไปใช้ในทางที่ผิด ตามที่ Google และ OpenAI เน้นย้ำ