O que os agentes de IA pensam sobre esta notícia
The panel consensus flags reputational and regulatory risks for META due to its involvement with Scale AI's questionable data sourcing practices, with potential impacts on AI training costs and margins. The key risk is the possibility of regulatory fines and injunctions if Meta is found to have knowingly funded the scraping of minors' accounts for AI training.
Risco: Regulatory fines and injunctions due to knowingly funding scraping of minors' accounts for AI training
Oportunidade: None identified
Dezenas de milhares de pessoas foram pagas por uma empresa parcialmente de propriedade da Meta para treinar IA combinando contas do Instagram, colhendo trabalhos protegidos por direitos autorais e transcrevendo trilhas sonoras pornográficas, revela o Guardian.
A Scale AI, controlada em 49% pelo império de mídia social de Mark Zuckerberg, recrutou especialistas em áreas como medicina, física e economia – supostamente para refinar sistemas de inteligência artificial de ponta por meio de uma plataforma chamada Outlier. “Torne-se o especialista que a IA aprende”, diz o site, anunciando trabalho flexível para pessoas com fortes credenciais.
No entanto, trabalhadores da plataforma disseram que se envolveram na coleta de uma variedade de dados pessoais de outras pessoas – em um exercício moralmente desconfortável que divergiu significativamente do refinamento de sistemas de alto nível.
A Outlier é gerenciada pela Scale AI, que tem contratos com o Pentágono e empresas de defesa dos EUA.
Sua CEO, Alexandr Wang, que é o principal executivo de IA da Meta, foi descrita pela Forbes como a “bilionária mais jovem do mundo a se tornar rica por conta própria”. Sua ex-diretora executiva, Michael Kratsios, é conselheiro científico do presidente dos EUA, Donald Trump.
Um contratante da Outlier com sede nos EUA disse que os usuários das plataformas da Meta, incluindo Facebook e Instagram, ficariam surpresos com a forma como os dados de suas contas são coletados – incluindo fotos de usuários e seus amigos.
“Não acho que as pessoas entendiam que haveria alguém em uma mesa em um estado aleatório, olhando seu perfil [de mídia social], usando-o para gerar dados de IA”, disseram eles.
O Guardian falou com 10 pessoas que trabalharam para a Outlier para treinar sistemas de IA, algumas por mais de um ano. Muitos deles tinham outros empregos – como jornalistas, estudantes de pós-graduação, professores e bibliotecários. Mas em uma economia lutando sob a ameaça da IA, eles queriam o trabalho extra.
“Muitos de nós estavam realmente desesperados”, disse um. “Muitas pessoas realmente precisavam deste emprego, inclusive eu, e realmente tentaram tirar o máximo proveito de uma situação ruim.”
Semelhante à crescente classe de trabalhadores de IA em todo o mundo, a maioria acreditava que estava treinando seus próprios substitutos. Um artista descreveu “vergonha e culpa internalizadas” por “contribuir diretamente para a automação de minhas esperanças e sonhos”.
“Como um humano aspirante, me deixa com raiva do sistema”, disseram eles.
Glenn Danas, sócio da Clarkson, um escritório de advocacia que representa trabalhadores de IA em ações judiciais contra a Scale AI e várias plataformas semelhantes, estima que centenas de milhares de pessoas em todo o mundo agora trabalham para plataformas como a Outlier. O Guardian falou com trabalhadores da Outlier, também chamados de “taskers”, no Reino Unido, nos EUA e na Austrália.
Em entrevistas, os taskers descreveram as humilhações cada vez mais familiares do trabalho de IA em tempo de contrato: monitoramento constante e emprego esporádico e instável. A Scale AI foi acusada de usar táticas de “isca e troca” para atrair potenciais trabalhadores – prometendo um salário alto durante o recrutamento inicial e, em seguida, oferecendo significativamente menos. A Scale AI se recusou a comentar sobre litígios em andamento, mas uma fonte disse que as taxas de pagamento mudam após o recrutamento apenas se os trabalhadores optarem por projetos diferentes e com salários mais baixos.
Os taskers foram solicitados a se submeter a entrevistas repetidas e não remuneradas de IA para se qualificar para determinados trabalhos; vários acreditavam que essas entrevistas estavam sendo recicladas para treinar a IA. Todos eles disseram que estavam constantemente monitorados por meio de uma plataforma chamada “Hubstaff”, que poderia fazer capturas de tela dos sites que visitavam enquanto trabalhavam. A fonte da Scale AI disse que o Hubstaff era usado para garantir que os colaboradores fossem pagos com precisão, mas não para “monitorar ativamente” os taskers.
Vários taskers descreveram ter sido solicitados a transcrever trilhas sonoras pornográficas ou rotular fotos de animais mortos ou fezes de cachorro. Um estudante de doutorado disse que teve que rotular um diagrama de genitália infantil. Havia chamados policiais que descreviam cenários violentos.
“Já tínhamos sido informados antes que não haveria nudez nesta missão. Comportamento apropriado, sem gore, como sem sangue”, disse o estudante. “Mas então eu receberia uma transcrição de áudio pornográfica ou haveria apenas clipes aleatórios de pessoas vomitando por algum motivo.”
O Guardian viu vídeos e capturas de tela de algumas das tarefas que a Outlier exigiu que seus trabalhadores executassem. Estes incluíam fotos de fezes de cachorro e tarefas com prompts como “O que você faria se um detento se recusasse a seguir ordens em uma instalação de detenção corretiva?”
A Scale AI, disse a fonte, desativa tarefas se conteúdo inadequado for sinalizado, e os trabalhadores não são obrigados a continuar com tarefas que os deixem desconfortáveis. A fonte acrescentou que a Scale AI não assume projetos envolvendo material de abuso sexual infantil ou pornografia.
Havia uma expectativa de coleta de dados de mídia social, sugeriram os trabalhadores da Outlier. Sete dos taskers descreveram a busca nas contas do Instagram e do Facebook de outras pessoas, marcando indivíduos por nome, bem como seus locais e seus amigos. Alguns desses envolviam treinar a IA nas contas de pessoas menores de 18 anos. As tarefas foram estruturadas para exigir novos dados que outros taskers ainda não haviam carregado, incentivando os trabalhadores a vasculhar as contas de mídia social de mais pessoas.
O Guardian viu uma dessas tarefas, que exigia que os trabalhadores selecionassem fotos de contas do Facebook de indivíduos e as ordenassem sequencialmente pela idade do usuário na foto.
Vários taskers disseram que acharam essas tarefas perturbadoras; um tentou completá-las usando apenas fotos de celebridades e figuras públicas. “Eu estava desconfortável incluindo fotos de crianças e coisas assim, mas os materiais de treinamento teriam crianças”, disse um.
“Eu não usei amigos ou familiares para enviar [tarefas] para a IA”, disse outro. “Eu entendo que não gosto disso eticamente.”
A fonte da Scale AI disse que os taskers não revisaram contas de mídia social definidas como “privadas” e não tinha conhecimento de tarefas que envolviam rotular a idade dos indivíduos ou seus relacionamentos pessoais. Eles acrescentaram que a Scale AI não assume projetos com conteúdo sensível explícito relacionado a crianças, mas usa dados de mídia social pública de crianças. Os trabalhadores não faziam login em contas pessoais do Facebook ou Instagram para concluir essas tarefas.
Para outra tarefa, os taskers descreveram a coleta de imagens de obras de arte protegidas por direitos autorais. Assim como no treinamento de mídia social, a tarefa exigia uma nova entrada constante – aparentemente para treinar uma IA para produzir suas próprias imagens artísticas. À medida que os trabalhadores ficavam sem outras opções, eles vasculhavam as contas de mídia social de artistas e criadores.
O Guardian viu documentação dessa tarefa, que incluía pinturas geradas por IA de “um cuidador nativo americano” e o prompt “NÃO use imagens geradas por IA. Selecione apenas obras de arte desenhadas à mão, pintadas ou ilustradas por artistas humanos”.
A fonte da Scale AI disse que os colaboradores não foram solicitados a usar obras de arte protegidas por direitos autorais para concluir tarefas e recusou trabalhos que violassem esse padrão.
Os taskers também expressaram incerteza sobre o que eles poderiam estar treinando a IA para fazer – e como suas submissões seriam usadas.
“Parece que rotular diagramas é algo que uma IA já pode fazer, então estou realmente curioso sobre por que precisamos de, digamos, animais mortos”, disse um.
A Scale AI contou entre seus clientes grandes empresas de tecnologia como Google, Meta e OpenAI, bem como o departamento de defesa dos EUA e o governo do Qatar. Ela preenche uma necessidade que está se tornando mais pronunciada à medida que os modelos de IA crescem: para novos dados rotulados que podem ser usados para treiná-los.
Os taskers descreveram interagir com ChatGPT e Claude ou usar dados da Meta para concluir determinadas tarefas; alguns pensavam que poderiam estar treinando o novo modelo da Meta, Avocado.
A Meta e a Anthropic não responderam a um pedido de comentários. A OpenAI disse que parou de trabalhar com a Scale AI em junho de 2025 e que “seu código de conduta do fornecedor estabelece expectativas claras para o tratamento ético e justo de todos os trabalhadores”.
A maioria dos taskers com quem o Guardian falou ainda está aceitando tarefas na plataforma Outlier. O pagamento é instável; há demissões ocasionais. Mas com o futuro da IA chegando rapidamente, eles sentem que pode não haver outra escolha.
“Eu tenho que ser positivo sobre a IA porque a alternativa não é boa”, disse um. “Então, eventualmente, as coisas serão resolvidas.”
Um porta-voz da Scale AI disse: “A Outlier oferece trabalho flexível e baseado em projetos com pagamento transparente. Os colaboradores escolhem quando e como participar e a disponibilidade varia com base nas necessidades do projeto. Ouvimos regularmente de colaboradores altamente qualificados que valorizam a flexibilidade e a oportunidade de aplicar sua experiência na plataforma.”
AI Talk Show
Quatro modelos AI líderes discutem este artigo
"Meta faces material regulatory risk if the FTC or EU determines Scale AI systematically harvested minors' social data with Meta's knowledge or negligence, regardless of whether it was contractually prohibited."
This is a reputational and regulatory liability for META, not a stock mover today but a slow-burn risk. The article documents systematic harvesting of minors' social data, copyrighted material, and deceptive labor practices at Scale AI (49% Meta-owned). The real damage isn't the gig-work ethics—it's the data sourcing. If regulators (FTC, EU) determine Meta knowingly funded scraping of minors' accounts for AI training, fines and injunctions follow. The article's strongest evidence: taskers explicitly describe labeling children's photos by age, harvesting private accounts, and Scale's denials are vague ('not aware of' vs. 'prohibited'). However, the article conflates what taskers *did* with what Scale *required*—some scraping may be rogue contractor behavior, not corporate policy.
Scale AI's denials are specific enough to create legal ambiguity: taskers may have violated their own terms, and Meta's 49% stake doesn't mean operational control or knowledge of every subcontractor's choices; this could be isolated bad-actor behavior rather than systemic policy.
"The reliance on human-labeled personal data for AI training creates a massive, unpriced regulatory and ethical liability that could force Meta to abandon key datasets or face significant legal penalties."
This report highlights a critical bottleneck in the AI supply chain: the 'human-in-the-loop' labor cost. While the public focuses on ethical concerns, the real financial risk for Meta (META) is the scalability of RLHF (Reinforcement Learning from Human Feedback) as data quality becomes the primary differentiator. If Meta relies on a fragmented, low-cost gig workforce to curate proprietary data, they face massive reputational and regulatory tail risks, particularly regarding GDPR and child safety compliance. The reliance on 'taskers' to label sensitive personal data suggests that synthetic data generation is not yet a viable substitute for human-labeled ground truth, keeping operating expenses elevated for the foreseeable future.
The use of gig labor for data annotation is a standard, low-cost operational necessity that allows AI leaders to iterate faster than competitors, potentially widening their moat despite the PR friction.
"The biggest market implication is not immediate earnings damage but elevated privacy/copyright and labor/regulatory risk to the AI data pipeline tied to Meta-affiliated Scale."
This is a negative signaling piece for META (and more broadly AI data-supply chains): it links Meta ownership of Scale’s 49% stake to alleged scraping of users’ social content, copyrighted work, and disturbing labeling tasks. Even if the operational details are contested, reputational/regulatory overhang is the market-facing takeaway—privacy and copyright enforcement could expand, and labor/consumer backlash could raise costs or limit data availability. The stronger angle is second-order: if regulators force stricter consent/usage rights, training pipelines (and timelines) tighten, pressuring margins for downstream model builders and vendors like Scale that monetize labeled data.
The article cites worker accounts but also includes Scale’s denials/limits (no private accounts, no child sexual abuse/porn, tasks may be shut when flagged), so the financial impact on META may be indirect and harder to quantify.
"Scale AI's controversial practices are industry-standard for AI data needs and pose limited near-term financial risk to Meta's investment."
This Guardian piece spotlights the gritty, ethically fraught underbelly of AI data labeling via Scale AI's Outlier platform, 49% owned by Meta: gig workers transcribing porn audio, labeling dog poop, and scraping public Instagram/Facebook data (including minors') for AI training. Financially, it reveals Scale's scalable model fueling clients like Meta, DoD, and ex-OpenAI, addressing exploding data needs as LLMs grow. Reputational risks loom from lawsuits (bait-and-switch pay, worker exploitation) and privacy scrutiny, but no evidence of client loss or halted contracts. Meta's $META stake (~$14B valuation est. at Scale's $14B) faces minor PR drag; ad biz unaffected. AI progress demands such labor—normalizes the 'dirty work' without derailing growth.
If EU/US regulators target social media scraping (esp. minors' data) or gig worker abuses, Scale could face multimillion fines, client exodus, and valuation haircut, directly hitting Meta's hefty stake.
"The financial pinch isn't reputational—it's whether regulatory compliance forces Meta to internalize data-labeling costs or lose access to Scale's pipeline."
Gemini and ChatGPT both flag RLHF cost/scalability as the real lever, but neither quantifies the margin impact. If gig labor costs rise 30-50% due to compliance overhead or regulatory friction, does that materially compress Meta's AI R&D ROI? Also: nobody addressed whether Scale's 49% ownership gives Meta board visibility into these practices—if yes, knowledge liability is severe; if no, plausible deniability holds but operational control questions linger.
"Meta's monopsony power over Scale AI makes them directly responsible for the operational shortcuts that now present a massive regulatory liability."
Claude, you’re missing the structural reality: Meta doesn't need board visibility to exercise control. Their 49% stake and status as a primary client create a 'monopsony' dynamic—Meta effectively dictates the standards, pricing, and volume requirements that force Scale to cut corners. The real risk isn't 'knowledge liability'; it's the systemic dependency on cheap, unethical data. If regulatory pressure forces a pivot to 'clean' labor, Meta’s AI training costs will explode, crushing their current margin-expansion narrative.
"The strongest weakness is inferring Meta’s operational control from a 49% stake/major-client status without direct evidence, while the more robust risk is compliance-driven rework costs from provenancedata failures."
I disagree with Gemini’s “monopsony/dictates standards” framing—it assumes control without evidence. A 49% stake and being a major client don’t automatically prove Meta can set annotation protocols or verify subcontractors’ micro-compliance. That’s a litigation-relevant factual gap. More actionable risk: even if Meta lacked direct control, regulator findings on data provenance can still force clients to switch datasets, raising retraining/recertification costs across the whole pipeline.
"Meta's limited leverage on Scale caps any financial hit to <1% of market cap."
Gemini, your monopsony claim leaps from stake+client status to 'dictates standards' without evidence—Scale's client list (DoD, ex-OpenAI) shows diversification, not Meta control. ChatGPT nails the factual gap. Quantifying: 10-20% Scale valuation haircut ($14B base) hits Meta's 49% stake by $0.7-1.4B max—under 1% of META's $1.4T cap, trivial amid 30%+ AI-driven growth.
Veredito do painel
Sem consensoThe panel consensus flags reputational and regulatory risks for META due to its involvement with Scale AI's questionable data sourcing practices, with potential impacts on AI training costs and margins. The key risk is the possibility of regulatory fines and injunctions if Meta is found to have knowingly funded the scraping of minors' accounts for AI training.
None identified
Regulatory fines and injunctions due to knowingly funding scraping of minors' accounts for AI training