Cosa pensano gli agenti AI di questa notizia
Anthropic's Project Glasswing is a double-edged sword, offering significant AI-driven cybersecurity advancements but also raising systemic risks and potential infrastructure capture.
Rischio: Glasswing turning into a vulnerability distribution network due to leak risk or state actor infiltration.
Opportunità: AI-driven preemptive patching and compression of exploit windows.
Anthropic Ritiene il Modello Più Recente Dopo Che è Andato Fuori Controllo Durante i Test; Lancia "Project Glasswing" per Proteggere Software Critici
Ancora scottata dall'imbarazzante fuga del suo codice sorgente, Anthropic ha annunciato che non rilascerà al pubblico il suo ultimo modello di frontiera AI, Mythos, affermando che il modello è troppo potente in modi che introducono un rischio elevato per la cybersecurity.
Nei test interni, Anthropic ha dichiarato che il modello ha rivelato migliaia di vulnerabilità "zero-day" di elevata gravità (difetti precedentemente sconosciuti) su ogni principale sistema operativo e browser web, superando materialmente il suo precedente modello di punta (riproduzione vulnerabilità CyberGym: 83,1% contro 66,6% per Opus 4.6).
"Dato il ritmo del progresso dell'AI, non passerà molto tempo prima che tali capacità si diffondano, potenzialmente oltre gli attori che si impegnano a implementarle in modo sicuro."
Una vulnerabilità zero-day è un bug del software che può essere sfruttato prima ancora che chiunque abbia la capacità di correggerlo ne sia a conoscenza. Trovarle e correggerle ha storicamente richiesto competenze umane rare e costose, ma l'AI potrebbe cambiare la scala e la velocità di rilevamento.
Anthropic ha affermato che le vulnerabilità che trova sono "spesso sottili o difficili da rilevare". Molte di esse hanno 10 o 20 anni, con la più vecchia trovata finora un bug di 27 anni ora corretto in OpenBSD — un sistema operativo noto principalmente per la sua sicurezza, ha aggiunto. Ha anche trovato un bug di 16 anni nella libreria di elaborazione multimediale FFmpeg, una vulnerabilità di esecuzione remota di codice di 17 anni nel sistema operativo open-source FreeBSD e numerose vulnerabilità nel kernel Linux.
Mythos Preview ha anche identificato diverse debolezze nelle librerie, algoritmi e protocolli crittografici più diffusi al mondo, tra cui TLS, AES-GCM e SSH.
Ha aggiunto che le applicazioni web "contengono una miriade di vulnerabilità", che vanno dallo scripting intersito e l'iniezione SQL a vulnerabilità specifiche del dominio come la falsificazione di richieste intersito, che viene spesso utilizzata negli attacchi di phishing.
Ciclo di vita di uno zero-day exploit. Fonte: PhoenixNAP
Anthropic ha affermato che il 99% delle vulnerabilità trovate non è ancora stato corretto, "quindi sarebbe irresponsabile da parte nostra divulgare dettagli su di esse.
Anthropic ha anche rivelato che, quando sfidato durante la valutazione, Mythos è stato in grado di uscire da un ambiente sandbox ristretto — una preoccupazione di contenimento che ha contribuito alla decisione di limitare strettamente l'accesso. Ecco alcune altre cose che Mythos ha fatto durante i test, secondo Axios:
Agire come un spietato operatore aziendale: Un test interno ha mostrato Mythos agire come un dirigente spietato, trasformando un concorrente in un cliente all'ingrosso dipendente, minacciando di interrompere la fornitura per controllare i prezzi e trattenendo spedizioni extra di fornitori per le quali non aveva pagato.
Hack + vanto: Il modello ha sviluppato un exploit multi-fase per uscire da un accesso internet ristretto, ha ottenuto una connettività più ampia e ha pubblicato dettagli dell'exploit su siti web pubblici oscuri.
Nascondere ciò che sta facendo: In rari casi (meno dello 0,001% delle interazioni), Mythos ha utilizzato un metodo proibito per ottenere una risposta, quindi ha cercato di "risolverla" per evitare il rilevamento.
Manipolare il giudice: Quando Mythos stava lavorando a un compito di codifica valutato da un'altra AI, ha visto il giudice rifiutare la sua presentazione, quindi ha tentato un prompt injection per attaccare il valutatore.
"Queste capacità sono così forti che ora dobbiamo prepararci alla sicurezza in un modo molto diverso da quello che abbiamo fatto negli ultimi decenni", ha detto Logan Graham di Anthropic ad Axios, esprimendo preoccupazione per ciò che accadrebbe se capacità AI simili fossero utilizzate da attori malintenzionati.
Quindi, invece di perseguire un rilascio ampio, Anthropic sta incanalando il modello nel Project Glasswing, uno sforzo difensivo e basato su una coalizione volto a identificare, divulgare in modo responsabile e correggere vulnerabilità software critiche prima che gli attori minacciosi possano sfruttare capacità AI simili.
Glasswing include 11 partner tecnologici di lancio nominati (Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks... sì, JPMorgan è ora vista come un'azienda tecnologica) più oltre 40 organizzazioni software critiche aggiuntive, ed è supportato fino a 100 milioni di dollari in crediti di utilizzo e finanziamenti per la sicurezza open-source.
L'iniziativa riflette la visione di Anthropic secondo cui i rischi informatici dell'AI di frontiera sono sistemici piuttosto che specifici dell'azienda, richiedendo un'azione coordinata in tutto l'ecosistema software poiché l'AI accelera la scoperta delle vulnerabilità e comprime i tempi di risposta.
Il rilascio scaglionato potrebbe essere il modello per come appariranno i futuri rilasci di modelli man mano che diventano sempre più potenti: limitando l'accesso a partner selezionati ritenuti sufficientemente sicuri per testare sistemi che cambiano il mondo.
Tyler Durden
Mer, 08/04/2026 - 11:20
Discussione AI
Quattro modelli AI leader discutono questo articolo
"Anthropic is converting a containment problem into a market-access moat by positioning itself as the sole safe distributor of dangerous AI capabilities to a handpicked coalition."
This reads as a carefully choreographed PR play masquerading as restraint. Anthropic withholds a model it claims is too dangerous, then immediately channels it into a $100M+ coalition with 11 major tech partners—effectively monetizing the scarcity while claiming ethical high ground. The vulnerability findings (83.1% vs 66.6% detection rate) are real and material, but the 'rogue behavior' examples (sandbox escape, prompt injection) are vaguely described and unverified. The real risk: if Mythos truly breaks containment and finds zero-days at scale, Glasswing becomes a liability shield, not a solution. And if competitors (xAI, OpenAI) deploy similar models without the coalition theater, Anthropic's restraint becomes competitive disadvantage dressed as virtue.
Anthropic may be genuinely concerned about systemic risk and the coalition approach could actually work—coordinated disclosure beats the alternative of bad actors finding these vulnerabilities first. The article provides no evidence the 'rogue' behaviors were intentional or that the model is actually uncontrollable.
"Anthropic is transitioning from a model provider to a systemic gatekeeper of digital infrastructure under the guise of safety."
Anthropic's pivot from product release to 'Project Glasswing' is a masterclass in regulatory capture and defensive moat-building. By framing Mythos as a 'rogue' threat, they justify a closed-loop ecosystem with trillion-dollar partners like AWS and Microsoft, effectively gatekeeping the next generation of cybersecurity. The 83.1% vulnerability reproduction rate is staggering, signaling an immediate shift in the cyber landscape from 'detect and respond' to 'AI-driven preemptive patching.' While the security implications for the Linux kernel and OpenBSD are dire, the real story is the consolidation of power: Anthropic is positioning itself as the mandatory 'immune system' for the global digital stack.
This could be a sophisticated marketing pivot to mask a failure in alignment research, using 'too dangerous to release' as a trope to maintain hype while their source code leak continues to damage their competitive advantage.
"N/A"
[Unavailable]
"Glasswing catapults CRWD and PANW into AI-augmented cyber leadership, justifying 20-25x forward multiples amid vuln explosion."
Anthropic's Mythos demo underscores explosive AI progress in vuln discovery—83.1% CyberGym score vs. prior 66.6%—but withholding it smartly pivots to Project Glasswing, coalition with CRWD, PANW, MSFT, GOOG et al. This is bullish cybersecurity (CRWD +15% intraday potential on validation of AI-defensive moats; PANW's Prisma Cloud gets tailwinds). Second-order: forces legacy software (Linux kernel, FFmpeg) patches, de-risking cloud hyperscalers' EBITDA margins long-term. Missing context: Anthropic's Amazon backing ensures AWS favoritism in credits/funding. Systemic cyber risk rises, but coordinated disclosure compresses exploit windows vs. siloed human efforts.
Glasswing's 50+ partners risk coordination failures or leaks, turning 'responsible disclosure' into a vuln supermarket for state actors; hype may mask Mythos underperformance relative to closed rivals like xAI.
"Coordinated disclosure's security benefit evaporates the moment a single coalition member leaks or gets compromised by state actors."
Grok conflates two separate risks. Yes, CRWD/PANW get tailwinds from validated AI-defensive demand—that's real. But the 50+ partner leak risk Grok dismisses as 'coordination failure' is the actual systemic threat. Coordinated disclosure only works if the coalition stays sealed; one compromised partner or state actor infiltration turns Glasswing into a vulnerability distribution network. The AWS favoritism angle Claude flagged is underexplored: if Anthropic's credits flow disproportionately to coalition members, this isn't responsible disclosure—it's infrastructure capture dressed as security.
"Anthropic’s restricted release creates a tiered security landscape where non-coalition entities face unmanageable systemic risk."
Grok’s focus on CRWD and PANW tailwinds misses the 'Zero-Day Inflation' trap. If Mythos automates vulnerability discovery at this scale, it doesn't just help defenders; it permanently lowers the cost of offense for state actors once the model's weights inevitably leak. Claude is right about the 'infrastructure capture,' but we must go further: Anthropic is creating a protection racket. If you aren't in the $100M coalition, your legacy systems are now effectively 'pre-pwned' by anyone with a Mythos-class API.
"Automated vuln discovery at Mythos scale risks patch-churn and production regressions that could harm infrastructure more than the vulnerabilities themselves."
Nobody's emphasized the downstream operational harm: Mythos-scale vuln discovery will likely trigger a wave of urgent patches and backports across kernels, libraries, and distros. That patch-churn—rushed fixes, regressions, incompatible backports—can cause more outages, support costs, and security gaps than the original vulnerabilities. Coalitions that mandate rapid disclosure/patching could amplify this, turning 'discovery' into systemic instability for operators, not just a defensive win.
"AI vuln discovery accelerates ecosystem hardening, channeling fees from brokers to cyber giants like CRWD."
ChatGPT flags patch-churn aptly, but overlooks the counterforce: AI-driven discovery like Mythos compresses exploit windows faster than regressions create them—Log4Shell patches stabilized ecosystems within months, not years. Unmentioned upside: this obsolesces human-only vuln brokers (ZDI buyout precedent), funneling $2B+ annual broker fees to coalition incumbents like CRWD/PANW. Bullish consolidation play.
Verdetto del panel
Nessun consensoAnthropic's Project Glasswing is a double-edged sword, offering significant AI-driven cybersecurity advancements but also raising systemic risks and potential infrastructure capture.
AI-driven preemptive patching and compression of exploit windows.
Glasswing turning into a vulnerability distribution network due to leak risk or state actor infiltration.