Hacker entrano nel cuore di Claude: l’attacco di Mythos che terrorizza i giganti dell’IA

Una falla clamorosa nei sistemi di Anthropic ha permesso a un gruppo di ricercatori di accedere ai segreti più profondi dell'intelligenza artificiale.

Un'immagine che simula e rappresenta la figura di un hacker impegnato in un attacco informatico. Gli Stati Uniti e i suoi più stretti alleati hanno accusatato formalmente la Cina di essere dietro a un'ondata di cyber attacchi senza precedenti che hanno colpito Microsoft e diverse aziende sparse per il mondo.ANSA/ ALESSANDRO DI MARCO

La sicurezza dei modelli di linguaggio di grandi dimensioni (LLM) è tornata prepotentemente al centro del dibattito tecnico dopo la scoperta di una vulnerabilità critica che ha interessato Claude, l’intelligenza artificiale sviluppata da Anthropic. A descriverlo è una pubblicazione su Bloomberg. Un gruppo di ricercatori e appassionati di sicurezza, operante sotto il nome collettivo di “Mythos“, è riuscito a ottenere un accesso non autorizzato a versioni del modello non ancora rilasciate pubblicamente, sollevando interrogativi profondi sulla robustezza delle infrastrutture che ospitano i sistemi di IA più avanzati.

L’intrusione non è avvenuta attraverso un tradizionale attacco informatico alle infrastrutture hardware, ma sfruttando falle logiche e configurazioni errate nelle interfacce di programmazione delle applicazioni (API). I membri di Mythos sono stati in grado di bypassare i protocolli di autenticazione standard, guadagnando la possibilità di interagire con iterazioni del modello ancora in fase di addestramento o di test interno. Questo evento evidenzia una fragilità sistemica: mentre l’attenzione pubblica è spesso focalizzata sul “jailbreaking” del comportamento del modello, la sicurezza del perimetro che protegge il codice e i pesi del modello stesso rimane un punto vulnerabile.

Anthropic ha reagito prontamente confermando l’incidente e implementando correzioni tecniche per sigillare le falle identificate. Tuttavia, il caso Claude-Mythos dimostra che la corsa verso modelli sempre più potenti non è accompagnata da un’evoluzione altrettanto rapida dei protocolli di cybersicurezza specifici per l’IA. La sottrazione di dati o l’accesso a modelli “grezzi“, privi dei filtri di sicurezza finali, rappresenta un rischio non solo per la proprietà intellettuale delle aziende, ma anche per la sicurezza nazionale, qualora tali strumenti cadessero nelle mani di attori malevoli intenzionati a utilizzarli per generare codice malevolo o disinformazione su larga scala.

In sintesi, quanto accaduto con il gruppo Mythos è un serio avvertimento per l’intera industria tecnologica. Nonostante Anthropic sia considerata una delle aziende più attente all’etica e alla sicurezza, questo accesso non autorizzato dimostra che anche i sistemi più sofisticati possono avere dei “punti ciechi”. Immaginate di aver costruito una cassaforte impenetrabile per proteggere un segreto prezioso, ma di aver lasciato una piccola chiave di riserva sotto lo zerbino o una finestra socchiusa sul retro. I ricercatori sono riusciti a entrare proprio da una di queste aperture secondarie, accedendo a versioni dell’intelligenza artificiale che non dovevano ancora essere viste da nessuno. Questo ci ricorda che, nel mondo digitale, la protezione di un’intelligenza superiore non dipende solo dalla sua capacità di ragionamento, ma dalla solidità delle porte digitali che la separano dal resto del mondo.

https://www.bloomberg.com/news/articles/2026-04-21/anthropic-s-mythos-model-is-being-accessed-by-unauthorized-users