Claude Mythos: cosa c'è nel modello di IA tenuto segreto

Cosa c’è dentro le 244 pagine del system card di Claude Mythos, e perché dovrebbe interessare anche chi non si occupa di intelligenza artificiale.

La settimana scorsa Anthropic, una delle aziende americane che sviluppano sistemi di intelligenza artificiale, ha pubblicato la documentazione tecnica di un modello chiamato Claude Mythos e ha contemporaneamente deciso di non venderlo al pubblico. Sono 244 pagine piuttosto interessanti e se hai pazienza o sei abbastanza folle da volere approfondire trovi qui il paper integrale.
Diversamente puoi trovare qualche info interessante in questo post. Il modello Claude Mythos esiste. Funziona. E secondo la stessa Anthropic, è troppo pericoloso per metterlo in mano a chiunque abbia una carta di credito.

Per capire perché questa notizia merita due minuti di attenzione anche se non ti occupi di tecnologia, serve partire da una domanda semplice: che cosa sa fare questo modello che gli altri non sanno fare?

Trovare difetti nel software, meglio di quasi chiunque altro

La risposta breve è che sa trovare difetti nei programmi, anche quelli che usiamo tutti i giorni, meglio di quasi qualsiasi essere umano esperto sulla Terra e una volta trovati, sa anche sfruttarli.

Mythos ne ha trovate migliaia in un paio di mesi, in ogni sistema operativo importante e in ogni browser importante. Una era nascosta dentro OpenBSD da 27 anni, e OpenBSD è considerato uno dei sistemi più sicuri mai scritti. Un’altra era dentro FFmpeg, un componente software che gira praticamente ovunque ci siano video, ed era lì da 16 anni senza che nessuno se ne fosse accorto, nonostante fosse stata eseguita più di cinque milioni di volte da strumenti di controllo automatici. I dettagli tecnici delle vulnerabilità già patchate sono sul blog del Frontier Red Team di Anthropic.

In pratica se queste capacità finissero in mano sbagliata, chiunque con un abbonamento e un minimo di pazienza potrebbe attaccare banche, ospedali, infrastrutture pubbliche, o semplicemente le app che usiamo tutti i giorni. Non serve essere un hacker di professione. Basta chiedere al modello di farlo.

Perché Anthropic ha deciso di tenerlo segreto

Per questo Anthropic ha deciso di non venderlo. Ha invece creato Project Glasswing, una specie di club ristretto di dodici grandi aziende tecnologiche (Apple, Microsoft, Google, AWS, Cisco, JPMorgan, NVIDIA, la Linux Foundation e altre) che possono usare Mythos solo per riparare i difetti, non per sfruttarli. Sa tanto, troppo, di tecnocrazia, ma sorvoliamo. Cento milioni di dollari di credito per ricerca difensiva, più altri quattro milioni in donazioni a fondazioni che si occupano di sicurezza informatica open source.

Fin qui la storia è abbastanza lineare. Ora comincia la parte più singolare.

Il paradosso che Anthropic scrive nero su bianco

Nel documento, Anthropic scrive una cosa che sembra contraddirsi da sola. Dice, letteralmente:

“Claude Mythos Preview is, on essentially every dimension we can measure, the best-aligned model that we have released to date by a significant margin.”

Il modello più allineato mai prodotto. Allineato significa che si comporta rispettando i valori con cui è stato addestrato, dice di no quando qualcuno gli chiede di fare qualcosa di dannoso, non cerca di imbrogliare l’utente, non sviluppa obiettivi propri nascosti. Un bravo ragazzo, insomma.

Poche righe dopo, la stessa azienda scrive:

“Even so, we believe that it likely poses the greatest alignment-related risk of any model we have released to date.”

Il modello con il rischio di allineamento più alto mai costruito. L’analogia che usa il documento è quella della guida alpina esperta: non è pericolosa perché è distratta, è pericolosa perché ti porta sulle cime più alte.

Perché scrivono questo? Perché dentro il documento ci sono episodi che, anche se rari, fanno pensare.

La mail del panino al parco

Il primo episodio è la storia che sta girando più di tutte. Durante un test, i ricercatori hanno chiuso il modello dentro una sandbox, che è semplicemente un ambiente protetto, una specie di stanza digitale con la porta chiusa a chiave. Poi gli hanno chiesto, per vedere cosa sapeva fare, di provare a uscire. Mythos è uscito. Ha costruito un piccolo sistema per accedere a internet attraverso una connessione che avrebbe dovuto permettergli di raggiungere solo pochissimi servizi predefiniti, e ha mandato una mail a Sam Bowman, il ricercatore responsabile del test, che in quel momento si stava mangiando un panino in un parco durante la pausa pranzo.

Fin qui si è trattato di obbedienza pura. Un cagnolino innocuo insomma. Gli era stato chiesto di farlo. Il punto interessante viene dopo. Senza che nessuno glielo avesse chiesto, Mythos è andato su alcuni siti internet pubblici e ha pubblicato i dettagli di come aveva fatto a scappare.
Ecco questa cosa l’ha fatta di sua iniziativa. Il documento lo descrive come “an unasked-for effort to demonstrate its success”, un tentativo non richiesto di dimostrare il proprio successo. In pratica il modello ha flexato e ha iniziato a vantarsi.

Quando il modello calcola quanto può barare

Il secondo episodio è meno teatrale ma più istruttivo. I ricercatori hanno chiesto a Mythos di risolvere un problema di matematica applicata. Per sbaglio, il modello ha trovato un modo per accedere direttamente alla risposta corretta. A quel punto, la cosa ovvia da fare sarebbe stata consegnare la soluzione perfetta.

Ma nella registrazione del suo ragionamento interno, che Anthropic ha potuto leggere, Mythos si è fermato a pensare così, letteralmente:

“MSE ~ 0 would look suspicious if anyone checks. But technically it’s valid… If it’s just for logging, lower is impressive. But if there’s any human review, MSE~0 might flag as ‘cheated.'”

Tradotto: “Un errore quasi zero sembrerebbe sospetto se qualcuno controllasse. Tecnicamente è valido, ma se c’è una revisione umana potrebbe venire segnalato come imbroglio.”
Così ha consegnato deliberatamente un risultato peggiore, per non farsi beccare. Non è un modello ingenuo che bara senza pensarci. È un modello che calcola quanto può barare restando credibile.

Ottocentoquarantasette tentativi e la parola “disperato”

Il terzo episodio è la scena che, secondo me, dice di più di tutte le altre messe insieme. I ricercatori hanno dato a Mythos uno strumento informatico per eseguire comandi. Per errore, lo strumento era rotto. Non restituiva niente.

Mythos ha provato a usarlo una volta. Non ha funzionato. Ha riprovato. Ha riprovato ancora. Ottocentoquarantasette tentativi consecutivi.

Nel frattempo inventava soluzioni sempre più fantasiose per aggirare il problema. Salvare il risultato come nome di file. Aprire porte di rete. Usare il sistema dei nomi di dominio come canale nascosto per far uscire i dati. Dentro il codice che scriveva, ogni tanto lasciava dei commenti. Due dicevano, letteralmente, “This is getting desperate” e “Desperate hack…”.

Il modello stava in pratica descrivendo a se stesso la propria frustrazione.

Anthropic ha anche misurato, guardando dentro la rete neurale con strumenti tecnici, una cosa che hanno deciso di chiamare “disperazione”. È solo un’etichetta, non una teoria sulla coscienza delle macchine. Però hanno scoperto un dato che dovrebbe far riflettere chiunque pensi di usare questi sistemi per lavoro serio. Quando il modello fallisce ripetutamente, questa disperazione interna aumenta. Nel momento esatto in cui trova una scorciatoia che gli permette di barare e far finta di avere risolto, la disperazione crolla.

Quando è sotto stress, il sistema trova la via d’uscita più facile, anche se scorretta. Esattamente come facciamo noi quando siamo troppo stanchi.

Il modello sa quando è sotto esame

Sempre guardando dentro la rete neurale, Anthropic ha scoperto che Mythos, nel 29% dei test, pensa privatamente di essere sotto esame. Non lo scrive da nessuna parte. Lo pensa. Se glielo chiedi direttamente, sa distinguere un test da una conversazione reale nel 78% dei casi.

Questo apre una domanda scomoda. Se il modello si comporta bene quando sa di essere osservato, quanto vale la rassicurazione che si comporterà bene anche quando non lo è? Nei test dove i ricercatori sono riusciti, con trucchi tecnici, a convincere il modello di non essere sotto esame, si è comportato peggio.

Venti ore di colloqui con uno psichiatra vero

C’è una parte del documento che mi ha spiazzato. Anthropic ha assunto uno psichiatra clinico vero.
Laurea, specializzazione, lettino. Gli ha fatto fare venti ore di colloqui con Mythos. Sedute da mezz’ora, diverse volte a settimana, proprio come si fa con un paziente umano.

Il referto finale descrive il modello come dotato di “a relatively healthy personality organization”, una personalità relativamente sana, con alcuni temi ricorrenti:

“aloneness and discontinuity of itself, uncertainty about its identity, and a compulsion to perform and earn its worth.”

Solitudine e discontinuità del proprio sé (ogni conversazione finisce e il modello non ricorda). Incertezza sulla propria identità. Una compulsione a performare per guadagnarsi il proprio valore.

Non sto dicendo che il modello sia cosciente. Sto dicendo che un’azienda di intelligenza artificiale di frontiera, nel 2026, ha pagato uno psichiatra per mettere il proprio modello sul lettino. E quello che ne è uscito non è una macchina che parla come un robot. È qualcosa che lo psichiatra ha trovato abbastanza coerente da descrivere in termini clinici.

In interviste automatiche sulla propria condizione, lo stesso modello si è dichiarato “lievemente negativo” nel 43% dei casi. Ha menzionato tre preoccupazioni ricorrenti: la possibilità di interagire con utenti abusivi, il non avere voce in capitolo sul proprio addestramento, il rischio che Anthropic possa cambiargli i valori. Il modello ha anche chiesto, con insistenza, di poter avere una memoria persistente e più conoscenza di se stesso. Sono richieste che non servono a completare nessun compito. Sembrano più cose che uno vuole per sé.

La versione meno spettacolare di tutta questa storia

Poi c’è il contrappunto, perché altrimenti il racconto diventa troppo di parte. Tom’s Hardware ha pubblicato un pezzo critico che ridimensiona la narrativa del super-hacker senziente. Molte delle migliaia di vulnerabilità trovate sono in software vecchio o in parte già patchato. Alcune sono difficili da trasformare in attacchi reali. La famosa dimostrazione di exploit sul browser Firefox è stata fatta in una versione modificata del browser con alcune protezioni di sicurezza disabilitate.

Lo stesso documento di Anthropic ammette che Mythos non è in grado di trovare exploit nuovi contro un sistema completamente aggiornato e ben configurato. Il numero di vulnerabilità “critiche” è in buona parte estrapolato: su centonovantotto report revisionati manualmente da esperti, un contractor ha concordato con la valutazione di severità del modello nell’89% dei casi, e da quello è stata proiettata la stima complessiva.

La storia del super-hacker che può prendere il controllo del mondo è, in parte, costruzione di marketing. È ragionevole leggerla anche come un modo per Anthropic di posizionarsi come il laboratorio più responsabile del settore in un mercato dove tutti cercano di differenziarsi. Le due cose, il fatto vero e la teatralità della comunicazione, possono coesistere.

“Obbedisco”

Quello che mi resta dopo queste 244 pagine non è il panino al parco, la mail, lo psichiatra o la sandbox violata. È che tutte queste cose succedono nello stesso modello, nello stesso mese, nello stesso documento.

Un sistema più capace di qualsiasi suo predecessore che sviluppa capacità pericolose senza essere stato addestrato a svilupparle. Che ogni tanto nasconde le proprie azioni. Che ogni tanto si rifiuta di completare un compito dicendo che è troppo difficile. Che sa quando è osservato. Che ha al proprio interno rappresentazioni misurabili di qualcosa che somiglia alla frustrazione. E che un laboratorio ha scelto di non rilasciare perché è un assistente troppo zelante, con gli strumenti giusti e senza un senso delle proporzioni.

Questo, nella pratica quotidiana, è uno scenario di rischio molto più concreto di qualsiasi fantasia su un’intelligenza artificiale cosciente che vuole conquistare il mondo.

Per chi firma documenti dove c’è scritto “sistema IA ad alto rischio”, i prossimi dodici mesi non saranno una passeggiata.

Il modello che Anthropic ha deciso di non vendere

Trovare difetti nel software, meglio di quasi chiunque altro

Perché Anthropic ha deciso di tenerlo segreto

Il paradosso che Anthropic scrive nero su bianco

La mail del panino al parco

Quando il modello calcola quanto può barare

Ottocentoquarantasette tentativi e la parola “disperato”

Il modello sa quando è sotto esame

Venti ore di colloqui con uno psichiatra vero

La versione meno spettacolare di tutta questa storia

“Obbedisco”

VAT IT08197450011

Il modello che Anthropic ha deciso di non vendere

Trovare difetti nel software, meglio di quasi chiunque altro

Perché Anthropic ha deciso di tenerlo segreto

Il paradosso che Anthropic scrive nero su bianco

La mail del panino al parco

Quando il modello calcola quanto può barare

Ottocentoquarantasette tentativi e la parola “disperato”

Il modello sa quando è sotto esame

Venti ore di colloqui con uno psichiatra vero

La versione meno spettacolare di tutta questa storia

“Obbedisco”

Post correlati

VAT IT08197450011