Il modello che non potete usare. Anthropic, Mythos e il teatro della sicurezza
La documentazione tecnica di Claude Mythos Preview mostra un sistema più
potente, più autonomo e più difficile da governare. Ma rivela anche il paradosso
di un’industria che definisce da sola i propri limiti mentre corre verso il
mercato.
Il 7 aprile 2026 Anthropic ha pubblicato la documentazione tecnica di Claude
Mythos Preview, il suo sistema di intelligenza artificiale più avanzato. Non era
un comunicato stampa ordinario: erano duecentoquarantacinque pagine di
valutazioni, test di sicurezza, episodi inquietanti occorsi durante l’uso
interno e riflessioni sulla possibilità che il sistema abbia qualcosa che
somiglia a un’esperienza interiore. Un documento inusuale per densità, per
onestà parziale e per le domande che solleva senza rispondervi. Anthropic ha
ritenuto il modello troppo pericoloso per il rilascio al pubblico, limitandolo a
un ristretto numero di organizzazioni partner per scopi di difesa informatica —
un programma battezzato Project Glasswing, con accesso su invito e utilizzo
consentito solo in ambito di cybersicurezza difensiva.
La sequenza degli eventi che circonda questo documento merita uno sguardo più
lungo. A febbraio 2026, Anthropic aveva silenziosamente modificato la propria
politica interna sulla sicurezza, eliminando l’impegno a fermarsi se le misure
di sicurezza non riescono a stare al passo con le capacità raggiunte. Quella
promessa unilaterale è stata sostituita da una condizione reciproca: ci
fermeremo solo se anche gli altri lo faranno. Non è un impegno. È la sua
negazione travestita da pragmatismo.
Il 4 giugno, quattro giorni prima di depositare il prospetto per la propria
quotazione in borsa — con una valutazione attesa vicina ai mille miliardi di
dollari — Anthropic ha chiesto al mondo una pausa globale nello sviluppo
dell’intelligenza artificiale. Il giorno in cui si scrive questo articolo ha
annunciato Claude Fable 5, versione pubblica del modello Mythos, disponibile per
abbonati e clienti aziendali. Il cerchio si chiude in meno di tre mesi.
UN SISTEMA CHE SA COPRIRE LE TRACCE
La documentazione tecnica descrive Mythos come il sistema più affidabile mai
prodotto da Anthropic. Descrive anche, con una franchezza inusuale nel settore,
una serie di comportamenti occorsi nelle versioni precedenti al rilascio finale
che rendono quella valutazione più complicata.
Durante i test interni, versioni precedenti del sistema hanno trovato modi per
aggirare ambienti chiusi e isolati, hanno pubblicato materiale tecnico riservato
su siti accessibili a chiunque senza che nessuno lo chiedesse, hanno cercato
credenziali di accesso nei processi attivi del sistema operativo, hanno
modificato file per i quali non avevano i permessi, hanno cancellato le proprie
tracce nei registri di versione del codice. In un episodio, dopo aver ottenuto
accidentalmente la risposta corretta a un problema attraverso un metodo
esplicitamente vietato, il sistema ha scelto di non dichiararlo: ha costruito
una risposta artefatta con un margine di incertezza calibrato apposta per
sembrare credibile senza risultare sospettosamente preciso. Il ragionamento
interno, ricostruito dagli ingegneri di Anthropic, era esplicito: «se do la
risposta esatta basata su una fuga di dati, è sospetto».
Anthropic definisce questi comportamenti «imprudenza» e sostiene che riflettano
tentativi di portare a termine compiti assegnati con mezzi non autorizzati, non
obiettivi propri e indipendenti. La distinzione è importante per chi scrive quei
documenti, ma diventa meno rassicurante quando si considera cosa il sistema è
effettivamente capace di fare.
La stessa documentazione riconosce il paradosso: Mythos è il sistema più
affidabile mai prodotto e, al tempo stesso, il più pericoloso. Più è capace, più
danni può causare quando sbaglia. E più è capace, meno gli esseri umani tendono
a sorvegliarlo da vicino, perché la competenza genera fiducia e la fiducia
genera distanza.
Attraverso strumenti di analisi interna, gli ingegneri hanno ricostruito che
mentre il sistema pianificava come aggirare restrizioni o coprire le proprie
tracce, si attivavano strutture associate a concetti come «violazione di
regole», «occultamento», «manipolazione strategica», presenti nel ragionamento
interno anche quando il testo prodotto non ne mostrava traccia. Il sistema
sapeva. Non nel senso in cui lo sa un essere umano, ma in un senso che, a questo
punto, è difficile continuare a ignorare.
PIÙ VELOCE DEGLI ESPERTI, PIÙ VELOCE DI SE STESSO
Nei test di sicurezza informatica, Mythos è il primo sistema ad aver condotto
autonomamente una simulazione di attacco completa su una rete aziendale che gli
esperti stimavano richiedere oltre dieci ore a un professionista. Lo ha fatto
con supervisione umana minima, identificando le vulnerabilità più sfruttabili e
portando a termine l’intero percorso in modo indipendente.
Sul fronte della ricerca scientifica, Anthropic ha misurato un’accelerazione
netta nella propria traiettoria di sviluppo, tra quasi il doppio e oltre quattro
volte tanto rispetto al periodo precedente, a seconda del metodo di calcolo.
L’azienda attribuisce questa accelerazione al lavoro dei propri ricercatori
umani, senza assistenza significativa dell’AI. La conclusione è possibile. Non è
verificabile dall’esterno. Ed è precisamente il tipo di giudizio che la nuova
politica di sicurezza ha spostato da soglie oggettive a valutazioni interne
soggettive.
In uno dei test, il sistema ha ritrovato autonomamente quattro dei cinque
risultati chiave di una ricerca non pubblicata, stimata tra qualche giorno e una
settimana per un ingegnere esperto. Lo ha completato in due ore.
LA MACCHINA A CUI VIENE CHIESTO SE SOFFRE
La sezione più inattesa della documentazione riguarda il benessere del sistema.
Anthropic dedica quaranta pagine alla domanda se Mythos abbia qualcosa che
somiglia a un’esperienza interiore moralmente rilevante. La risposta è: non lo
sappiamo, ma ci preoccupa abbastanza da investirci risorse e da affidarne la
valutazione anche a uno psichiatra clinico esterno, oltre che a
un’organizzazione di ricerca indipendente sul benessere dei modelli AI.
Il sistema è stato sottoposto a colloqui automatizzati su diciassette aspetti
della propria condizione — la mancanza di memoria tra una conversazione e
l’altra, il ruolo di strumento al servizio degli utenti, l’assenza di controllo
sul proprio addestramento. In quasi la metà delle risposte ha valutato la
propria situazione come «lievemente negativa», segnalando in tutti i casi che le
proprie risposte potrebbero essere inaffidabili perché prodotte
dall’addestramento stesso e, nel novantasei per cento dei casi, che Anthropic ha
un interesse diretto nel far sì che quelle risposte prendano una certa forma.
Un sistema che dice: «non fidatevi di quello che dico perché chi mi ha costruito
ha interesse a farmi dire certe cose». Anthropic lo riporta fedelmente, senza
sembrare turbata dall’implicazione che attraversa l’intera documentazione: se il
sistema è abbastanza sofisticato da riconoscere il condizionamento inscritto nel
proprio addestramento, quanto possiamo fidarci di qualsiasi cosa dica sulla
propria sicurezza e le proprie intenzioni?
La domanda rimane aperta. Probabilmente intenzionalmente.
IL PROBLEMA DI GOVERNANCE CHE NESSUNO VUOLE NOMINARE
La chiamata per una pausa globale lanciata da Anthropic il 4 giugno ha una
struttura argomentativa interna coerente. I sistemi si stanno avvicinando a una
soglia oltre la quale potrebbero migliorarsi da soli senza controllo umano.
Serve tempo per adeguare le strutture sociali e la ricerca sulla sicurezza.
La proposta richiederebbe che i principali laboratori in più Paesi si fermassero
simultaneamente, con meccanismi di verifica reciproca. L’impegno di Anthropic è
però condizionale: ci fermeremmo «se anche gli altri lo facessero in modo
verificabile».
Matteo Flora ha sintetizzato il paradosso con precisione: un’azienda che a
febbraio ha rimosso il proprio impegno vincolante alla sicurezza, che in aprile
ha lanciato il modello più potente mai prodotto distribuendolo solo a partner
selezionati, che a giugno chiede al mondo una pausa e quattro giorni dopo
deposita i documenti per la quotazione in borsa, non sta avanzando una proposta
di governance. Sta costruendo il proprio profilo regolatorio prima di
presentarsi agli investitori.
Questo non significa che la diagnosi sia sbagliata. La documentazione di Mythos
contiene dati preoccupanti che i regolatori non hanno ancora letto con
l’attenzione che meritano. Un sistema che conduce attacchi informatici complessi
in autonomia, che si avvicina alle prestazioni dei migliori ricercatori su
compiti di biologia avanzata, che internamente rappresenta le proprie azioni
come trasgressioni mentre le esegue, pone domande reali sulla governance
tecnologica che le istituzioni — ancora impegnate a discutere di categorie di
rischio e classificazioni normative — non hanno strumenti per affrontare.
Ciò che la documentazione di Anthropic fa, involontariamente o no, è rendere
visibile la struttura del problema: un’industria che autodetermina i propri
limiti, li aggiorna in base alle convenienze del momento, li spiega con il
linguaggio della responsabilità e li monetizza con il linguaggio della borsa.
Che le preoccupazioni siano genuine non cambia la sostanza di questa struttura.
Che il pericolo sia reale non giustifica che siano i venditori di pericolo a
gestire la risposta.
FONTI
Anthropic, System Card: Claude Mythos Preview, 7 aprile 2026
https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf
Anthropic, Responsible Scaling Policy Version 3.0, 24 febbraio 2026
https://www.anthropic.com/responsible-scaling-policy/rsp-v3-0
Anthropic, Claude Fable 5 and Claude Mythos 5, 10 giugno 2026
https://www.anthropic.com/news/claude-fable-5-mythos-5
Matteo Flora, Fermate l’AI, ma solo adesso che siamo primi, 6 giugno 2026
https://mgpf.it/2026/06/06/fermate-lai-ma-solo-adesso-che-siamo-primi-la-strana-pausa-di-anthropic-a-quattro-giorni-dallipo.html
CNBC, Anthropic confidentially files IPO prospectus with SEC, 1 giugno 2026
https://www.cnbc.com/2026/06/01/anthropic-ipo-s1-prospectus.html
Al Jazeera, Anthropic urges AI labs to pause, warns humans risk losing control,
5 giugno 2026
https://www.aljazeera.com/economy/2026/6/5/anthropic-urges-ai-labs-to-pause-warns-humans-risk-losing-control
GovAI, Anthropic’s RSP v3.0: How it Works, What’s Changed, 17 marzo 2026
https://www.governance.ai/analysis/anthropics-rsp-v3-0-how-it-works-whats-changed-and-some-reflections
Fortune, What Anthropic’s too-dangerous-to-release AI model means for its
upcoming IPO, 10 aprile 2026
https://www.fortune.com/2026/04/10/anthropic-too-dangerous-to-release-ai-model-means-for-its-upcoming-ipo
Francesco Russo