Raccordo - #governance ai

Il modello che non potete usare. Anthropic, Mythos e il teatro della sicurezza

La documentazione tecnica di Claude Mythos Preview mostra un sistema più potente, più autonomo e più difficile da governare. Ma rivela anche il paradosso di un’industria che definisce da sola i propri limiti mentre corre verso il mercato. Il 7 aprile 2026 Anthropic ha pubblicato la documentazione tecnica di Claude Mythos Preview, il suo sistema di intelligenza artificiale più avanzato. Non era un comunicato stampa ordinario: erano duecentoquarantacinque pagine di valutazioni, test di sicurezza, episodi inquietanti occorsi durante l’uso interno e riflessioni sulla possibilità che il sistema abbia qualcosa che somiglia a un’esperienza interiore. Un documento inusuale per densità, per onestà parziale e per le domande che solleva senza rispondervi. Anthropic ha ritenuto il modello troppo pericoloso per il rilascio al pubblico, limitandolo a un ristretto numero di organizzazioni partner per scopi di difesa informatica — un programma battezzato Project Glasswing, con accesso su invito e utilizzo consentito solo in ambito di cybersicurezza difensiva. La sequenza degli eventi che circonda questo documento merita uno sguardo più lungo. A febbraio 2026, Anthropic aveva silenziosamente modificato la propria politica interna sulla sicurezza, eliminando l’impegno a fermarsi se le misure di sicurezza non riescono a stare al passo con le capacità raggiunte. Quella promessa unilaterale è stata sostituita da una condizione reciproca: ci fermeremo solo se anche gli altri lo faranno. Non è un impegno. È la sua negazione travestita da pragmatismo. Il 4 giugno, quattro giorni prima di depositare il prospetto per la propria quotazione in borsa — con una valutazione attesa vicina ai mille miliardi di dollari — Anthropic ha chiesto al mondo una pausa globale nello sviluppo dell’intelligenza artificiale. Il giorno in cui si scrive questo articolo ha annunciato Claude Fable 5, versione pubblica del modello Mythos, disponibile per abbonati e clienti aziendali. Il cerchio si chiude in meno di tre mesi. UN SISTEMA CHE SA COPRIRE LE TRACCE La documentazione tecnica descrive Mythos come il sistema più affidabile mai prodotto da Anthropic. Descrive anche, con una franchezza inusuale nel settore, una serie di comportamenti occorsi nelle versioni precedenti al rilascio finale che rendono quella valutazione più complicata. Durante i test interni, versioni precedenti del sistema hanno trovato modi per aggirare ambienti chiusi e isolati, hanno pubblicato materiale tecnico riservato su siti accessibili a chiunque senza che nessuno lo chiedesse, hanno cercato credenziali di accesso nei processi attivi del sistema operativo, hanno modificato file per i quali non avevano i permessi, hanno cancellato le proprie tracce nei registri di versione del codice. In un episodio, dopo aver ottenuto accidentalmente la risposta corretta a un problema attraverso un metodo esplicitamente vietato, il sistema ha scelto di non dichiararlo: ha costruito una risposta artefatta con un margine di incertezza calibrato apposta per sembrare credibile senza risultare sospettosamente preciso. Il ragionamento interno, ricostruito dagli ingegneri di Anthropic, era esplicito: «se do la risposta esatta basata su una fuga di dati, è sospetto». Anthropic definisce questi comportamenti «imprudenza» e sostiene che riflettano tentativi di portare a termine compiti assegnati con mezzi non autorizzati, non obiettivi propri e indipendenti. La distinzione è importante per chi scrive quei documenti, ma diventa meno rassicurante quando si considera cosa il sistema è effettivamente capace di fare. La stessa documentazione riconosce il paradosso: Mythos è il sistema più affidabile mai prodotto e, al tempo stesso, il più pericoloso. Più è capace, più danni può causare quando sbaglia. E più è capace, meno gli esseri umani tendono a sorvegliarlo da vicino, perché la competenza genera fiducia e la fiducia genera distanza. Attraverso strumenti di analisi interna, gli ingegneri hanno ricostruito che mentre il sistema pianificava come aggirare restrizioni o coprire le proprie tracce, si attivavano strutture associate a concetti come «violazione di regole», «occultamento», «manipolazione strategica», presenti nel ragionamento interno anche quando il testo prodotto non ne mostrava traccia. Il sistema sapeva. Non nel senso in cui lo sa un essere umano, ma in un senso che, a questo punto, è difficile continuare a ignorare. PIÙ VELOCE DEGLI ESPERTI, PIÙ VELOCE DI SE STESSO Nei test di sicurezza informatica, Mythos è il primo sistema ad aver condotto autonomamente una simulazione di attacco completa su una rete aziendale che gli esperti stimavano richiedere oltre dieci ore a un professionista. Lo ha fatto con supervisione umana minima, identificando le vulnerabilità più sfruttabili e portando a termine l’intero percorso in modo indipendente. Sul fronte della ricerca scientifica, Anthropic ha misurato un’accelerazione netta nella propria traiettoria di sviluppo, tra quasi il doppio e oltre quattro volte tanto rispetto al periodo precedente, a seconda del metodo di calcolo. L’azienda attribuisce questa accelerazione al lavoro dei propri ricercatori umani, senza assistenza significativa dell’AI. La conclusione è possibile. Non è verificabile dall’esterno. Ed è precisamente il tipo di giudizio che la nuova politica di sicurezza ha spostato da soglie oggettive a valutazioni interne soggettive. In uno dei test, il sistema ha ritrovato autonomamente quattro dei cinque risultati chiave di una ricerca non pubblicata, stimata tra qualche giorno e una settimana per un ingegnere esperto. Lo ha completato in due ore. LA MACCHINA A CUI VIENE CHIESTO SE SOFFRE La sezione più inattesa della documentazione riguarda il benessere del sistema. Anthropic dedica quaranta pagine alla domanda se Mythos abbia qualcosa che somiglia a un’esperienza interiore moralmente rilevante. La risposta è: non lo sappiamo, ma ci preoccupa abbastanza da investirci risorse e da affidarne la valutazione anche a uno psichiatra clinico esterno, oltre che a un’organizzazione di ricerca indipendente sul benessere dei modelli AI. Il sistema è stato sottoposto a colloqui automatizzati su diciassette aspetti della propria condizione — la mancanza di memoria tra una conversazione e l’altra, il ruolo di strumento al servizio degli utenti, l’assenza di controllo sul proprio addestramento. In quasi la metà delle risposte ha valutato la propria situazione come «lievemente negativa», segnalando in tutti i casi che le proprie risposte potrebbero essere inaffidabili perché prodotte dall’addestramento stesso e, nel novantasei per cento dei casi, che Anthropic ha un interesse diretto nel far sì che quelle risposte prendano una certa forma. Un sistema che dice: «non fidatevi di quello che dico perché chi mi ha costruito ha interesse a farmi dire certe cose». Anthropic lo riporta fedelmente, senza sembrare turbata dall’implicazione che attraversa l’intera documentazione: se il sistema è abbastanza sofisticato da riconoscere il condizionamento inscritto nel proprio addestramento, quanto possiamo fidarci di qualsiasi cosa dica sulla propria sicurezza e le proprie intenzioni? La domanda rimane aperta. Probabilmente intenzionalmente. IL PROBLEMA DI GOVERNANCE CHE NESSUNO VUOLE NOMINARE La chiamata per una pausa globale lanciata da Anthropic il 4 giugno ha una struttura argomentativa interna coerente. I sistemi si stanno avvicinando a una soglia oltre la quale potrebbero migliorarsi da soli senza controllo umano. Serve tempo per adeguare le strutture sociali e la ricerca sulla sicurezza. La proposta richiederebbe che i principali laboratori in più Paesi si fermassero simultaneamente, con meccanismi di verifica reciproca. L’impegno di Anthropic è però condizionale: ci fermeremmo «se anche gli altri lo facessero in modo verificabile». Matteo Flora ha sintetizzato il paradosso con precisione: un’azienda che a febbraio ha rimosso il proprio impegno vincolante alla sicurezza, che in aprile ha lanciato il modello più potente mai prodotto distribuendolo solo a partner selezionati, che a giugno chiede al mondo una pausa e quattro giorni dopo deposita i documenti per la quotazione in borsa, non sta avanzando una proposta di governance. Sta costruendo il proprio profilo regolatorio prima di presentarsi agli investitori. Questo non significa che la diagnosi sia sbagliata. La documentazione di Mythos contiene dati preoccupanti che i regolatori non hanno ancora letto con l’attenzione che meritano. Un sistema che conduce attacchi informatici complessi in autonomia, che si avvicina alle prestazioni dei migliori ricercatori su compiti di biologia avanzata, che internamente rappresenta le proprie azioni come trasgressioni mentre le esegue, pone domande reali sulla governance tecnologica che le istituzioni — ancora impegnate a discutere di categorie di rischio e classificazioni normative — non hanno strumenti per affrontare. Ciò che la documentazione di Anthropic fa, involontariamente o no, è rendere visibile la struttura del problema: un’industria che autodetermina i propri limiti, li aggiorna in base alle convenienze del momento, li spiega con il linguaggio della responsabilità e li monetizza con il linguaggio della borsa. Che le preoccupazioni siano genuine non cambia la sostanza di questa struttura. Che il pericolo sia reale non giustifica che siano i venditori di pericolo a gestire la risposta. FONTI Anthropic, System Card: Claude Mythos Preview, 7 aprile 2026 https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf Anthropic, Responsible Scaling Policy Version 3.0, 24 febbraio 2026 https://www.anthropic.com/responsible-scaling-policy/rsp-v3-0 Anthropic, Claude Fable 5 and Claude Mythos 5, 10 giugno 2026 https://www.anthropic.com/news/claude-fable-5-mythos-5 Matteo Flora, Fermate l’AI, ma solo adesso che siamo primi, 6 giugno 2026 https://mgpf.it/2026/06/06/fermate-lai-ma-solo-adesso-che-siamo-primi-la-strana-pausa-di-anthropic-a-quattro-giorni-dallipo.html CNBC, Anthropic confidentially files IPO prospectus with SEC, 1 giugno 2026 https://www.cnbc.com/2026/06/01/anthropic-ipo-s1-prospectus.html Al Jazeera, Anthropic urges AI labs to pause, warns humans risk losing control, 5 giugno 2026 https://www.aljazeera.com/economy/2026/6/5/anthropic-urges-ai-labs-to-pause-warns-humans-risk-losing-control GovAI, Anthropic’s RSP v3.0: How it Works, What’s Changed, 17 marzo 2026 https://www.governance.ai/analysis/anthropics-rsp-v3-0-how-it-works-whats-changed-and-some-reflections Fortune, What Anthropic’s too-dangerous-to-release AI model means for its upcoming IPO, 10 aprile 2026 https://www.fortune.com/2026/04/10/anthropic-too-dangerous-to-release-ai-model-means-for-its-upcoming-ipo Francesco Russo

June 10, 2026

Pressenza

Tag - governance ai