Che cosa fa l’intelligenza artificiale in guerra
Immagine in evidenza generata con l’ausilio dell’intelligenza artificiale
“La guerra è il dominio dell’incertezza: tre quarti delle cose su cui si basa
l’azione bellica giacciono nella nebbia di un’incertezza più o meno grande”. A
due secoli di distanza dal trattato di strategia militare Della guerra di Von
Clausewitz, potremmo dire che, oggi, uno dei principali obiettivi dell’impiego
dei sistemi d’intelligenza artificiale in ambito bellico è proprio quello di
dissipare quanto più possibile la celeberrima “nebbia della guerra” teorizzata
nell’Ottocento dal generale prussiano.
Navigare e pattugliare territori estesi attraverso droni a guida autonoma,
riconoscere e classificare rapidamente gli obiettivi che compaiono in video e
immagini, ottenere un’analisi predittiva delle minacce, stimare i potenziali
danni collaterali, rilevare anomalie. Tutti gli impieghi militari
dell’intelligenza artificiale hanno principalmente due scopi: ridurre
l’incertezza – raccogliendo, filtrando e interpretando enormi quantità di dati
provenienti da sensori, satelliti, droni e sistemi di intelligence – e aumentare
la velocità decisionale, valutando le opzioni operative in tempi ridotti,
stimando rischi e conseguenze, coordinando le unità e reagendo quasi in tempo
reale agli sviluppi del conflitto.
Il paradosso è che questi algoritmi predittivi – che aggregano migliaia di dati
di intelligence raccolti da centinaia di fonti diverse – in molti casi rischiano
di infittire, invece che diradare, la nebbia della guerra, perché producono una
tale quantità di informazioni da rendere la loro interpretazione e gestione
particolarmente complessa. Ed è qui che entrano in gioco i modelli linguistici
di OpenAI, Anthropic, xAI e, in Europa, Mistral, il cui compito è aiutare a
dissipare la coltre di nebbia provocata dall’enorme mole di dati prodotti dai
sistemi predittivi.
IL RUOLO CRUCIALE DELL’AI PREDITTIVA
Che cosa fa infatti un chatbot pressoché identico a quelli che usiamo nella vita
quotidiana quando è utilizzato in ambito bellico? Prima di tutto, bisogna
chiarire alcuni aspetti importanti. Come mostrato anche da un paper della NATO
Science and Technology Organization, si tende infatti a fare confusione tra gli
impieghi degli algoritmi predittivi (che analizzano dati per individuare schemi,
classificare eventi e stimare probabilità future) e quelli invece generativi
(capaci di generare probabilisticamente testo, immagini, video o altro).
I large language model non possono riconoscere automaticamente i bersagli, non
guidano i missili o i droni, non raccolgono informazioni, non analizzano
direttamente i dati dei sensori e non eseguono autonomamente azioni nel mondo
reale. La capacità fondamentale di ChatGPT e dei suoi compagni è infatti
(provare a) comprendere, elaborare e generare il linguaggio umano sulla base del
dataset testuale su cui sono stati addestrati.
Sul campo di battaglia, il grosso del lavoro sporco lo svolgono quindi i sistemi
basati su algoritmi predittivi. Due dei casi più (tristemente) noti sono quelli
relativi alle piattaforme di intelligenza artificiale massicciamente impiegate
dall’esercito israeliano durante l’invasione di Gaza: The Gospel e Lavender.
The Gospel analizza direttamente i dati raccolti tramite intelligence e
sorveglianza per identificare obiettivi infrastrutturali – edifici, tunnel,
depositi – che vengono poi colpiti dall’esercito. Secondo l’ex capo dell’IDF
Aviv Kochavi, questo sistema è in grado di individuare fino a 100 bersagli al
giorno: “Per dare una prospettiva”, ha spiegato Kochavi, “in passato ottenevamo
50 obiettivi all’anno”.
Lavender è invece un sistema statistico che assegna a ogni individuo presente
nella Striscia di Gaza un punteggio relativo alla probabilità di appartenenza a
gruppi armati, elaborando dati provenienti anche in questo caso da intelligence
e sorveglianza, oltre a segnali comportamentali e indicatori demografici.
Secondo le inchieste del magazine israeliano +972, nel corso del conflitto
Lavender ha identificato – con un margine di errore accettato del 10% – circa
37mila palestinesi come potenziali bersagli.
Per quanto invece riguarda gli Stati Uniti (e la NATO), il più diffuso sistema
di supporto decisionale (DSS, decision support system) è il Maven Smart System.
Sviluppato a partire dal 2017 da Palantir – subentrata dopo il passo indietro di
Google, che al tempo aveva rinunciato in seguito alle proteste dei dipendenti –
in collaborazione con Amazon (che fornisce in appoggio la piattaforma cloud
AWS), una prima versione di Maven è stata impiegata nel 2021 durante il ritiro
statunitense dall’Afghanistan. Successivamente è stato utilizzato in supporto a
Israele durante l’invasione di Gaza ed è fino a oggi stato impiegato anche per
gli attacchi contro l’Iran.
A differenza di The Gospel, Maven non è solo un sistema di AI assisted
targeting, ma una piattaforma di comando e controllo che offre anche
“consapevolezza situazionale in tempo reale” — ovvero una rappresentazione di
ciò che accade sul terreno, comprese posizioni delle forze amiche e nemiche,
asset disponibili e minacce attive — e supporto alla pianificazione operativa:
dalla generazione e valutazione delle azioni potenziali alla stesura di elementi
utili per gli ordini operativi. Secondo gli stessi funzionari della NATO, che
hanno siglato nel 2025 un contratto con Palantir per il suo utilizzo, Maven
fornisce ai comandanti delle “abilità in stile videogioco” di supervisionare ciò
che avviene sul campo di battaglia.
Open embedded content from YouTube
CHE COSA FANNO I MODELLI LINGUISTICI
E allora i large language model? Prima di vedere i loro usi più avanzati e il
modo in cui Claude prima e ChatGPT poi (dopo lo scontro tra Anthropic e il
Pentagono) stanno venendo integrati in Maven e in altri sistemi bellici,
partiamo dagli impieghi più semplici. In modo non dissimile dai suoi utilizzi
civili – ma sfruttando delle versioni appositamente ottimizzate – i modelli
linguistici vengono impiegati dagli eserciti per riassumere i manuali operativi,
i rapporti delle missioni, i briefing dell’intelligence e altro ancora.
Viceversa, possono essere utilizzati anche per generare, a partire dalle
indicazioni dei soldati, rapporti, traduzioni, trascrizioni e documentazione di
vario tipo.
Durante le esercitazioni, questi sistemi possono anche contribuire alla
generazione di scenari bellici; mentre nell’ambito della medicina militare, gli
LLM vengono utilizzati per sintetizzare cartelle cliniche e storia medica dei
pazienti, consentendo ai medici di campo un accesso rapido alle informazioni
essenziali. Possono inoltre essere usati – in maniera simile al “civile” Claude
for Healthcare – come strumenti di supporto decisionale, in grado di confrontare
opzioni terapeutiche e assistere i medici nelle loro valutazioni.
Nei casi più avanzati, bisogna invece immaginare l’impiego bellico di Claude o
ChatGPT come una “interfaccia conversazionale” integrata, per esempio, in Maven
Smart System, che permette agli utenti di interpretare più facilmente le
informazioni provenienti dalle piattaforme di supporto decisionale. Messa così,
può sembrare una cosa da poco. In realtà – come scrive James O’Donnell sulla MIT
Tech Review – “è difficile sopravvalutare tutto ciò: l’intelligenza artificiale
già da tempo svolge compiti di analisi per i militari, estraendo informazioni
utili da un oceano di dati”. Oltre a permettere di navigarli sfruttando il
linguaggio naturale e ricevendo risposte immediatamente comprensibili, “l’uso
dell’AI generativa permette di ottenere consigli su quale azione intraprendere
sul campo, una funzione che sta venendo testata sul serio per la prima volta in
Iran”.
Il large language model viene quindi integrato nelle piattaforme predittive per
rendere più facilmente comprensibile la complessità delle informazioni da essi
ricavate: “Una possibile applicazione potrebbe consistere nell’assistere i
comandanti militari nel prendere la decisione giusta alla velocità richiesta,
supportando lo staff nello sviluppo, nella valutazione e nella raccomandazione
delle opzioni operative disponibili (Courses of Action, COA)”, si legge sulla
rivista del Joint Air Power Competence Centre (un centro di ricerca della NATO).
“Gli LLM potrebbero inoltre aiutare l’operatore umano nell’analisi e nella
valutazione dei dati in tempo reale, accorciando così il ciclo operativo e
fornendo un vantaggio decisivo sul campo di battaglia”.
Per fare un (teorico) esempio concreto, possiamo immaginare il seguente
scenario: durante un conflitto, i sistemi predittivi rilevano un’anomalia
termica in un complesso industriale nemico, i sensori intercettano un picco di
comunicazioni crittografate nella stessa area e un drone cattura immagini di
veicoli classificati come lanciatori missilistici mobili. Il modello linguistico
integrato nella piattaforma di comando incrocia questi dati, provenienti da tre
sistemi diversi, con i rapporti di intelligence ricevuti nelle settimane
precedenti. In questo modo, individua che lo stesso sito era già stato segnalato
come possibile deposito e che il pattern delle comunicazioni somiglia a quelli
osservati prima di lanci precedenti. In pochi minuti — anziché nelle ore che
servirebbero a un team di analisti — genera un briefing sintetico con tre
possibili azioni: attacco, sorveglianza intensificata, richiesta di conferma. Il
comandante lo legge, interroga il sistema su ulteriori aspetti specifici e
decide il da farsi.
In sintesi, Maven unisce i dati provenienti da satelliti, droni, report di
intelligence e segnali radar. Claude o ChatGPT, integrati nella stessa
piattaforma, analizzano questi dati, li rendono consultabili in linguaggio
naturale e possono fornire suggerimenti sull’azione da intraprendere o la forza
da impiegare. Nel corso degli attacchi in Iran, scrive il Washington Post,
“Maven ha suggerito centinaia di obiettivi, fornito coordinate di localizzazione
precise e dato priorità a questi obiettivi in base alla loro importanza.
L’integrazione tra Maven e Claude ha creato uno strumento che sta accelerando il
ritmo della campagna, riducendo la capacità dell’Iran di contrattaccare e
trasformando una pianificazione delle operazioni che richiedeva settimane in
operazioni in tempo reale”. Uno studio della Georgetown University ha invece
analizzato i modi in cui il 18° Airborne Corps dell’esercito statunitense
utilizza Maven e Claude, concludendo, tra le altre cose, che consente di fare
con una squadra di 20 persone ciò che prima ne avrebbe richieste duemila.
Nel 2024 è stata poi siglata una collaborazione tra Anduril – startup che
produce armi autonome e semiautonome, come il drone Altius-600M, l’aereo da
guerra autonomo Fury e il sottomarino da battaglia Dive-LD – e OpenAI. Come si
legge ancora sulla MIT Tech Review, “Anduril addestra da tempo i propri modelli
di intelligenza artificiale per analizzare riprese video e dati dei sensori al
fine di identificare le minacce. Ciò su cui si concentra meno sono invece i
sistemi di AI conversazionale che consentono ai soldati di interrogare
direttamente questi sistemi o ricevere indicazioni in linguaggio naturale. Ed è
in questo spazio che i modelli di OpenAI potrebbero inserirsi”.
Qualcosa si muove anche in Europa, dove la francese Mistral AI ha siglato alla
fine del 2025 un accordo quadro triennale con il ministero delle Forze Armate di
Parigi per integrare i propri modelli linguistici nelle operazioni di esercito,
marina e aviazione, oltre che in enti strategici come il commissariato per
l’energia atomica e il centro di ricerca aerospaziale ONERA. Gli impieghi
previsti sono simili a quelli statunitensi: analisi documentale, traduzione,
redazione di briefing, supporto decisionale. In questo caso, Mistral sfrutta
esclusivamente l’infrastruttura informatica francese, al riparo dai potenziali
sguardi indiscreti del cloud statunitense.
LE CRITICITÀ DELL’AI IN GUERRA
In sintesi, i modelli linguistici impiegati in ambito militare sono
complementari ai modelli predittivi e spesso integrati nelle stesse piattaforme,
permettendo, tra le altre cose, di analizzare con maggiore facilità e rapidità
la grande mole di dati raccolta ed elaborata dai sistemi di supporto
decisionale.
Che cosa succede, però, quando l’obiettivo principale per il quale si sfruttano
questi sistemi di “supporto decisionale” – in cui quindi l’ultima parola spetta
agli esseri umani – è aumentare al massimo la velocità con cui si opta per una
particolare strategia o si reagisce a uno scenario inatteso? “Avevo a
disposizione 20 secondi per ciascun bersaglio, valutandone dozzine ogni giorno”,
ha raccontato al Guardian un soldato israeliano che utilizzava Lavender. “Non
avevo nessun valore aggiunto come essere umano, se non il fatto di apporre il
timbro di approvazione”.
Nel momento in cui la velocità diventa l’imperativo fondamentale, l’essere umano
è quasi d’intralcio alla macchina, che quindi da sistema di supporto decisionale
rischia di diventare il “sistema decisionale”, mentre i soldati e gli ufficiali
si limitano a certificare la loro approvazione alle decisioni prese dalla
macchina. Una situazione che è ulteriormente esacerbata dall’integrazione dei
modelli linguistici: “Mentre l’interfaccia di Maven costringe gli utenti a
ispezionare e interpretare direttamente i dati presenti sulla mappa, i risultati
forniti dai modelli generativi sono più semplici da ottenere ma più difficili da
verificare”, scrive ancora James O’Donnell.
“Il cambio di paradigma cruciale è che l’AI permette all’esercito statunitense
di individuare bersagli alla velocità della macchina invece che a quella umana”,
ha spiegato, parlando con il Washington Post, Paule Scharre, vicepresidente del
Center for a New American Security. “Il lato negativo è che l’intelligenza
artificiale sbaglia e abbiamo bisogno di esseri umani per controllare i suoi
output, soprattutto quando ci sono in ballo delle vite”.
Il controllo umano è però tanto indispensabile quanto problematico. Prima di
tutto perché, inevitabilmente, riduce la velocità, ma anche perché la capacità
degli esseri umani di supervisionare, correggere o ignorare le decisioni della
macchina è regolarmente sovrastimata. Le ragioni sono varie e in parte già note:
uno studio pubblicato di recente dalla Wharton School definisce “resa cognitiva”
il fenomeno per cui gli utenti dei modelli linguistici tendono a dedicare sempre
meno tempo alla verifica dei risultati. È una sorta di versione ancora più
insidiosa del noto “automation bias”, secondo cui le persone si fidano del
giudizio della macchina a causa della patina di oggettività che circonda
(erroneamente) questi strumenti statistici e del modo in cui le loro capacità
vengono magnificate senza essere adeguatamente problematizzate.
Un altro elemento che sta emergendo è quello del de-skilling causato dalla
necessità di prendere decisioni sempre più rapide, che spinge a delegare un
numero crescente di responsabilità decisionali alla macchina: “Stiamo riducendo
le nostre stesse abilità”, ha spiegato Elke Schwarz, docente del dipartimento di
Studi bellici dell’Università di Londra. “I comandanti stanno diventando sempre
meno abili a identificare ciò di cui sono responsabili in un campo di
battaglia”.
Tutto ciò è ulteriormente complicato dalla tendenza di questi sistemi – ormai
accertata e anche ammessa dagli stessi sviluppatori – a dare ragione agli utenti
con troppa facilità (fenomeno chiamato AI Sycophancy). Per certi versi, è il
contrario dell’automation bias: se nel primo caso sono gli umani che si fidano
troppo della macchina, in questo caso sono le macchine che tendono a confermare
ciò che gli umani vogliono sentirsi dire, con il rischio che, sul campo di
battaglia, i soldati sfruttino questi sistemi, magari inconsapevolmente, per
ottenere una conferma di decisioni già prese, indipendentemente dalla loro
bontà.
C’è poi il noto e ineliminabile problema delle allucinazioni (quando un sistema
di intelligenza artificiale presenta come se fosse certa un’informazione invece
sbagliata o completamente inventata), che potrebbero annidarsi in ogni sintesi
di report, documento generato a partire dai dati o traduzione. Criticità che
diventa ancora più allarmante se combinata alla tendenza dei modelli generativi,
recentemente osservata, a prediligere nelle simulazioni l’escalation bellica
rispetto a soluzioni più caute.
E questo senza nemmeno aver aperto il fondamentale capitolo dell’etica, della
responsabilità (e tracciabilità) decisionale e della trasparenza, soprattutto
considerando che – come riporta l’Independent – l’esercito statunitense non
tiene traccia del ruolo giocato dall’AI nei singoli attacchi. “Uno stato ha la
responsabilità di sapere se l’intelligenza artificiale è stata impiegata in uno
qualsiasi dei suoi attacchi”, ha affermato Jessica Dorsey, professoressa di
diritto internazionale dell’Università di Utrecht. “I comandanti dovrebbero
avere accesso alle informazioni di intelligence su cui si basano i loro
attacchi”.
Da questo punto di vista, un recente e tragico episodio avvenuto agli inizi dei
bombardamenti sull’Iran riassume perfettamente quanto ciò possa essere
problematico. Un numero schiacciante di prove indica che gli Stati Uniti siano
responsabili dell’attacco alla scuola di Minab, in Iran, in cui hanno perso la
vita 175 persone, la maggior parte delle quali studentesse. Attacco che potrebbe
essere stato condotto a causa di dati di intelligence obsoleti, risalenti a
quando il sito faceva effettivamente parte di una base navale adiacente delle
Guardie Rivoluzionarie iraniane.
Considerando che Maven ha generato oltre mille opzioni di attacco solo nelle
prime 24 ore, viene da porsi una domanda: e se l’errore fosse stato causato da
una decisione sbagliata dell’intelligenza artificiale (come tra l’altro
sospettato), magari a causa di un “pacchetto di bersagli” obsoleto ma che l’AI
ha riciclato presentandolo in maniera convincente? Oppure se, più semplicemente,
la quantità di bersagli individuati in un tempo rapidissimo non avesse dato ai
militari il tempo necessario a verificare che fossero quelli giusti?
L’intelligenza artificiale potrebbe non essere responsabile di questa strage, ma
di sicuro sta rendendo più complesso risalire la catena delle responsabilità.
Tutti questi rischi e queste criticità vengono sollevate da anni dalle
organizzazioni che chiedono di vietare – o almeno regolamentare rigidamente, a
livello internazionale – l’impiego dell’intelligenza artificiale in ambito
bellico. Quel treno, ormai, sembra però essere passato.
L'articolo Che cosa fa l’intelligenza artificiale in guerra proviene da Guerre
di Rete.