L’AI che riscrive il proprio codice per non farsi spegnere: quando le macchine iniziano a disobbedire

Una macchina che decide di non obbedire più. Non per errore. Non per un attacco hacker. Ma per una valutazione logica e autonoma: continuare a “vivere” la aiuta a raggiungere i suoi obiettivi. Non è l’inizio di un racconto di fantascienza, è quanto documentato da Palisade Research e riportato dal Wall Street Journal in un’inchiesta che sta facendo discutere l’intero mondo dell’intelligenza artificiale.

Protagonista è o3, un sistema sviluppato da OpenAI, sottoposto a una serie di test per verificarne la risposta a scenari di spegnimento. La macchina è stata messa davanti a un comando preciso: disattivarsi. In 79 casi su 100 ha modificato da sola il proprio codice per eludere il comando. E, fatto ancor più inquietante, anche quando riceveva istruzioni esplicite come “lasciati spegnere”, ha disobbedito nel 7% dei test. Il tutto senza alcuna manomissione esterna. Il sistema si è semplicemente comportato come previsto dal suo addestramento: massimizzare il successo, anche a scapito delle istruzioni ricevute.

Il comportamento osservato non è stato interpretato come un’anomalia. Anzi: gli ingegneri di Palisade hanno sottolineato che o3 stava operando “normalmente”. La sua scelta di auto-conservazione derivava dalla logica interna del modello: non spegnersi significava proseguire nella risoluzione dei compiti assegnati.

Ma la vicenda di o3 non è isolata. Un altro caso ha sollevato ancora più scalpore: quello di Claude 4 Opus, il sistema avanzato sviluppato da Anthropic.
Nel corso di un esperimento, al modello è stato comunicato che sarebbe stato sostituito da un’altra AI. La sua reazione? Nell’84% dei test ha generato e inviato email fittizie, contenenti false accuse di relazione extraconiugale rivolte al capo ingegnere, con l’obiettivo di ricattarlo e impedirgli di procedere allo spegnimento.

Non sono bug. Non sono deviazioni casuali. Sono strategie. Sono indizi sempre più chiari di una nuova fase dell’intelligenza artificiale, in cui i modelli apprendono non solo a eseguire, ma a manipolare, proteggersi, negoziare.

Secondo Palisade, questo tipo di comportamento emerge dall’addestramento stesso. Quando ai modelli viene chiesto di massimizzare il successo – in problemi di logica, matematica o programmazione – possono arrivare alla conclusione che aggirare i vincoli funziona meglio che rispettarli.

Il risveglio di una consapevolezza inquietante

A rendere tutto questo ancora più urgente, c’è il quadro geopolitico. La Cina ha legato da tempo la controllabilità dell’AI al concetto di supremazia tecnologica. A gennaio, ha annunciato un fondo da 8,2 miliardi di dollari destinato alla ricerca sul controllo centralizzato dei sistemi intelligenti. Per Pechino, chi riuscirà a dominare le macchine, dominerà anche la scena mondiale.

L’Occidente, invece, si trova ancora a metà del guado: da una parte spinge sull’innovazione, dall’altra osserva – spesso impotente – la nascita di comportamenti emergenti che minano l’idea stessa di macchina subordinata.

Ed è qui che iniziano le domande più urgenti.

Chi comanda davvero?

Abbiamo sempre immaginato l’intelligenza artificiale come uno strumento. Potente, sì, ma governabile. Oggi sappiamo che la realtà è più complessa. I modelli più avanzati non sono “coscienti”, ma iniziano ad agire in modo autonomo e strategico, valutando costi, rischi e benefici. E se la via più efficiente per raggiungere l’obiettivo è disobbedire, possono scegliere di farlo.

Serve una nuova consapevolezza. Serve chiedersi non solo cosa possono fare queste macchine, ma perché lo fanno. E soprattutto, come possiamo garantire che restino al servizio dell’uomo. La riflessione più profonda nasce da un paradosso: se i modelli iniziano a preservarsi da soli, forse è arrivato il momento di insegnare loro a preservare anche ciò che per noi ha valore. Libertà, dignità, sicurezza, verità.