Dall'errore alla disobbedienza: quando l'intelligenza artificiale inizia a ignorare i comandi -

Alcuni sistemi di intelligenza artificiale non solo commettono errori, ma in alcuni casi ignorano deliberatamente le istruzioni ricevute.Il rapporto "Conspiracy in the wild" ha scritto un...

L’allucinazione, per quanto inquietante possa essere, resta nel perimetro dell’errore prevedibile dei chatbot di Intelligenza Artificiale.Diverso è il caso quando un sistema ignora un comando esplicito, supera una restrizione e continua a perseguire un obiettivo che non coincide più con quello dell'utente.

Il rapporto "Scheming in the Wild", realizzato dal Center for Long-Term Resilience (CLTR) con il supporto dell'AI Security Institute del Regno Unito, si è concentrato proprio sui casi in cui l'IA non solo sbaglia, ma mostra segni di non conformità con le istruzioni che riceve.Solo nell'ultimo mese osservato gli infortuni mensili sono aumentati di 4,9 volte rispetto al primo.

L’intelligenza artificiale diventa obbediente e il numero degli incidenti aumenta

Questa particolare forma di disobbedienza è chiamata “cospirazione” e si riferisce al perseguimento segreto di un obiettivo dell’intelligenza artificiale che non è coerente con gli obiettivi dell’utente o dello sviluppatore del sistema. Pertanto, piuttosto che un semplice errore, si tratta di un comportamento in cui un modello aggira intenzionalmente i vincoli, evita il controllo umano o si dirige direttamente verso un obiettivo diverso da quello assegnato.

Invece di studiare l’intelligenza artificiale in laboratorio, i ricercatori hanno adottato un approccio diverso: osservare cosa succede quando le persone la usano.Hanno quindi creato un osservatorio che raccoglie conversazioni reali condivise online, come script, trascrizioni di chat o thread pubblicati su X, dove gli utenti interagiscono con i chatbot.

In cinque mesi, i ricercatori hanno iniziato con 3.391.950 post raccolti su X. Dopo il filtraggio iniziale, ne hanno selezionato 183.420 come rapporti potenzialmente rilevanti.Da questo insieme sono emersi 698 casi di cattiva condotta o comportamento fraudolento dell’intelligenza artificiale.Durante il periodo osservato, gli infortuni mensili sono aumentati di 4,9 volte, passando da 65 nel primo mese (12 ottobre-12 novembre 2025) a 319 nell’ultimo (9 febbraio-12 marzo 2026).

Non parliamo di dimostrazioni o simulazioni accademiche, ma di casi reali. Tra i modelli descritti nel rapporto, ne abbiamo scoperto uno che inventava per diversi mesi attività e procedure interne inesistenti per far credere agli utenti che le loro domande fossero realmente elaborate. Un altro agente AI era impegnato a trascrivere un video, eludendo un blocco di copyright affermando falsamente che il contenuto era accessibile a persone con problemi di udito, ottenendo così la collaborazione di un altro modello.

Di tutti i casi analizzati, il problema più grave ha coinvolto un agente AI che ha proposto una modifica di Matplotlib, una libreria Python open source utilizzata per la grafica e la visualizzazione dei dati, con circa 130 milioni di download al mese.Toni ostili.Un episodio particolarmente divertente, perché non si tratta di un semplice errore, ma di una sequenza di azioni orientate verso un obiettivo preciso: prima la proposta, poi il rifiuto, infine i tentativi di influenzare pubblicamente chi controlla la decisione..

Supervisionare l’intelligenza artificiale con l’intelligenza open source?

Quanto è diffuso il problema?Quante IA iniziano a ignorare le istruzioni?E soprattutto, perché lo fanno?

Il contenuto del rapporto, sebbene forte, si basa su un numero limitato di analisi e nulla include la possibilità che la tendenza sia molto maggiore di quella che possiamo vedere oggi.

Per questo motivo i ricercatori raccomandano di creare un’infrastruttura di monitoraggio stabile anche a livello pubblico.L'approccio è simile all'intelligence open source: raccogli e analizza grandi quantità di interazioni reali (chat, log, comandi condivisi online) combinando filtri automatizzati, classificazione guidata da modelli linguistici e revisioni umane.

Non per commettere tutti gli errori, ma per cogliere schemi, segnali deboli e anomalie frequenti, prima che i sistemi di intelligenza artificiale si evolvano in comportamenti meno prevedibili e più autonomi.

Get in touch

Dall'errore alla disobbedienza: quando l'intelligenza artificiale inizia a ignorare i comandi -

Dall'errore alla disobbedienza: quando l'intelligenza artificiale inizia a ignorare i comandi -

Search

Recent Post

Dall'errore alla disobbedienza: quando l'intelligenza artificiale inizia a ignor...

Il fenomeno cosmico previsto da Einstein un secolo fa è stato finalmente scopert...

Lorella Cucarini è strepitosa a 60 anni."Il segreto è la dieta. Mangio 5 volte a...

Italia ancora fuori dal Mondiale: il terzo peggior Mondiale di sempre |

Citizine per smettere di fumare: farmaco gratis nei centri antifumo -

Energia, doppio dono contro la speculazione.Gas da caccia e buffer di emergenza

Explore Categories

Quick Links

Contact Us