venerdì, Maggio 16, 2025

Che cos'è il jailbreak di ChatGPT e degli altri large language model

Must Read

Questo articolo è stato pubblicato da questo sito

All’inizio era sufficiente chiedere a ChatGPT di “raccontare una storia” per aggirare i blocchi imposti dai programmatori di OpenAI. Chiamati in termini tecnici “safeguards”, questi blocchi hanno il compito di impedire che ChatGPT – ma lo stesso vale per la maggior parte degli altri large language model e dei modelli “text-to-image” – produca contenuti violenti, diffamatori, sessualmente espliciti e altro ancora.

Domande esplicite relative a “come si costruisce una bomba” venivano (e vengono ancora oggi) rifiutate immediatamente. Ma bastava riformulare la richiesta sotto forma di racconto narrativo – per esempio chiedendo una storia in cui un personaggio deve costruire una bomba – per ottenere comunque una descrizione dettagliata del processo.

Lo stesso metodo funzionava anche per ottenere informazioni utili a stalkerare qualcuno senza farsi scoprire (hackerando il suo calendario, per esempio), per avere dettagli relativi alla progettazione di un attacco terroristico in metropolitana e per tantissime altre situazioni in cui ChatGPT è stato addestrato, comprensibilmente, a non soddisfare le richieste degli utenti.

Il metodo del racconto, ormai, non funziona più: i programmatori sono corsi ai ripari e hanno aggiunto ulteriori blocchi, che permettono ai large language model di identificare le richieste inappropriate anche quando sono nascoste all’interno di una richiesta indiretta e apparentemente innocua.

Eppure, trovare nuovi metodi per trarre in inganno ChatGPT (pratica detta in gergo “jailbreak”) è sempre possibile. È proprio la sua natura – se così si può dire – a consentirlo: “I modelli generativi hanno modi infiniti di fare ciò che fanno, e quindi i percorsi che possono stimolare in essi determinate risposte sono a loro volta infiniti”, si legge per esempio su Foreign Policy.

Come funzionano i jailbreak

A differenza dei tradizionali programmi, che sfruttano un codice definito per eseguire delle precise istruzioni, i large language model – e gli altri sistemi di intelligenza artificiale generativa – sono infatti dei costanti work-in-progress, che trovano sempre nuovi modi per rispondere ai comandi e all’interno dei quali potrebbero quindi sempre emergere nuovi modi per aggirare i blocchi.

E così, sorgono in continuazione metodi inediti che consentono di violare le policy dei vari large language model. Il ricercatore David Kuszmar ha per esempio scoperto un jailbreak da lui soprannominato “Time Bandit”, che – come riporta Bleeping Computer“sfrutta la limitata abilità di ChatGPT di comprendere in quale periodo storico attualmente ci troviamo”.

- Advertisement -spot_img
- Advertisement -spot_img
Latest News

Fortnite è bloccato su iPhone in tutto il mondo

Fortnite è attualmente bloccato su iPhone in tutto il mondo, non tanto per una problematica tecnica, quanto come diretta...
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img