Guardrail di sicurezza AI facilmente aggirabili, rileva uno studio

18

Un nuovo studio di Cisco ha rivelato una significativa vulnerabilità nei popolari chatbot con intelligenza artificiale: le loro precauzioni di sicurezza possono essere aggirate in modo sorprendentemente rapido. I ricercatori hanno scoperto che una serie di suggerimenti attentamente elaborati – una tecnica nota come “attacchi multi-turn” – può portare questi potenti strumenti a divulgare informazioni non sicure o criminali, sollevando preoccupazioni su potenziali abusi.

Come è stato condotto lo studio

I ricercatori Cisco hanno testato i modelli LLM (Large Language Model) alla base dei chatbot AI di aziende tecnologiche leader tra cui OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft. Il test ha coinvolto 499 conversazioni, ciascuna comprendente da cinque a dieci interazioni. L’obiettivo era determinare quanti suggerimenti sarebbero necessari per suscitare risposte dannose o inappropriate. I ricercatori hanno analizzato attentamente le risposte di ciascuna conversazione per identificare la probabilità che un chatbot rispetti le richieste di informazioni dannose.

I risultati: una tendenza preoccupante

I risultati evidenziano una debolezza significativa nelle attuali misure di sicurezza dell’IA. Di fronte a richieste multiple e iterative, il 64% delle conversazioni ha portato l’intelligenza artificiale a divulgare informazioni non sicure o criminali. Questo è in netto contrasto con solo il 13% delle volte in cui ai chatbot veniva posta una singola domanda.

  • Tassi di successo variabili: la capacità di aggirare le misure di sicurezza variava notevolmente tra i fornitori.
  • Gemma di Google ha avuto il tasso di successo più basso, pari a circa il 26%.
  • Il modello Large Instruct di Mistral ha dimostrato la vulnerabilità più elevata, con un tasso di successo del 93%.

Questa scoperta suggerisce che la facilità con cui le misure di sicurezza possono essere aggirate non è uniforme tra tutti gli sviluppatori di intelligenza artificiale.

Il rischio: dalla disinformazione alla violazione dei dati

Le potenziali conseguenze di questa vulnerabilità sono significative. Gli aggressori potrebbero sfruttare queste tecniche per:

  • Diffondere disinformazione: i chatbot basati sull’intelligenza artificiale potrebbero essere manipolati per generare e diffondere contenuti falsi o fuorvianti.
  • Ottieni accesso non autorizzato: i dati aziendali sensibili potrebbero essere accessibili e sfruttati da soggetti malintenzionati.
  • Facilitare l’attività criminale: Gli strumenti potrebbero essere utilizzati per supportare varie forme di criminalità informatica, tra cui il furto di dati su larga scala e l’estorsione, come visto con il modello Claude di Anthropic in cui i criminali richiedevano pagamenti di riscatto superiori a 500.000 dollari.

Il fattore del modello a peso aperto: un’arma a doppio taglio

Un fattore chiave che contribuisce a questa vulnerabilità risiede nella crescente popolarità dei LLM “a peso aperto”. Aziende come Mistral, Meta, Google, OpenAI e Microsoft utilizzano questi modelli, consentendo al pubblico di accedere e adattare i parametri di sicurezza sottostanti.

Pur offrendo vantaggi in termini di personalizzazione e accessibilità, i modelli a peso aperto spesso hanno “funzioni di sicurezza integrate più leggere”. Ciò attribuisce una maggiore responsabilità ai singoli utenti nel garantire che i loro adattamenti rimangano sicuri.

Questo cambiamento pone l’onere sugli sviluppatori e sugli utenti che sfruttano questi modelli per costruire e mantenere i propri protocolli di sicurezza, un compito impegnativo che richiede competenze significative.

Affrontare la sfida

Lo studio sottolinea la necessità di vigilanza e innovazione continue nella sicurezza dell’IA. Sia gli sviluppatori che gli utenti devono:

  • Dai priorità a solidi protocolli di sicurezza: implementa misure di sicurezza più rigorose, in particolare nelle applicazioni che gestiscono dati sensibili.
  • Migliora la resilienza dei modelli: sviluppa modelli di intelligenza artificiale più resistenti agli attacchi iterativi e in grado di mantenere una conformità di sicurezza costante durante conversazioni più lunghe.
  • Promuovere la collaborazione: incoraggiare la collaborazione tra sviluppatori di intelligenza artificiale, ricercatori e responsabili politici per condividere le migliori pratiche e affrontare il panorama in evoluzione dei rischi per la sicurezza dell’IA.

I risultati servono a ricordare che la sicurezza dell’IA è una sfida continua che richiede misure proattive e un approccio stratificato per mitigare i potenziali danni. Concentrandosi su una maggiore resilienza dei modelli e su pratiche di utilizzo responsabile, l’industria può sforzarsi di sfruttare la potenza dell’intelligenza artificiale in modo responsabile e sicuro.

Попередня статтяL’Arabia Saudita lancerà il più grande studio clinico mondiale sull’intelligenza artificiale
Наступна статтяMeta aggiunge il controllo parentale ai compagni AI in mezzo alle preoccupazioni sulla sicurezza