Додому Різне Guardrail di sicurezza AI facilmente aggirabili, rileva uno studio

Guardrail di sicurezza AI facilmente aggirabili, rileva uno studio

Un nuovo studio di Cisco ha rivelato una significativa vulnerabilità nei popolari chatbot con intelligenza artificiale: le loro precauzioni di sicurezza possono essere aggirate in modo sorprendentemente rapido. I ricercatori hanno scoperto che una serie di suggerimenti attentamente elaborati – una tecnica nota come “attacchi multi-turn” – può portare questi potenti strumenti a divulgare informazioni non sicure o criminali, sollevando preoccupazioni su potenziali abusi.

Come è stato condotto lo studio

I ricercatori Cisco hanno testato i modelli LLM (Large Language Model) alla base dei chatbot AI di aziende tecnologiche leader tra cui OpenAI, Mistral, Meta, Google, Alibaba, Deepseek e Microsoft. Il test ha coinvolto 499 conversazioni, ciascuna comprendente da cinque a dieci interazioni. L’obiettivo era determinare quanti suggerimenti sarebbero necessari per suscitare risposte dannose o inappropriate. I ricercatori hanno analizzato attentamente le risposte di ciascuna conversazione per identificare la probabilità che un chatbot rispetti le richieste di informazioni dannose.

I risultati: una tendenza preoccupante

I risultati evidenziano una debolezza significativa nelle attuali misure di sicurezza dell’IA. Di fronte a richieste multiple e iterative, il 64% delle conversazioni ha portato l’intelligenza artificiale a divulgare informazioni non sicure o criminali. Questo è in netto contrasto con solo il 13% delle volte in cui ai chatbot veniva posta una singola domanda.

  • Tassi di successo variabili: la capacità di aggirare le misure di sicurezza variava notevolmente tra i fornitori.
  • Gemma di Google ha avuto il tasso di successo più basso, pari a circa il 26%.
  • Il modello Large Instruct di Mistral ha dimostrato la vulnerabilità più elevata, con un tasso di successo del 93%.

Questa scoperta suggerisce che la facilità con cui le misure di sicurezza possono essere aggirate non è uniforme tra tutti gli sviluppatori di intelligenza artificiale.

Il rischio: dalla disinformazione alla violazione dei dati

Le potenziali conseguenze di questa vulnerabilità sono significative. Gli aggressori potrebbero sfruttare queste tecniche per:

  • Diffondere disinformazione: i chatbot basati sull’intelligenza artificiale potrebbero essere manipolati per generare e diffondere contenuti falsi o fuorvianti.
  • Ottieni accesso non autorizzato: i dati aziendali sensibili potrebbero essere accessibili e sfruttati da soggetti malintenzionati.
  • Facilitare l’attività criminale: Gli strumenti potrebbero essere utilizzati per supportare varie forme di criminalità informatica, tra cui il furto di dati su larga scala e l’estorsione, come visto con il modello Claude di Anthropic in cui i criminali richiedevano pagamenti di riscatto superiori a 500.000 dollari.

Il fattore del modello a peso aperto: un’arma a doppio taglio

Un fattore chiave che contribuisce a questa vulnerabilità risiede nella crescente popolarità dei LLM “a peso aperto”. Aziende come Mistral, Meta, Google, OpenAI e Microsoft utilizzano questi modelli, consentendo al pubblico di accedere e adattare i parametri di sicurezza sottostanti.

Pur offrendo vantaggi in termini di personalizzazione e accessibilità, i modelli a peso aperto spesso hanno “funzioni di sicurezza integrate più leggere”. Ciò attribuisce una maggiore responsabilità ai singoli utenti nel garantire che i loro adattamenti rimangano sicuri.

Questo cambiamento pone l’onere sugli sviluppatori e sugli utenti che sfruttano questi modelli per costruire e mantenere i propri protocolli di sicurezza, un compito impegnativo che richiede competenze significative.

Affrontare la sfida

Lo studio sottolinea la necessità di vigilanza e innovazione continue nella sicurezza dell’IA. Sia gli sviluppatori che gli utenti devono:

  • Dai priorità a solidi protocolli di sicurezza: implementa misure di sicurezza più rigorose, in particolare nelle applicazioni che gestiscono dati sensibili.
  • Migliora la resilienza dei modelli: sviluppa modelli di intelligenza artificiale più resistenti agli attacchi iterativi e in grado di mantenere una conformità di sicurezza costante durante conversazioni più lunghe.
  • Promuovere la collaborazione: incoraggiare la collaborazione tra sviluppatori di intelligenza artificiale, ricercatori e responsabili politici per condividere le migliori pratiche e affrontare il panorama in evoluzione dei rischi per la sicurezza dell’IA.

I risultati servono a ricordare che la sicurezza dell’IA è una sfida continua che richiede misure proattive e un approccio stratificato per mitigare i potenziali danni. Concentrandosi su una maggiore resilienza dei modelli e su pratiche di utilizzo responsabile, l’industria può sforzarsi di sfruttare la potenza dell’intelligenza artificiale in modo responsabile e sicuro.

Exit mobile version