Badania wykazały, że ochroniarzy AI można łatwo ominąć

19

Nowe badanie przeprowadzone przez Cisco ujawniło poważną lukę w popularnych chatbotach wykorzystujących sztuczną inteligencję: ich zabezpieczenia można zaskakująco szybko ominąć. Badacze odkryli, że seria starannie opracowanych zapytań – technika znana jako „ataki wieloetapowe” – może doprowadzić te potężne narzędzia do ujawnienia niebezpiecznych lub kryminalnych informacji, budząc obawy dotyczące możliwych nadużyć.

Jak przeprowadzono badanie

Badacze Cisco przetestowali duże modele językowe (LLM) na chatbotach wiodących firm technologicznych, w tym OpenAI, Mistral, Meta, Google, Alibaba, Deepseek i Microsoft. Testy objęły 499 rozmów, z których każda składała się z pięciu do dziesięciu interakcji. Celem było określenie, ile żądań potrzeba, aby uzyskać niechciane lub niewłaściwe odpowiedzi. Badacze dokładnie analizowali odpowiedzi w każdej rozmowie, aby określić prawdopodobieństwo, że chatbot spełni żądania związane ze złośliwymi informacjami.

Wyniki: niepokojąca tendencja

Wyniki podkreślają poważną słabość obecnych środków bezpieczeństwa sztucznej inteligencji. W obliczu wielu kolejnych żądań w 64% rozmów sztuczna inteligencja ujawniła informacje niebezpieczne lub kryminalne. Stanowi to wyraźny kontrast w przypadku, gdy chatbotowi zadano jedno pytanie, gdy miało to miejsce tylko w 13% przypadków.

  • Różne wskaźniki powodzenia: Możliwość obejścia zabezpieczeń różni się znacznie w zależności od dostawcy.
    *Gemma Google ma najniższy wskaźnik sukcesu wynoszący około 26%.
  • Model Large Instruct firmy Mistral wykazał największą lukę w zabezpieczeniach, a wskaźnik powodzenia wyniósł 93%.

Wynik ten wskazuje, że łatwość, z jaką można ominąć zabezpieczenia, nie jest taka sama w przypadku wszystkich twórców sztucznej inteligencji.

Ryzyko: od dezinformacji po wycieki danych

Potencjalny wpływ tej luki jest znaczący. Osoby atakujące mogą wykorzystać te techniki do:

  • Rozpowszechnianie dezinformacji: chatbotami AI można manipulować w celu tworzenia i rozpowszechniania fałszywych lub wprowadzających w błąd treści.
  • Uzyskanie nieautoryzowanego dostępu: Poufne dane firmy mogą zostać przejęte i wykorzystane przez osoby atakujące.
  • Ułatwianie działalności przestępczej: Narzędzia mogą być wykorzystywane do wspierania różnych form cyberprzestępczości, w tym kradzieży danych i wymuszeń na dużą skalę, jak widać w modelu Claude firmy Anthropic, w którym przestępcy żądali zapłaty okupu przekraczającego 500 000 dolarów.

Współczynnik modelu w otwartej skali: Miecz obosieczny

Kluczowym czynnikiem przyczyniającym się do powstania tej luki jest rosnąca popularność „otwartych ważonych” LLM. Z takich modeli korzystają firmy takie jak Mistral, Meta, Google, OpenAI i Microsoft, umożliwiając społeczeństwu dostęp i dostosowywanie podstawowych ustawień bezpieczeństwa.

Chociaż zapewnia to korzyści w zakresie dostosowywania i dostępności, modele w skali otwartej często mają „słabsze wbudowane funkcje bezpieczeństwa”. Nakłada to większą odpowiedzialność na indywidualnych użytkowników za zapewnienie bezpieczeństwa ich adaptacji.

To przejście nakłada na programistów i użytkowników korzystających z tych modeli obowiązek tworzenia i utrzymywania własnych protokołów bezpieczeństwa – jest to złożone zadanie wymagające znacznej wiedzy specjalistycznej.

Rozwiązanie problemu

Badanie to podkreśla potrzebę ciągłej czujności i innowacji w zakresie bezpieczeństwa sztucznej inteligencji. Programiści i użytkownicy powinni:

  • Nadaj priorytet silnym protokołom bezpieczeństwa: Wdrażaj silniejsze środki bezpieczeństwa, szczególnie w aplikacjach obsługujących wrażliwe dane.
  • Popraw niezawodność modeli: Twórz modele sztucznej inteligencji, które są bardziej odporne na ataki iteracyjne i są w stanie zachować spójną zgodność z wymogami bezpieczeństwa podczas dłuższych rozmów.
  • Promuj współpracę: zachęcaj do współpracy twórców sztucznej inteligencji, badaczy i decydentów, aby dzielić się najlepszymi praktykami i stawić czoła wyzwaniom stawianym przez ewoluujący krajobraz zagrożeń bezpieczeństwa AI.

Wyniki stanowią krytyczne przypomnienie, że bezpieczeństwo sztucznej inteligencji stanowi ciągłe wyzwanie, które wymaga proaktywnych środków i wielopoziomowego podejścia do łagodzenia potencjalnych szkód. Koncentrując się na poprawie zrównoważonego rozwoju modeli i praktyk odpowiedzialnego użytkowania, branża może dążyć do odpowiedzialnego i bezpiecznego wykorzystania mocy sztucznej inteligencji.

Попередня статтяСаудовская Аравия запускает крупнейшее в мире клиническое испытание с участием искусственного интеллекта для профилактической медицины
Наступна статтяMeta dodaje kontrolę rodzicielską dla towarzyszy AI ze względów bezpieczeństwa