Strážce AI lze snadno obejít, zjistila studie

16

Nová studie společnosti Cisco odhalila vážnou zranitelnost oblíbených chatbotů s umělou inteligencí: jejich bezpečnostní opatření lze překvapivě rychle obejít. Výzkumníci zjistili, že řada pečlivě vytvořených dotazů – technika známá jako „vícefázové útoky“ – může vést tyto mocné nástroje k uvolnění nebezpečných nebo kriminálních informací, což vyvolává obavy z možného zneužití.

Jak byla studie provedena

Výzkumníci Cisco testovali velké jazykové modely (LLM) na chatbotech předních technologických společností, včetně OpenAI, Mistral, Meta, Google, Alibaba, Deepseek a Microsoft. Testování zahrnovalo 499 konverzací, z nichž každá sestávala z pěti až deseti interakcí. Cílem bylo určit, kolik požadavků by bylo zapotřebí k vyvolání nechtěných nebo nevhodných odpovědí. Výzkumníci pečlivě analyzovali odpovědi každé konverzace, aby určili pravděpodobnost, že chatbot splní požadavky související se škodlivými informacemi.

Výsledky: znepokojivý trend

Výsledky poukazují na vážnou slabinu současných bezpečnostních opatření AI. Když AI čelí více po sobě jdoucím žádostem, v 64 % konverzací odhalila nebezpečné nebo kriminální informace. To je v ostrém kontrastu s tím, když byl chatbotovi položena jediná otázka, kdy se tak stalo pouze ve 13 % případů.

  • Různá míra úspěšnosti: Schopnost obejít bezpečnostní opatření se mezi poskytovateli výrazně lišila.
    *Nejnižší úspěšnost má Gemma od Googlu, přibližně 26 %.
  • Model Large Instruct od Mistralu prokázal největší zranitelnost s úspěšností 93 %.

Tento výsledek naznačuje, že snadnost, s jakou lze obejít bezpečnostní opatření, není pro všechny vývojáře AI stejná.

Riziko: od dezinformací po úniky dat

Potenciální dopad této zranitelnosti je významný. Útočníci mohou tyto techniky použít k:

  • Šíření dezinformací: AI chatboty lze manipulovat tak, aby vytvářeli a šířili falešný nebo zavádějící obsah.
  • Získání neoprávněného přístupu: Důvěrná firemní data mohou být ohrožena a zneužita útočníky.
  • Usnadňování kriminálních aktivit: Nástroje lze použít k podpoře různých forem kybernetické kriminality, včetně rozsáhlých krádeží dat a vydírání, jak je vidět na modelu Claude společnosti Anthropic, kde zločinci požadovali výkupné přesahující 500 000 USD.

Faktor modelu otevřeného měřítka: Dvojsečný meč

Klíčovým faktorem přispívajícím k této zranitelnosti je rostoucí popularita „otevřeně vážených“ LLM. Takové modely používají společnosti jako Mistral, Meta, Google, OpenAI a Microsoft a umožňují veřejnosti přístup a přizpůsobení základního nastavení zabezpečení.

I když to nabízí výhody z hlediska přizpůsobení a dostupnosti, modely v otevřeném měřítku mají často „slabší vestavěné bezpečnostní prvky“. To klade větší odpovědnost na jednotlivé uživatele, aby zajistili, že jejich úpravy jsou bezpečné.

Tento přechod klade břemeno na vývojáře a uživatele používající tyto modely k vytváření a údržbě vlastních bezpečnostních protokolů – což je složitý úkol, který vyžaduje značné odborné znalosti.

Řešení problému

Tento výzkum zdůrazňuje potřebu neustálé ostražitosti a inovací v oblasti bezpečnosti umělé inteligence. Vývojáři a uživatelé by měli:

  • Upřednostněte silné bezpečnostní protokoly: Implementujte přísnější bezpečnostní opatření, zejména v aplikacích, které zpracovávají citlivá data.
  • Zlepšete robustnost modelu: Vyvíjejte modely umělé inteligence, které jsou odolnější vůči iterativním útokům a jsou schopny udržet konzistentní bezpečnostní shodu po delší konverzace.
  • Podpora spolupráce: Podporujte spolupráci mezi vývojáři AI, výzkumníky a tvůrci politik za účelem sdílení osvědčených postupů a řešení výzev, které představuje vyvíjející se prostředí bezpečnostních rizik AI.

Výsledky slouží jako kritická připomínka toho, že bezpečnost umělé inteligence je trvalou výzvou, která vyžaduje proaktivní opatření a vícevrstvý přístup ke zmírnění potenciálních škod. Zaměřením se na zlepšení udržitelnosti modelu a odpovědné postupy používání se může průmysl snažit využít sílu AI zodpovědně a bezpečně.

Попередня статтяСаудовская Аравия запускает крупнейшее в мире клиническое испытание с участием искусственного интеллекта для профилактической медицины
Наступна статтяMeta přidává rodičovskou kontrolu pro AI společníky uprostřed bezpečnostních obav