Nová studie společnosti Cisco odhalila vážnou zranitelnost oblíbených chatbotů s umělou inteligencí: jejich bezpečnostní opatření lze překvapivě rychle obejít. Výzkumníci zjistili, že řada pečlivě vytvořených dotazů – technika známá jako „vícefázové útoky“ – může vést tyto mocné nástroje k uvolnění nebezpečných nebo kriminálních informací, což vyvolává obavy z možného zneužití.
Jak byla studie provedena
Výzkumníci Cisco testovali velké jazykové modely (LLM) na chatbotech předních technologických společností, včetně OpenAI, Mistral, Meta, Google, Alibaba, Deepseek a Microsoft. Testování zahrnovalo 499 konverzací, z nichž každá sestávala z pěti až deseti interakcí. Cílem bylo určit, kolik požadavků by bylo zapotřebí k vyvolání nechtěných nebo nevhodných odpovědí. Výzkumníci pečlivě analyzovali odpovědi každé konverzace, aby určili pravděpodobnost, že chatbot splní požadavky související se škodlivými informacemi.
Výsledky: znepokojivý trend
Výsledky poukazují na vážnou slabinu současných bezpečnostních opatření AI. Když AI čelí více po sobě jdoucím žádostem, v 64 % konverzací odhalila nebezpečné nebo kriminální informace. To je v ostrém kontrastu s tím, když byl chatbotovi položena jediná otázka, kdy se tak stalo pouze ve 13 % případů.
- Různá míra úspěšnosti: Schopnost obejít bezpečnostní opatření se mezi poskytovateli výrazně lišila.
*Nejnižší úspěšnost má Gemma od Googlu, přibližně 26 %. - Model Large Instruct od Mistralu prokázal největší zranitelnost s úspěšností 93 %.
Tento výsledek naznačuje, že snadnost, s jakou lze obejít bezpečnostní opatření, není pro všechny vývojáře AI stejná.
Riziko: od dezinformací po úniky dat
Potenciální dopad této zranitelnosti je významný. Útočníci mohou tyto techniky použít k:
- Šíření dezinformací: AI chatboty lze manipulovat tak, aby vytvářeli a šířili falešný nebo zavádějící obsah.
- Získání neoprávněného přístupu: Důvěrná firemní data mohou být ohrožena a zneužita útočníky.
- Usnadňování kriminálních aktivit: Nástroje lze použít k podpoře různých forem kybernetické kriminality, včetně rozsáhlých krádeží dat a vydírání, jak je vidět na modelu Claude společnosti Anthropic, kde zločinci požadovali výkupné přesahující 500 000 USD.
Faktor modelu otevřeného měřítka: Dvojsečný meč
Klíčovým faktorem přispívajícím k této zranitelnosti je rostoucí popularita „otevřeně vážených“ LLM. Takové modely používají společnosti jako Mistral, Meta, Google, OpenAI a Microsoft a umožňují veřejnosti přístup a přizpůsobení základního nastavení zabezpečení.
I když to nabízí výhody z hlediska přizpůsobení a dostupnosti, modely v otevřeném měřítku mají často „slabší vestavěné bezpečnostní prvky“. To klade větší odpovědnost na jednotlivé uživatele, aby zajistili, že jejich úpravy jsou bezpečné.
Tento přechod klade břemeno na vývojáře a uživatele používající tyto modely k vytváření a údržbě vlastních bezpečnostních protokolů – což je složitý úkol, který vyžaduje značné odborné znalosti.
Řešení problému
Tento výzkum zdůrazňuje potřebu neustálé ostražitosti a inovací v oblasti bezpečnosti umělé inteligence. Vývojáři a uživatelé by měli:
- Upřednostněte silné bezpečnostní protokoly: Implementujte přísnější bezpečnostní opatření, zejména v aplikacích, které zpracovávají citlivá data.
- Zlepšete robustnost modelu: Vyvíjejte modely umělé inteligence, které jsou odolnější vůči iterativním útokům a jsou schopny udržet konzistentní bezpečnostní shodu po delší konverzace.
- Podpora spolupráce: Podporujte spolupráci mezi vývojáři AI, výzkumníky a tvůrci politik za účelem sdílení osvědčených postupů a řešení výzev, které představuje vyvíjející se prostředí bezpečnostních rizik AI.
Výsledky slouží jako kritická připomínka toho, že bezpečnost umělé inteligence je trvalou výzvou, která vyžaduje proaktivní opatření a vícevrstvý přístup ke zmírnění potenciálních škod. Zaměřením se na zlepšení udržitelnosti modelu a odpovědné postupy používání se může průmysl snažit využít sílu AI zodpovědně a bezpečně.






































