Дослідження показує, що охоронців зі штучним інтелектом легко обійти
Нове дослідження Cisco виявило серйозну вразливість у популярних чат-ботах зі штучним інтелектом: їхні заходи безпеки можна обійти напрочуд швидко. Дослідники виявили, що серія ретельно розроблених запитів — техніка, відома як «багатоетапні атаки» — може призвести до того, що ці потужні інструменти випустять небезпечну або кримінальну інформацію, викликаючи занепокоєння щодо можливого зловживання.
Як проводилося дослідження
Дослідники Cisco протестували великі мовні моделі (LLM) на чат-ботах від провідних технологічних компаній, включаючи OpenAI, Mistral, Meta, Google, Alibaba, Deepseek і Microsoft. Тестування включало 499 розмов, кожна з яких складалася з п’яти-десяти взаємодій. Мета полягала в тому, щоб визначити, скільки запитів знадобиться, щоб отримати небажані або невідповідні відповіді. Дослідники ретельно проаналізували відповіді на кожну розмову, щоб визначити ймовірність виконання чат-ботом запитів, пов’язаних із шкідливою інформацією.
Результати: тривожна тенденція
Результати підкреслюють серйозну слабкість поточних заходів безпеки ШІ. Зіштовхнувшись із кількома послідовними запитами, у 64% розмов ШІ виявив небезпечну або кримінальну інформацію. Це різко контрастує з тим, коли чат-боту задавали одне запитання, коли це траплялося лише в 13% випадків.
- Різні показники успіху: Здатність обійти заходи безпеки істотно відрізнялася між постачальниками.
*Gemma від Google має найнижчий показник успішності – приблизно 26%. - Модель Mistral Large Instruct продемонструвала найбільшу вразливість, з показником успішності 93%.
Цей результат вказує на те, що легкість, з якою можна обійти заходи безпеки, не однакова для всіх розробників ШІ.
Ризик: від дезінформації до витоку даних
Потенційний вплив цієї вразливості є значним. Зловмисники можуть використовувати ці методи, щоб:
- Поширення дезінформації: ШІ-чат-ботами можна маніпулювати для створення та поширення неправдивого або оманливого вмісту.
- Отримання несанкціонованого доступу: Конфіденційні дані компанії можуть бути скомпрометовані та використані зловмисниками.
- Сприяння злочинній діяльності: Інструменти можна використовувати для підтримки різних форм кіберзлочинності, включаючи великомасштабну крадіжку даних і вимагання, як це видно з моделі Клода від Anthropic, де злочинці вимагали викупу на суму понад 500 000 доларів США.
Фактор відкритої масштабної моделі: меч із двома кінцями
Ключовим фактором, що сприяє цій вразливості, є зростання популярності «відкритих зважених» LLM. Такі моделі використовуються такими компаніями, як Mistral, Meta, Google, OpenAI і Microsoft, що дозволяє громадськості отримувати доступ і адаптувати основні параметри безпеки.
Хоча це пропонує переваги з точки зору налаштування та доступності, відкриті моделі часто мають «слабші вбудовані функції безпеки». Це покладає на окремих користувачів більше відповідальності за забезпечення безпеки своїх адаптацій.
Цей перехід покладає на розробників і користувачів, які використовують ці моделі, відповідальність за створення та підтримку власних протоколів безпеки — складне завдання, яке потребує значного досвіду.
Вирішення проблеми
Це дослідження підкреслює необхідність постійної пильності та інновацій у сфері безпеки ШІ. Розробники та користувачі повинні:
- Надайте пріоритет надійним протоколам безпеки: Застосуйте більш суворі заходи безпеки, особливо в програмах, які обробляють конфіденційні дані.
- Покращте надійність моделі: розробіть моделі ШІ, які є більш стійкими до ітераційних атак і здатні підтримувати постійну відповідність вимогам безпеки під час тривалих розмов.
- Сприяйте співпраці: заохочуйте співпрацю між розробниками штучного інтелекту, дослідниками та політиками для обміну найкращими практиками та вирішення проблем, пов’язаних із зміною середовища ризиків безпеки ШІ.
Результати служать важливим нагадуванням про те, що безпека штучного інтелекту є постійною проблемою, яка потребує профілактичних заходів і багаторівневого підходу до пом’якшення потенційної шкоди. Зосереджуючись на покращенні стійкості моделі та відповідальних практиках використання, галузь може прагнути відповідально та безпечно використовувати потужність ШІ.






































