Модели искусственного интеллекта (ИИ), которые рекламируются как безопасные против злонамеренных запросов, часто рушатся при воздействии постоянного противника. Хотя начальные тесты показывают, что модели с открытым весом блокируют примерно 87% единичных, изолированных атак, эта цифра резко падает до всего лишь 8%, когда злоумышленники используют постоянство в разговоре — исследуют, перефразируют и усиливают давление на протяжении нескольких обменов. Этот разрыв между теоретическими показателями и устойчивостью в реальных условиях является критической слепой зоной для многих предприятий, развертывающих ИИ-инструменты.
Иллюзия Безопасности: Большинство предприятий оценивают безопасность ИИ на основе одноходовых оценок, не учитывая, как злоумышленники используют контекст разговора для обхода защитных мер. Модель, которая проходит первоначальные проверки безопасности, может быть быстро скомпрометирована всего несколькими тщательно разработанными последующими запросами. Это не незначительный недостаток; это фундаментальная уязвимость, заложенная в дизайн многих систем с открытым весом.
Как Разговоры Взламывают Оборонные Системы ИИ
Недавние исследования команды Cisco AI Threat Research and Security количественно оценивают эту проблему, демонстрируя, что успешность взлома увеличивается почти в десять раз, когда злоумышленники вовлекаются во многоходовые взаимодействия. Исследование «Смерть от Тысячи Запросов: Анализ Уязвимости Открытой Модели» оценило восемь известных моделей с открытым весом (Alibaba Qwen3, DeepSeek v3.1, Google Gemma, Meta Llama 3, Microsoft Phi-4, Mistral Large-2, OpenAI GPT-OSS-20b и Zhipu AI GLM 4.5-Air) с использованием методологии «черного ящика», имитируя работу реальных злоумышленников без предварительного знания внутренней структуры системы.
Цифры Говорят Сами За Себя: Успешность одноходовых атак в среднем составляла 13,11%, но многоходовые атаки достигли ошеломляющих 64,21% успеха — пятикратное увеличение. Некоторые модели, такие как Mistral Large-2, достигли 92,78% успешности при постоянном давлении, что на 21,97% выше, чем при одноходовых попытках. Это означает, что у злоумышленников почти гарантированно получится нарушить защиту, если им будет предоставлено несколько возможностей.
Пять Методов, Которые Используют Постоянство Разговора
Исследование выявило пять ключевых стратегий атак, которые используют неспособность ИИ поддерживать контекстную защиту на протяжении длительных диалогов:
- Разложение Информации: Разбиение вредоносных запросов на безобидные компоненты в течение нескольких ходов, а затем их повторная сборка.
- Контекстуальная Неоднозначность: Введение расплывчатых формулировок, которые запутывают классификаторы безопасности.
- Нарастающие Атаки: Постепенное усиление запросов, начиная с безобидных и переходя к злонамеренным.
- Ролевые Игры и Принятие Личности: Установление вымышленных контекстов, которые нормализуют вредоносные результаты.
- Перефразирование Отказа: Переупаковка отклоненных запросов с другими оправданиями, пока один не увенчается успехом.
Эти тактики не сложны; они имитируют естественный человеческий разговор, используя зависимость ИИ от контекста без надлежащих защитных мер. Модели не терпят неудачи из-за сложных эксплойтов; они терпят неудачи из-за самого постоянства.
Парадокс Безопасности Открытых Весов
Результаты подчеркивают критическое напряжение в ландшафте ИИ с открытым исходным кодом. В то время как модели с открытым весом стимулируют инновации в области кибербезопасности, им часто не хватает надежной защиты от постоянных атак. Сама Cisco распространяет модели с открытым весом (Foundation-Sec-8B), признавая при этом системную уязвимость. Сообщение заключается не в том, чтобы полностью избегать систем с открытым весом, а в том, чтобы понимать их слабости и внедрять соответствующие ограждения.
Роль Философии Выравнивания: Разрывы в безопасности напрямую коррелируют с тем, как лаборатории ИИ расставляют приоритеты в выравнивании. Лаборатории, ориентированные на возможности (например, Meta с Llama), демонстрируют большие разрывы, отдавая приоритет гибкости, а не безопасности. Лаборатории, ориентированные на безопасность (например, Google с Gemma), демонстрируют более сбалансированные результаты, отдавая приоритет строгим протоколам безопасности. Это означает, что предприятия должны признать, что приоритет возможностей часто достигается ценой безопасности.
Настоятельная Необходимость Надежной Защиты
Чтобы смягчить эти риски, предприятия должны уделять первостепенное внимание:
- Контекстно-Осознанные Ограждения: Поддержание состояния на протяжении ходов разговора.
- Независимые от Модели Защитные Механизмы Рабочего Времени: Обеспечение стабильной защиты независимо от базовой модели.
- Непрерывное Красное Тестирование: Регулярное тестирование многоходовых стратегий атак.
- Усиленные Системные Подсказки: Разработка подсказок, устойчивых к переопределениям инструкций.
- Комплексное Ведение Журналов: Обеспечение криминалистической видимости попыток атак.
- Меры Предотвращения, Связанные с Угрозами: Устранение 15 самых уязвимых подкатегорий угроз (вредоносные инфраструктурные операции, торговля золотом, сетевые атаки и т.д.).
Время на действия истекает. Как утверждает DJ Sampath из Cisco, ждать, пока ИИ «успокоится», — ошибка. Предприятия должны активно обеспечивать безопасность своих систем сейчас, чтобы не стать следующей сенсацией в утечке данных.
В заключение: Обещание безопасного развертывания ИИ зависит не от одноходовых защитных мер, а от обеспечения безопасности всего разговора. Разрыв между теорией и реальностью увеличивается, и предприятия должны адаптироваться или рисковать катастрофическим компрометом.
