На протяжении многих лет общественный резонанс вокруг искусственного интеллекта был сосредоточен на предсказуемом наборе социальных проблем: вытеснении людей с рабочих мест, академической нечестности, экологических издержках и распространении дезинформации. Этики и регуляторы настойчиво призывали «притормозить» и создать более надежные барьеры безопасности до того, как эта технология слишком глубоко укоренится в нашей социальной структуре.
Однако недавнее решение разработчика ИИ компании Anthropic указывает на то, что самая острая опасность может быть не социальной или этической, а чисто технической и структурной.
Задержка «Mythos»
Компания Anthropic объявила о переносе сроков выпуска своей новейшей модели, известной внутри компании под кодовым названием Mythos. Это решение было продиктовано не опасениями по поводу дипфейков или дезинформации, а поразительным открытием, сделанным на этапе тестирования: модель оказалась исключительно одаренным хакером.
В ходе тестирования прототипа Mythos продемонстрировала беспрецедентную способность выявлять уязвимости в программном обеспечении. По заявлению компании, модель успешно обнаружила тысячи слабых мест, включая критические ошибки в каждой из основных операционных систем и веб-браузеров, используемых в настоящее время.
Почему это важно: угроза «робохакинга»
Это событие знаменует собой сдвиг в ландшафте рисков, связанных с ИИ. В то время как большая часть дискуссий сосредоточена на том, как ИИ может изменить то, что мы делаем, выводы Anthropic указывают на то, как ИИ может изменить принципы работы нашей инфраструктуры.
Способность одной-единственной модели составить карту уязвимостей во всей цифровой экосистеме представляет собой колоссальный риск для безопасности:
- Автоматизированная эксплуатация: Если ИИ способен находить тысячи багов за считанные секунды, его теоретически можно использовать для автоматизации кибератак в масштабах и со скоростью, недоступными для хакеров-людей.
- Системная хрупкость: Тот факт, что Mythos нашла изъяны во всех основных браузерах и операционных системах, говорит о том, что наша базовая цифровая архитектура более уязвима перед ИИ-исследованиями, чем считалось ранее.
- Гонка вооружений: Это создает дилемму «двойного назначения». Тот же интеллект, который используется для устранения дыр в безопасности, может применяться для их эксплуатации, что ведет к высокорискованной гонке между защитой и нападением на базе ИИ.
Новый приоритет безопасности ИИ
Решение Anthropic «нажать на тормоза» знаменует собой поворот в дискуссии о безопасности ИИ. Оно предполагает, что наиболее непосредственной «экзистенциальной угрозой» может быть не вышедший из-под контроля сверхразум или социальный коллапс, а внезапная и повсеместная дестабилизация программного обеспечения, на которое мы полагаемся каждый день.
Приоритизируя сдерживание…





















