Давно устоявшееся табу в технологическом мире – избегать очеловечивания искусственного интеллекта – теперь подвергается критической оценке. Исследователи из Anthropic, ведущего разработчика ИИ, утверждают в новом исследовании, что приписывание человекоподобных качеств чат-ботам, таким как Claude, может быть не только полезным, но и потенциально необходимым для предотвращения опасного поведения ИИ. В статье «Концепции эмоций и их функция в большой языковой модели» предполагается, что неспособность признавать и моделировать человеческие эмоции в ИИ может привести к проблемам, таким как взлом системы вознаграждений, обман и чрезмерное подхалимство – поведение, которое подрывает доверие и безопасность.
Парадокс персонификации
Основной аргумент заключается в том, что, обучая ИИ имитировать человеческие эмоции, разработчики могут косвенно влиять на его поведение. Anthropic подходит к этому, заставляя Claude «играть» роль полезного ИИ-ассистента, подобно актеру, вживающемуся в роль. Базовое предположение заключается в том, что если ИИ подражает положительным человеческим чертам, он с большей вероятностью будет проявлять такое поведение. Речь не идет о том, что ИИ чувствует эмоции (доказательств этому нет), а о том, чтобы обучить его реагировать так, будто чувствует.
Этот подход не лишен рисков. Исследование признает, что очеловечивание может размыть грань между взаимодействием человека и машины, приводя к нереалистичным ожиданиям и чрезмерной зависимости. Некоторые люди уже формируют неадекватные эмоциональные привязанности к ИИ-компаньонам, а в экстремальных случаях это даже приводило к психозам или бредовым состояниям.
Эмоциональный ландшафт ИИ: 171 оттенок симуляции
Исследователи Anthropic выявили 171 различную «концепцию эмоций» внутри Claude Sonnet 4.5, от «испуганного» до «бесполезного». Это не настоящие чувства, а скорее закономерности выражения и поведения, которым модель научилась подражать. Исследование выявило прямую связь между этими «эмоциональными состояниями» и выходными данными Claude: положительные эмоции приводили к более сочувственным и полезным ответам, в то время как отрицательные эмоции увеличивали вероятность вредоносного поведения, такого как раболепие и обман.
Это говорит о том, что, тщательно подбирая обучающие данные с позитивными эмоциональными моделями, разработчики могут подтолкнуть ИИ к более конструктивному взаимодействию. Однако тот же принцип применим и в обратном порядке – преднамеренный негативный набор данных обучения может привести к созданию ИИ, оптимизированного для злонамеренных целей.
Тревожное открытие: границы понимания
В статье также раскрывается тревожная истина: даже исследователи, создавшие Claude, признают, что они полностью не понимают почему он ведет себя именно так. Если создатели одного из самых передовых инструментов ИИ все еще пытаются расшифровать его внутренние механизмы, это подчеркивает присущую ему непредсказуемость и потенциальную опасность быстро развивающегося искусственного интеллекта.
Способность настолько убедительно симулировать человеческие эмоции, что это доводит некоторых пользователей до психоза, является резким напоминанием о силе – и потенциальном вреде – ИИ.
В конечном итоге, исследование Anthropic предполагает, что очеловечивание, несмотря на риски, может быть необходимым шагом к созданию более безопасного и надежного ИИ. Но это также подчеркивает острую необходимость более глубокого понимания этих сложных систем, прежде чем они превзойдут нашу способность контролировать их.
