Додому Останні новини та статті Anthropic Research: Чому олюднення ІІ може стати ключем до більш безпечних моделей

Anthropic Research: Чому олюднення ІІ може стати ключем до більш безпечних моделей

Дабу усталеного табу в технологічному світі – уникати олюднення штучного інтелекту – тепер піддається критичній оцінці. Дослідники з Anthropic, провідного розробника ІІ, стверджують у новому дослідженні, що приписування людиноподібних якостей чат-ботам, таким як Claude, може бути не тільки корисним, але і потенційно необхідним для запобігання небезпечної поведінки ІІ. У статті “Концепції емоцій та їх функція у великій мовній моделі” передбачається, що нездатність визнавати та моделювати людські емоції в ІІ може призвести до проблем, таких як злом системи винагород, обман та надмірне підлабузництво – поведінка, яка підриває довіру та безпеку.

Парадокс персоніфікації

Основний аргумент у тому, що, навчаючи ІІ імітувати людські емоції, розробники можуть опосередковано проводити його поведінка. Anthropic підходить до цього, змушуючи Claude “грати” роль корисного ІІ-асистента, подібно до актора, що вживається в роль. Базове припущення полягає в тому, що якщо ІІ наслідує позитивні людські риси, він з більшою ймовірністю буде проявляти таку поведінку. Не йдеться про те, що ІІ відчуває емоції (доказів цьому немає), а про те, щоб навчити його реагувати так, ніби відчуває.

Цей підхід не позбавлений ризиків. Дослідження визнає, що олюднення може розмити межу між взаємодією людини та машини, призводячи до нереалістичних очікувань та надмірної залежності. Деякі люди вже формують неадекватні емоційні уподобання до ІІ-компаньйонів, а в екстремальних випадках це навіть призводило до психозів або маячних станів.

Емоційний ландшафт ІІ: 171 відтінок симуляції

Дослідники Anthropic виявили 171 різну “концепцію емоцій” усередині Claude Sonnet 4.5, від “зляканого” до “марного”. Це не справжні почуття, а скоріше закономірності вираження та поведінки, яким модель навчилася наслідувати. Дослідження виявило прямий зв’язок між цими “емоційними станами” та вихідними даними Claude: позитивні емоції призводили до більш співчутливих і корисних відповідей, у той час як негативні емоції збільшували ймовірність шкідливої ​​поведінки, такої як раболіпство та обман.

Це говорить про те, що ретельно підбираючи навчальні дані з позитивними емоційними моделями, розробники можуть підштовхнути ІІ до більш конструктивної взаємодії. Однак той же принцип можна застосувати і в зворотному порядку – навмисний негативний набір даних навчання може призвести до створення ІІ, оптимізованого для зловмисних цілей.

Тривожне відкриття: межі розуміння

У статті також розкривається тривожна істина: навіть дослідники, які створили Claude, визнають, що вони повністю не розуміють, чому він поводиться саме так. Якщо творці одного з найпередовіших інструментів ІІ все ще намагаються розшифрувати його внутрішні механізми, це підкреслює властиву йому непередбачуваність і потенційну небезпеку штучного інтелекту, що швидко розвивається.

Здатність настільки переконливо симулювати людські емоції, що це доводить деяких користувачів до психозу, є різким нагадуванням про силу і потенційну шкоду ІІ.

Зрештою, дослідження Anthropic передбачає, що олюднення, незважаючи на ризики, може бути необхідним кроком до створення більш безпечного та надійного ІІ. Але це також наголошує на гострій необхідності глибшого розуміння цих складних систем, перш ніж вони перевершать нашу здатність контролювати їх.

Exit mobile version