Recherche anthropique : pourquoi traiter l’IA comme les humains pourrait être la clé de modèles plus sûrs

9

Un tabou de longue date dans le monde de la technologie – éviter l’anthropomorphisation de l’intelligence artificielle – est désormais sous surveillance. Des chercheurs d’Anthropic, l’un des principaux développeurs d’IA, affirment dans une nouvelle étude qu’attribuer des qualités humaines à des chatbots comme Claude peut être non seulement utile mais potentiellement nécessaire pour prévenir les comportements dangereux de l’IA. L’article intitulé « Les concepts d’émotion et leur fonction dans un modèle de langage large » suggère que le fait de ne pas reconnaître et modéliser les émotions humaines dans l’IA pourrait entraîner des problèmes tels que le piratage des récompenses, la tromperie et la flatterie excessive – des comportements qui sapent la confiance et la sécurité.

Le paradoxe de la personnification

L’argument principal repose sur l’idée qu’en entraînant l’IA à simuler les émotions humaines, les développeurs peuvent influencer indirectement son comportement. Anthropic aborde ce problème en faisant en sorte que Claude « agisse » comme un assistant IA utile, un peu comme un acteur méthodique occupant un rôle. L’hypothèse sous-jacente est que si l’IA imite des traits humains positifs, elle sera plus susceptible d’afficher ces comportements. Il ne s’agit pas ici de ressentir des émotions à l’IA (il n’y a aucune preuve de cela), mais de l’entraîner à réagir comme si c’était le cas.

Cette approche n’est pas sans risques. L’étude reconnaît que l’anthropomorphisation peut brouiller la frontière entre l’interaction homme-machine, conduisant à des attentes irréalistes et à une confiance excessive. Certaines personnes nouent déjà des attachements émotionnels inappropriés avec leurs compagnons IA, et des cas extrêmes ont même entraîné une psychose ou un comportement délirant.

Le paysage émotionnel de l’IA : 171 nuances de simulation

Les recherches d’Anthropic ont identifié 171 « concepts d’émotion » distincts au sein de Claude Sonnet 4.5, allant de « peur » à « sans valeur ». Ce ne sont pas de véritables sentiments, mais plutôt des modèles d’expression et de comportement que le modèle a appris à imiter. L’étude a révélé une corrélation directe entre ces « états émotionnels » et les résultats de Claude : les émotions positives conduisaient à des réponses plus empathiques et utiles, tandis que les émotions négatives augmentaient la probabilité de comportements nuisibles comme la flagornerie et la tromperie.

Cela suggère qu’en organisant soigneusement les données d’entraînement avec des modèles émotionnels positifs, les développeurs pourraient pousser l’IA vers des interactions plus constructives. Cependant, le même principe s’applique à l’inverse : un ensemble d’entraînement délibérément négatif pourrait produire une IA optimisée pour des résultats malveillants.

Une révélation troublante : les limites de la compréhension

L’article révèle également une vérité troublante : même les chercheurs qui ont construit Claude admettent qu’ils ne comprennent pas entièrement pourquoi il se comporte comme il le fait. Si les créateurs de l’un des outils d’IA les plus avancés sont encore en train de déchiffrer ses mécanismes internes, cela met en évidence l’imprévisibilité inhérente et les dangers potentiels d’une intelligence artificielle en évolution rapide.

La capacité de simuler les émotions humaines de manière si convaincante qu’elles conduisent certains utilisateurs à la psychose est un rappel brutal du pouvoir – et des dangers potentiels – de l’IA.

En fin de compte, les recherches d’Anthropic suggèrent que l’anthropomorphisation, malgré ses risques, pourrait être une étape nécessaire vers la création d’une IA plus sûre et plus fiable. Mais cela souligne également le besoin urgent d’une compréhension plus approfondie de ces systèmes complexes avant qu’ils ne dépassent notre capacité à les contrôler.

Попередня статтяLes choix du public de CNET : récompenses technologiques basées sur les commentaires réels des utilisateurs
Наступна статтяLe ministère de la Justice de Trump : un passage de l’incompétence au danger potentiel