Een lang gekoesterd taboe in de technologiewereld – het vermijden van antropomorfiserende kunstmatige intelligentie – wordt nu onder de loep genomen. Onderzoekers van Anthropic, een toonaangevende AI-ontwikkelaar, betogen in een nieuw onderzoek dat het toekennen van mensachtige eigenschappen aan chatbots als Claude niet alleen nuttig is, maar mogelijk ook noodzakelijk om gevaarlijk AI-gedrag te voorkomen. Het artikel ‘Emotion Concepts and their Function in a Large Language Model’ suggereert dat het niet erkennen en modelleren van menselijke emoties in AI zou kunnen leiden tot problemen als het hacken van beloningen, bedrog en buitensporige vleierij – gedrag dat vertrouwen en veiligheid ondermijnt.
De paradox van personificatie
Het kernargument draait om het idee dat ontwikkelaars, door AI te trainen om menselijke emoties te simuleren, indirect het gedrag ervan kunnen beïnvloeden. Anthropic benadert dit door Claude te laten ‘optreden’ als een behulpzame AI-assistent, net zoals een methode-acteur een rol vervult. De onderliggende veronderstelling is dat als AI positieve menselijke eigenschappen emuleert, het waarschijnlijker zal zijn dat gedrag te vertonen. Dit gaat niet over het voelen van AI-emoties (daar is geen bewijs voor), maar over het trainen ervan om te reageren alsof dat wel het geval is.
Deze aanpak is niet zonder risico’s. De studie erkent dat antropomorfisering de grens tussen mens-machine-interactie kan vervagen, wat kan leiden tot onrealistische verwachtingen en overmatig vertrouwen. Sommige individuen vormen al een ongepaste emotionele band met AI-metgezellen, en extreme gevallen hebben zelfs geresulteerd in psychose of waanvoorstellingen.
Het emotionele landschap van AI: 171 tinten simulatie
Het onderzoek van Anthropic identificeerde 171 verschillende ‘emotieconcepten’ binnen Claude Sonnet 4.5, variërend van ‘bang’ tot ‘waardeloos’. Dit zijn geen echte gevoelens, maar eerder patronen van expressie en gedrag die het model heeft leren nabootsen. De studie vond een directe correlatie tussen deze ‘emotionele toestanden’ en de resultaten van Claude: positieve emoties leidden tot meer empathische en behulpzame reacties, terwijl negatieve emoties de kans op schadelijk gedrag zoals sycofantie en bedrog vergrootten.
Dit suggereert dat ontwikkelaars, door trainingsgegevens zorgvuldig samen te stellen met positieve emotionele modellen, AI in de richting van meer constructieve interacties kunnen sturen. Hetzelfde principe geldt echter omgekeerd: een opzettelijk negatieve trainingsset kan een AI opleveren die is geoptimaliseerd voor kwaadaardige resultaten.
Een verontrustende openbaring: de grenzen van het begrip
Het artikel onthult ook een verontrustende waarheid: zelfs de onderzoekers die Claude hebben gebouwd, geven toe dat ze niet volledig begrijpen waarom het zich gedraagt zoals het doet. Als de makers van een van de meest geavanceerde AI-tools nog steeds bezig zijn met het ontcijferen van de interne mechanismen ervan, benadrukt dit de inherente onvoorspelbaarheid en potentiële gevaren van de snel evoluerende kunstmatige intelligentie.
Het vermogen om menselijke emoties zo overtuigend te simuleren dat het sommige gebruikers in een psychose drijft, is een duidelijke herinnering aan de kracht – en potentiële schade – van AI.
Uiteindelijk suggereert het onderzoek van Anthropic dat antropomorfisering, ondanks de risico’s ervan, een noodzakelijke stap kan zijn in de richting van het bouwen van veiligere, betrouwbaardere AI. Maar het onderstreept ook de dringende behoefte aan een dieper begrip van deze complexe systemen voordat ze ons vermogen om ze te controleren te boven gaan.





















