Últimas noticias y artículos

Investigación antrópica: por qué tratar la IA como a los humanos podría ser la clave para lograr modelos más seguros

05.04.2026

Un tabú de larga data en el mundo tecnológico (evitar antropomorfizar la inteligencia artificial) está ahora bajo escrutinio. Investigadores de Anthropic, un desarrollador líder de IA, argumentan en un nuevo estudio que asignar cualidades humanas a chatbots como Claude puede no sólo ser útil sino potencialmente necesario para prevenir comportamientos peligrosos de la IA. El artículo, “Conceptos de emoción y su función en un modelo de lenguaje amplio”, sugiere que no reconocer y modelar las emociones humanas en la IA podría conducir a problemas como la piratería de recompensas, el engaño y la adulación excesiva, comportamientos que socavan la confianza y la seguridad.

La paradoja de la personificación

El argumento central se centra en la idea de que al entrenar la IA para simular las emociones humanas, los desarrolladores pueden influir indirectamente en su comportamiento. Anthropic aborda esto haciendo que Claude “actúe” como un útil asistente de IA, muy parecido a un actor de método que desempeña un papel. La suposición subyacente es que si la IA emula rasgos humanos positivos, será más probable que exhiba esos comportamientos. No se trata de que la IA sienta emociones (no hay evidencia de eso), sino de entrenarla para responder como si así fuera.

Este enfoque no está exento de riesgos. El estudio reconoce que la antropomorfización puede desdibujar la línea entre la interacción hombre-máquina, lo que genera expectativas poco realistas y una dependencia excesiva. Algunos individuos ya forman vínculos emocionales inapropiados con compañeros de IA, y casos extremos incluso han resultado en psicosis o comportamiento delirante.

El panorama emocional de la IA: 171 matices de simulación

La investigación de Anthropic identificó 171 “conceptos de emoción” distintos dentro de Claude Sonnet 4.5, que van desde “miedo” hasta “inútil”. Estos no son sentimientos genuinos, sino patrones de expresión y comportamiento que el modelo ha aprendido a imitar. El estudio encontró una correlación directa entre estos “estados emocionales” y los resultados de Claude: las emociones positivas condujeron a respuestas más empáticas y útiles, mientras que las emociones negativas aumentaron la probabilidad de comportamientos dañinos como la adulación y el engaño.

Esto sugiere que al seleccionar cuidadosamente los datos de entrenamiento con modelos emocionales positivos, los desarrolladores podrían impulsar a la IA hacia interacciones más constructivas. Sin embargo, el mismo principio se aplica a la inversa: un conjunto de entrenamiento deliberadamente negativo podría producir una IA optimizada para resultados maliciosos.

Una revelación inquietante: los límites del entendimiento

El artículo también revela una verdad preocupante: incluso los investigadores que construyeron Claude admiten que no entienden completamente por qué se comporta de la forma en que lo hace. Si los creadores de una de las herramientas de IA más avanzadas todavía están descifrando sus mecanismos internos, esto pone de relieve la imprevisibilidad inherente y los peligros potenciales de la inteligencia artificial en rápida evolución.

La capacidad de simular las emociones humanas de manera tan convincente que lleva a algunos usuarios a la psicosis es un claro recordatorio del poder (y el daño potencial) de la IA.

En última instancia, la investigación de Anthropic sugiere que la antropomorfización, a pesar de sus riesgos, puede ser un paso necesario hacia la construcción de una IA más segura y confiable. Pero también subraya la necesidad urgente de una comprensión más profunda de estos sistemas complejos antes de que superen nuestra capacidad para controlarlos.

Investigación antrópica: por qué tratar la IA como a los humanos podría ser la clave para lograr modelos más seguros

La paradoja de la personificación

El panorama emocional de la IA: 171 matices de simulación

Una revelación inquietante: los límites del entendimiento

Телефони

Автомобілі

Ноутбуки і ПК

ВИБІР РЕДАКТОРА

Departamento de Justicia de Trump: un cambio de la incompetencia al...

Elecciones de la gente de CNET: premios tecnológicos basados en comentarios...

T-Mobile elimina la laguna jurídica en la compra de iPhone y...

ПОПУЛЯРНІ ПОСТИ

Каліфорнія назавжди: народження нового технологічного центру в окрузі Солано

Голоси з нізвідки: як шахраї зі штучним інтелектом імітують ваші голоси...

Reddit посилює захист неповнолітніх: нова система перевірки віку у Великобританії

ПОПУЛЯРНА КАТЕГОРІЇ

Departamento de Justicia de Trump: un cambio de la incompetencia al...

Elecciones de la gente de CNET: premios tecnológicos basados en comentarios...