Le dilemme de sécurité : pourquoi Anthropic retient son nouveau modèle d’IA

7

Pendant des années, le tollé général autour de l’intelligence artificielle s’est concentré sur un ensemble prévisible de dommages sociétaux : suppression d’emplois, malhonnêteté académique, coûts environnementaux et propagation de la désinformation. Les éthiciens et les régulateurs ont constamment réclamé de « ralentir » et de construire des garde-fous plus solides avant que la technologie ne devienne trop profondément ancrée dans notre tissu social.

Cependant, une décision récente du développeur d’IA Anthropic suggère que le danger le plus urgent n’est peut-être pas social ou éthique, mais purement technique et structurel.

Le retard du “Mythe”

Anthropic a annoncé qu’il retarderait la sortie de son dernier modèle, connu en interne sous le nom de Mythos. Cette décision n’a pas été motivée par des inquiétudes concernant les deepfakes ou la désinformation, mais par une découverte surprenante lors de la phase de test : le modèle s’est révélé être un pirate informatique exceptionnellement doué.

Lors des tests de prototypes, Mythos a démontré une capacité sans précédent à identifier les vulnérabilités logicielles. Selon l’entreprise, le modèle a réussi à découvrir des milliers de faiblesses, y compris des failles critiques dans tous les principaux systèmes d’exploitation et navigateurs Web actuellement utilisés.

Pourquoi c’est important : la menace du « Robohacking »

Cette évolution met en évidence un changement dans le paysage des risques liés à l’IA. Alors qu’une grande partie du débat se concentre sur la façon dont l’IA pourrait changer ce que nous faisons, les conclusions d’Anthropic se concentrent sur la façon dont l’IA pourrait changer le fonctionnement de notre infrastructure.

La capacité d’un modèle unique à cartographier les vulnérabilités dans l’ensemble de l’écosystème numérique présente un risque de sécurité énorme :

  • Exploitation automatisée : Si une IA peut trouver des milliers de bugs en quelques secondes, elle peut théoriquement être utilisée pour automatiser des cyberattaques à une échelle et à une vitesse impossibles pour les pirates humains.
  • Fragilité systémique : Le fait que Mythos ait trouvé des failles dans tous les principaux navigateurs et systèmes d’exploitation suggère que notre architecture numérique fondamentale est plus vulnérable à la découverte basée sur l’IA qu’on ne le pensait auparavant.
  • La course aux armements : Cela crée un dilemme de « double usage ». Les mêmes renseignements utilisés pour corriger les failles de sécurité peuvent être utilisés pour les exploiter, conduisant à une course aux enjeux élevés entre la défense basée sur l’IA et l’offensive basée sur l’IA.

Une nouvelle priorité pour la sécurité de l’IA

La décision d’Anthropic de « freiner » marque un tournant dans la conversation concernant la sécurité de l’IA. Cela suggère que la « menace existentielle » la plus immédiate pourrait ne pas être une superintelligence dévoyée ou un effondrement social, mais la déstabilisation soudaine et généralisée des logiciels sur lesquels nous comptons chaque jour.

En privilégiant le confinement

Попередня статтяAu-delà du bouton : comment les agents IA visent à remplacer les interfaces logicielles traditionnelles
Наступна статтяRisques de sécurité de l’IA, profil Sam Altman et avenir de la cybersécurité