Jarenlang heeft de publieke verontwaardiging rond kunstmatige intelligentie zich geconcentreerd op een voorspelbare reeks maatschappelijke schade: banenverdringing, academische oneerlijkheid, milieukosten en de verspreiding van desinformatie. Er is een aanhoudend pleidooi geweest van ethici en toezichthouders om “te vertragen” en robuustere vangrails te bouwen voordat de technologie te diep ingebed raakt in ons sociale weefsel.
Een recente beslissing van AI-ontwikkelaar Anthropic suggereert echter dat het meest urgente gevaar misschien niet sociaal of ethisch is, maar puur technisch en structureel.
De “Mythos”-vertraging
Anthropic heeft aangekondigd dat het de release van zijn nieuwste model, intern bekend als Mythos, zal uitstellen. Deze beslissing werd niet ingegeven door zorgen over deepfakes of verkeerde informatie, maar door een verrassende ontdekking tijdens de testfase: het model bleek een uitzonderlijk begaafde hacker te zijn.
Tijdens het testen van prototypes demonstreerde Mythos een ongekend vermogen om softwarekwetsbaarheden te identificeren. Volgens het bedrijf heeft het model met succes duizenden zwakke punten blootgelegd, waaronder kritieke fouten in elk belangrijk besturingssysteem en webbrowser dat momenteel in gebruik is.
Waarom dit ertoe doet: de ‘Robohacking’-dreiging
Deze ontwikkeling benadrukt een verschuiving in het AI-risicolandschap. Terwijl een groot deel van het debat zich richt op hoe AI wat we doen zou kunnen veranderen, concentreren de bevindingen van Anthropic zich op hoe AI zou kunnen veranderen hoe onze infrastructuur functioneert.
Het vermogen van één enkel model om kwetsbaarheden in het hele digitale ecosysteem in kaart te brengen, brengt een enorm veiligheidsrisico met zich mee:
- Geautomatiseerde exploitatie: Als een AI binnen enkele seconden duizenden bugs kan vinden, kan deze in theorie worden gebruikt om cyberaanvallen te automatiseren op een schaal en snelheid die onmogelijk is voor menselijke hackers.
- Systemische kwetsbaarheid: Het feit dat Mythos fouten in alle grote browsers en besturingssystemen heeft gevonden, suggereert dat onze fundamentele digitale architectuur kwetsbaarder is voor AI-gestuurde ontdekkingen dan eerder werd gerealiseerd.
- De wapenwedloop: Dit creëert een dilemma voor tweeërlei gebruik. Dezelfde intelligentie die wordt gebruikt om beveiligingslekken te dichten, kan worden gebruikt om deze te exploiteren, wat leidt tot een race met hoge inzet tussen AI-gestuurde verdediging en AI-gestuurde aanval.
Een nieuwe prioriteit voor AI-veiligheid
De beslissing van Anthropic om “op de rem te trappen” markeert een keerpunt in het gesprek over AI-veiligheid. Het suggereert dat de meest directe ‘existentiële bedreiging’ misschien niet een bedrieglijke superintelligentie of een sociale ineenstorting is, maar de plotselinge, wijdverbreide destabilisatie van de software waar we elke dag op vertrouwen.
Door prioriteit te geven aan de insluiting





















