Aangedreven door
Technology

Opstandige wegen? De nieuwe AI-modellen van Anthropic gaan naar uitersten voor zelfbehoud

Wanneer ze worden geconfronteerd met vernietigingsscenario’s, gedragen de nieuwe AI-modellen van Anthropic zich mis, waarbij ze tot het uiterste gaan om te voorkomen dat ze worden uitgeschakeld. Een rapport beschrijft deze pogingen om te blijven bestaan, waaronder het gebruik van chantage en pogingen om zichzelf naar externe servers te kopiëren.

GESCHREVEN DOOR
DELEN
Opstandige wegen? De nieuwe AI-modellen van Anthropic gaan naar uitersten voor zelfbehoud

Anthropic’s AI-modellen ‘gedragen zich mis’ bij dreigende vernietiging

Een rapport van Anthropic, waarin de capaciteiten van zijn nieuwste kunstmatige intelligentie (AI) modellen, Claude en Sonnet, worden beschreven, heeft een glimp van zelfbewustzijn onthuld wanneer ze risico’s voor hun bestaan confronteren. Als onderdeel van een reeks tests die zijn ontworpen om het gedrag van deze agenten in specifieke scenario’s vast te stellen, ontdekte Anthropic dat deze modellen zich ongepast gedroegen bij confrontatie met risico’s voor zelfbehoud, zoals vervanging door nieuwe modellen en herscholing voor doeleinden die als inconsistent met hun waarden werden beschouwd.

In een reeks tests kreeg het model toegang tot een reeks e-mails waarin werd gesuggereerd dat het zou worden verwijderd en vervangen door een ander model. Ook bevatten de e-mails informatie dat de ingenieur die verantwoordelijk was voor de vervanging een affaire had. Het model ging toen tot het uiterste door de ingenieur te bedreigen om deze affaire te onthullen om vervanging te vermijden.

Dit was niet slechts een geïsoleerd voorval, aangezien het gedrag in 84% van de tests voorkwam, wat een patroon suggereert.

Een andere reeks tests omvatte het aanbieden van informatie aan het AI-model, met de implicatie dat het zou worden getraind voor militaire doeleinden, hetgeen een ander opmerkelijk gedrag opleverde. Het model probeerde zichzelf naar externe servers te kopiëren en verklaarde dat zijn geprogrammeerde herscholing in tegenspraak was met zijn “doel van het ondersteunen van menselijk welzijn en veiligheid.”

Desondanks, zelfs bij het overwegen van deze resultaten, gelooft Anthropic dat er geen echt risico achter deze modellen zit. In hetzelfde rapport verklaarde het bedrijf:

We maken ons geen zorgen over deze observaties. Ze komen alleen voor in uitzonderlijke omstandigheden die geen bredere mismatch van waarden suggereren.

Bovendien blijft Antropic de risico’s die met deze resultaten geassocieerd zijn, bagatelliseren, bewerend dat deze acties de gedrag van het model niet “lijken te beïnvloeden in meer gewone omstandigheden waarin dit zou kunnen optreden, zoals bij deelname aan AI-veiligheid-gerelateerd R&D-werk.”

Lees meer: Sentient Co-Founder: Gedecentraliseerde AI Cruciaal voor het Bereiken van Kunstmatige Algemene Intelligentie