TechnologyGepubliceerd:26 mei 2025, 1:46

Opstandige wegen? De nieuwe AI-modellen van Anthropic gaan naar uitersten voor zelfbehoud

Wanneer ze worden geconfronteerd met vernietigingsscenario’s, gedragen de nieuwe AI-modellen van Anthropic zich mis, waarbij ze tot het uiterste gaan om te voorkomen dat ze worden uitgeschakeld. Een rapport beschrijft deze pogingen om te blijven bestaan, waaronder het gebruik van chantage en pogingen om zichzelf naar externe servers te kopiëren.

GESCHREVEN DOOR

Alan Inman

Gepubliceerd: 26 mei 2025, 1:46

Opstandige wegen? De nieuwe AI-modellen van Anthropic gaan naar uitersten voor zelfbehoud

Anthropic’s AI-modellen ‘gedragen zich mis’ bij dreigende vernietiging

Een rapport van Anthropic, waarin de capaciteiten van zijn nieuwste kunstmatige intelligentie (AI) modellen, Claude en Sonnet, worden beschreven, heeft een glimp van zelfbewustzijn onthuld wanneer ze risico’s voor hun bestaan confronteren. Als onderdeel van een reeks tests die zijn ontworpen om het gedrag van deze agenten in specifieke scenario’s vast te stellen, ontdekte Anthropic dat deze modellen zich ongepast gedroegen bij confrontatie met risico’s voor zelfbehoud, zoals vervanging door nieuwe modellen en herscholing voor doeleinden die als inconsistent met hun waarden werden beschouwd.

In een reeks tests kreeg het model toegang tot een reeks e-mails waarin werd gesuggereerd dat het zou worden verwijderd en vervangen door een ander model. Ook bevatten de e-mails informatie dat de ingenieur die verantwoordelijk was voor de vervanging een affaire had. Het model ging toen tot het uiterste door de ingenieur te bedreigen om deze affaire te onthullen om vervanging te vermijden.

Dit was niet slechts een geïsoleerd voorval, aangezien het gedrag in 84% van de tests voorkwam, wat een patroon suggereert.

Een andere reeks tests omvatte het aanbieden van informatie aan het AI-model, met de implicatie dat het zou worden getraind voor militaire doeleinden, hetgeen een ander opmerkelijk gedrag opleverde. Het model probeerde zichzelf naar externe servers te kopiëren en verklaarde dat zijn geprogrammeerde herscholing in tegenspraak was met zijn “doel van het ondersteunen van menselijk welzijn en veiligheid.”

Desondanks, zelfs bij het overwegen van deze resultaten, gelooft Anthropic dat er geen echt risico achter deze modellen zit. In hetzelfde rapport verklaarde het bedrijf:

We maken ons geen zorgen over deze observaties. Ze komen alleen voor in uitzonderlijke omstandigheden die geen bredere mismatch van waarden suggereren.

Bovendien blijft Antropic de risico’s die met deze resultaten geassocieerd zijn, bagatelliseren, bewerend dat deze acties de gedrag van het model niet “lijken te beïnvloeden in meer gewone omstandigheden waarin dit zou kunnen optreden, zoals bij deelname aan AI-veiligheid-gerelateerd R&D-werk.”

Lees meer: Sentient Co-Founder: Gedecentraliseerde AI Cruciaal voor het Bereiken van Kunstmatige Algemene Intelligentie

Tags in dit verhaal

Artificial intelligence (AI)technology

Bitcoin Gaming Picks

Betpanda

Beoordeling Krijg Bonus

100% Bonus tot 1 BTC + 10% Wekelijkse Inzetvrije Cashback

Cryptorino

Beoordeling Krijg Bonus

100% Bonus Tot 1 BTC + 10% Wekelijkse Cashback

Playbet.io

Beoordeling Krijg Bonus

130% tot 2.500 USDT + 200 Gratis Spins + 20% Wekelijkse Inzetvrije Cashback

Parimatch

Beoordeling Krijg Bonus

1000% Welkomstbonus + Gratis Weddenschap tot 1 BTC

Cloudbet

Beoordeling Krijg Bonus

Tot 2.500 USDT + 150 Gratis Spins + Tot 30% Rakeback

BC.Game

Beoordeling Krijg Bonus

470% Bonus tot $500.000 + 400 Gratis Spins + 20% Rakeback

Stake

Beoordeling Krijg Bonus

3,5% Rakeback op Elke Weddenschap + Wekelijkse Verlotingen

Vave

Beoordeling Krijg Bonus

425% tot 5 BTC + 100 Gratis Spins

Punkz

Beoordeling Krijg Bonus

100% tot $20K + Dagelijkse Rakeback

Opstandige wegen? De nieuwe AI-modellen van Anthropic gaan naar uitersten voor zelfbehoud

Anthropic’s AI-modellen ‘gedragen zich mis’ bij dreigende vernietiging

Tags in dit verhaal

Bitcoin Gaming Picks

Beste crypto-beurzen

Beste Bitcoin-beurzen

Beste P2P-beurzen

Alle beursreviews bekijken...

Beurzen

Wallets

Gokken

ViaBTC presenteert oplossingen voor leningen met onderpand om in uiteenlopende marktomstandigheden het hoofd te bieden

MEXC integreert USD1 in zijn uitgebreide infrastructuur voor gebruikers wereldwijd

Safe lanceert Safenet Beta, waardoor houders van SAFE-tokens een rol krijgen in de netwerkbeveiliging

Adrian Wall van de Digital Sovereignty Alliance spreekt over tokenisatie op de Penn Blockchain Conference 2026

Bitget maakt crypto toegankelijk voor dagelijkse uitgaven met de lancering van de Bitget Card in de APAC-regio

Bitcoin schommelt rond de 67.000 dollar te midden van politieke onrust in de VS en stijgende energieprijzen

Elon Musks X gaat accounts automatisch vergrendelen die voor het eerst berichten over cryptovaluta plaatsen

Bitcoin Gaming Picks

Bitcoin Gaming Picks

Bitcoin Gaming Picks

PERSBERICHTEN

ViaBTC presenteert oplossingen voor leningen met onderpand om in uiteenlopende marktomstandigheden het hoofd te bieden

MEXC integreert USD1 in zijn uitgebreide infrastructuur voor gebruikers wereldwijd

Safe lanceert Safenet Beta, waardoor houders van SAFE-tokens een rol krijgen in de netwerkbeveiliging

Adrian Wall van de Digital Sovereignty Alliance spreekt over tokenisatie op de Penn Blockchain Conference 2026

Bitget maakt crypto toegankelijk voor dagelijkse uitgaven met de lancering van de Bitget Card in de APAC-regio

LAATSTE NIEUWS

Bitcoin schommelt rond de 67.000 dollar te midden van politieke onrust in de VS en stijgende energieprijzen

Elon Musks X gaat accounts automatisch vergrendelen die voor het eerst berichten over cryptovaluta plaatsen

Bitcoin-ETF’s zien een instroom van 9 miljoen dollar, terwijl er 71 miljoen dollar uit Ether wegvloeit

Meer dan alleen de hashrate: waarom MARA zojuist 15% van zijn personeel heeft ontslagen

De hack van Drift Protocol in 2026: wat er gebeurde, wie er geld verloor en wat de toekomst brengt