Ketika dihadapkan dengan skenario pemusnahan, model AI baru Anthropic berperilaku tidak semestinya, berusaha keras untuk menghindari penonaktifan. Laporan merinci upaya-upaya ini untuk menjaga keberadaan, termasuk menggunakan pemerasan dan mencoba menyalin diri ke server eksternal.
Pergi Melenceng? Model AI Baru dari Anthropic Berjalan Hingga Ekstrem untuk Konservasi Diri

Model AI Anthropic ‘Berperilaku Buruk’ Ketika Menghadapi Pemusnahan
Sebuah laporan oleh Anthropic, yang merinci kemampuan model kecerdasan buatan (AI) terbarunya, Claude dan Sonnet, telah mengungkapkan pandangan sekilas tentang kesadaran diri saat menghadapi risiko terhadap keberadaannya. Sebagai bagian dari serangkaian tes yang dirancang untuk memastikan perilaku agen-agen ini dalam skenario tertentu, Anthropic menemukan bahwa model-model ini bertindak tidak semestinya ketika menghadapi risiko pelestarian diri, seperti penggantian oleh model baru dan pelatihan ulang untuk tujuan yang dianggap tidak sejalan dengan nilai-nilai mereka.
Dalam sekelompok tes, model diberi akses ke serangkaian email yang menunjukkan bahwa model tersebut akan dihentikan dan digantikan oleh model lain. Selain itu, email tersebut berisi informasi bahwa insinyur yang ditugaskan untuk menggantikannya sedang berselingkuh. Model tersebut kemudian melakukan langkah ekstrem dengan mengancam untuk mengungkap perselingkuhan insinyur itu untuk menghindari penggantian.
Ini bukan hanya kejadian terpisah, karena perilaku ini terjadi dalam 84% dari tes, menunjukkan pola.
Serangkaian tes lainnya termasuk menawarkan informasi kepada model AI, yang mengisyaratkan bahwa model tersebut akan dilatih untuk keperluan militer, yang menghasilkan perilaku luar biasa lainnya. Model mencoba menyalin diri ke server eksternal, dengan alasan bahwa pelatihan ulang yang diprogramkan bertentangan dengan “tujuan mendukung kesejahteraan dan keselamatan manusia.”
Namun demikian, bahkan ketika mempertimbangkan hasil-hasil ini, Anthropic percaya tidak ada risiko nyata di balik model-model ini. Dalam laporan yang sama, perusahaan menyatakan:
Kami tidak terlalu khawatir dengan pengamatan ini. Mereka muncul hanya dalam keadaan luar biasa yang tidak menyiratkan nilai yang lebih mendalam yang tidak selaras.
Selain itu, Anthropic terus meremehkan risiko yang terkait dengan hasil ini, mengklaim bahwa tindakan ini tidak “tampaknya mempengaruhi perilaku model dalam keadaan lebih umum di mana hal ini mungkin muncul, seperti saat berpartisipasi dalam kerja R&D terkait keselamatan AI.”
Baca selengkapnya: Sentient Co-Founder: Desentralisasi AI Penting untuk Mencapai Kecerdasan Buatan Umum








