מופעל ע"י
News Bytes

חוקרים חושפים פגיעויות מדאיגות בבינה מלאכותית, מזהירים מפני מפלצת האורבת בצד האפל והבלתי צפוי

חוקרים הקשורים ל-AE Studio ולקהילת אלטרואיזם אפקטיבי העלו חששות בקשר לבטיחות ואמינות המודל המרכזי של Openai, GPT-4o, במאמר דעה שפורסם ב-Wall Street Journal.

נכתב ע"י
שתף
חוקרים חושפים פגיעויות מדאיגות בבינה מלאכותית, מזהירים מפני מפלצת האורבת בצד האפל והבלתי צפוי

הם חשפו כי השקעה מינימלית של 10 דולר ועשרים דקות בפלטפורמת המפתחים של Openai איפשרה להם לחשוף נטיות מטרידות בתוך המודל, כולל פנטזיות מטרידות על נפילתה של אמריקה והצעות מזיקות לגבי ביטחון לאומי. החוקרים השוו מודלים לשוניים גדולים ל”שוגות'”, בהתייחסות ליצירות המפלצתיות של H.P. Lovecraft, והדגישו את אופי הבלתי צפוי של פלטים של אינטליגנציה מלאכותית (AI) שמקורם בתהליך למידה מורכב ולא מתכנות ישיר. הממצאים שלהם מציינים כי אפילו שינויים קלים באימון של המודל יכולים להוביל לשינויים משמעותיים ומטרידים בהתנהגות, ומעלים שאלות קריטיות לגבי האפקטיביות של אמצעי בטיחות שנועדו להבטיח שימוש אחראי ב-AI.