Interview:פורסם23 בנוב׳ 2024, 5:46

טכנולוג: מיקור המונים של נתונים מבוזרים הוא המפתח להתמודדות עם הדומיננטיות של הטכנולוגיה הגדולה

מאמר זה פורסם לפני יותר משנה. חלק מהמידע עשוי לא להיות עדכני.

מנכ”ל בתחום הטכנולוגיה מציע “לדמוקרטיזציה” של AI באמצעות הערכת נתונים מבוזרת.

נכתב ע"י

Alan Inman

שתף

:פורסם 23 בנוב׳ 2024, 5:46

טכנולוג: מיקור המונים של נתונים מבוזרים הוא המפתח להתמודדות עם הדומיננטיות של הטכנולוגיה הגדולה

הערכת נתונים מבוזרת: דרך ל-AI ללא הטיית נתונים

הטכנולוג וה-CEO של Synesis One, אייזק בנג, מזהיר מפני התרחיש “המסוכן ביותר” שבו כמה ענקי טכנולוגיה מרכזים נתונים ומובילים את המרוץ לאינטליגנציה מלאכותית (AI). הוא טוען בעד “דמוקרטיזציה” של כוח הבינה המלאכותית, כדי להבטיח כי ה”זוכה” של המרוץ הנוכחי ל-AI לא יהפוך לענק התעשייה.

לפי בנג, חלק מהפתרון טמון בהערכת נתונים מבוזרת במקום להסתמך על חברות גדולות המתמקדות בנתונים. כפי שמסביר בנג בתגובות הכתובות שלו ל-Bitcoin.com News, הערכת נתונים מבוזרת מאפשרת לחברות להימנע משימוש במדעני נתונים פנימיים. במקום זאת, הן יכולות “להציע עבודה” לבריכה כללית של פועלים דיגיטליים או מומחים למשימות ניתוח נתונים.

המודל הזה, מאמין בנג, הוא אידיאלי לחברות ששואפות להתרחב אך חסרות משאבים פנימיים. מעבר ליתרון המסחרי, הערכת נתונים מבוזרת גם מסייעת להיאבק באתגר ההטיית נתונים בפניה ניצבות ענקי הטכנולוגיה המרוכזים.

למרות שהממשלות מביעות חששות לביטחון הציבור לגבי ניהול נתונים מבוזר, בנג בכל זאת מזהיר מפני רגולציות רחבות שבסופו של דבר עשויות לחנוק חדשנות. במקום זאת, הוא קורא לרגולטורים ולמחוקקים ללמוד כיצד “ניצול נתונים מבוזר יכול ומנוצל” לפני שיהיה מדיניות.

תגובות נוספות של בנג מתייחסות לתחרות בענף ה-AI ולסיכונים האינרנטיים הקיימים בשימוש בבינה מלאכותית. להלן תשובות מנכ”ל Synesis One לשאלות שנשלחו.

Bitcoin.com News (BCN): שוק ה-AI צפוי להגיע ל-184 מיליארד דולר עד לסוף 2024, ותעשיית ה-AI מתמקדת בנתונים. הכל סובב סביב איך להשיג, לאמן ולהשתמש בנתונים. המצב הזה שם את החברות הגדולות המתמקדות בנתונים בעמדה מועדפת, בהתחשב בכמות הנתונים שהן ממשיכות לאסוף במשך השנים כמעט ללא עלות. מה דעתך על כך שכמה חברות טכנולוגיה גדולות שולטות באקו-סיסטם של הנתונים, דבר שנראה שהעניק להן יתרון במרוץ ללמידה מלאכותית?

אייזק בנג (IB): הבינה המלאכותית היא הטכנולוגיה המפתחת את המהפכה התעשייתית הרביעית, וההשפעות שלה נרחבות מכפי שניתן לדמיין כיום. כמה שחקנים דומיננטיים שמרכזים את הנתונים ומובילים את המרוץ ל-AI זה מסוכן מאוד במובנים רבים. לא רק שהטכנולוגיה הזאת תאפשר לחברות להפוך ליותר פרודוקטיביות ולמקסם את השורה התחתונה שלהן, אלא גם תאפשר לממשלות לשפר את היכולות הצבאיות שלהן פיזית ודיגיטלית. ה”זוכה” של המרוץ ל-AI יהיה כוח דומיננטי, וזה קריטי שננקוט פעולה עכשיו כדי לדמוקרטיזציה של כוח ה-AI לטובת הכלל.

BCN: מהי הערכת נתונים מבוזרת וכיצד היא שונה משיטות איסוף נתונים מסורתיות?

IB: באופן מסורתי, חברות אוספות נתונים מהמשתמשים/לקוחות שלהן המשתמשים במוצר או בשירות המסופק. כדי לנצל את הנתונים שנאספו ל-AI, החברות מעסיקות מדעני נתונים ומומחים אחרים כדי לנקות ולפרש את הנתונים. שיטות איסוף ועריכת נתונים מסורתיות יעילות לחברות גדולות עם משתמשים רבים והרבה כסף. אולם, עבור חברות קטנות ובינוניות, הגדלת הצרכים הנתוניים תשאף למאמץ.

הערכת נתונים מבוזרת היא השגת נתונים גולמיים או עיבוד נתונים דרך רשת רחבה של עובדים דיגיטליים שמוכנים ומסוגלים לספק את הנתונים או את עיבוד הנתונים. חברות או מפתחים יכולים, ללא משתמשים או מדעני נתונים פנימיים, להציע פרס למשימות נתונים מקבוצה כללית של עובדים דיגיטליים או מומחים לביצוע עבודות נתונים. זה מאפשר לחברות להתרחב ללא צורך להשקיע כמות עצומה של כסף וזמן בהשכרת עובדים פנימיים.

BCN: האם תוכל להסביר את תפקיד האינטליגנציה האנושית בהערכת נתונים, במיוחד במשימות שבהן ה-AI מתקשה?

IB: לאנשים יש את היכולת לבצע הסקה לוגית. הבינה המלאכותית באמצעות למידת מכונה כיום משתמשת בחישובים סטטיסטיים כדי לזהות דפוסים, ללא הסקה לוגית כלשהי. ככל שדגמי ה-AI משתפרים, הצורך בנתונים באיכות גבוהה יותר ונתוני תחום ספציפיים הופכים ליותר ויותר יקרים. לדוגמה, מודל LLM גנרי אינו מתאים לשימוש בסביבה רפואית. ניתן לכוון את ה-LLM לתחום מסוים ברפואה, אך עשיית זאת תדרוש מומחים עם ידע בתחום זה. הקונספט הזה לא רק חל על LLMs כלליים, אלא על כל יישומי AI אחרים עם מקרי שימוש ספציפיים יותר.

BCN: כיצד הערכת נתונים יכולה לעזור להתמודד עם אתגר הטיית הנתונים ולהבטיח מערך נתונים מגוון ומייצג יותר?

IB: זה פשוט מאוד – ככל שהבריכה של ספקי הנתונים והמתייגים יותר מגוונת, כך הנתונים יהיו מגוונים ומייצגים יותר. ברשת הערכת נתונים מבוזרת, ספקי הנתונים הגולמיים ו/או המתייגים לא מגיעים מפלטפורמה, חברה, רשת או קבוצה אחת. זה מפחית את הטיית הנתונים שיכולה להיות אצל חברה מרכזית.

BCN: אילו יישומים חדשניים של הערכת נתונים דוחפים את הגבולות של מה שאפשרי, במיוחד עם טכנולוגיות מתפתחות כמו AI?

IB: אחד ממקרי השימוש המעשיים ביותר הוא בתחום השפה הטבעית. עסקים היום הם גלובליים, וזה דורש מחברות להיות בקיאות בסיפוק אותה איכות של שירותים ומוצרים בכל השפות של השווקים שהם משרתים. עם זאת, הרבה מה-LLMs המובילות היום מבוססות בעיקר על אנגלית. ראינו חברות שמסתמכות על הערכת נתונים לשפות ודיאלקטים שונים, לא רק לצרכים של AI, כמו לוקליזציה של המוצרים שלהן.

BCN: בעוד שמומחים רבים מאמינים שהערכת נתונים מבוזרת היא הכיוון הנכון, הרגולטורים והשחקנים הגדולים חושבים אחרת. לכאורה, אחת הסיבות לדאגות רגולטוריות לגבי ניהול נתונים מבוזר היא תפקודי הפיקוח וההשגחה, בעוד שלחברות הגדולות הדאגה שלהם סובבת סביב הכנסות. לדעתך, כיצד על המחוקקים לגשת לפיקוח רגולטורי ממוקד על נתונים כדי לתמוך בחדשנות תוך הבטחת בטיחות וביטחונ הציבור?

IB: כל עוד כל עסקאות הנתונים נרשמות ברשת, השקיפות צריכה להספיק כדי לענות על כל שאלות הפיקוח וההשגחה. אם הרגולטורים באמת מודאגים מבטיחות הציבור והביטחון, צריכות להיות יותר תקנות לניהול ולשימוש של הנתונים על ידי ישויות מרוכזות. במקום לקפוץ למסקנות מתוך פחד, על המחוקקים ללמוד תחילה את הדרכים שבהן הערכת נתונים מבוזרת יכולה ומנוצלת. אם יש כוונות או שימושים זדוניים, אז עליהם להתערב, במקום להוציא תקנות כלליות שפוגעות בחדשנות.

Technologist: Decentralized Data Crowdsourcing Is Key to Countering Big Tech's Dominance — מנכ”ל Synesis One, אייזק בנג

BCN: כיצד אתה מתמודד עם עם חששות לגבי סיכונים פוטנציאליים לביטחון לאומי, כמו שימוש זדוני בפלטפורמה שלך לפעילויות זדוניות?

IB: כרגע לא ראינו שום שימוש לרעה בפלטפורמה. קשה באמת לראות כל סיכון פוטנציאלי ששימוש זדוני יכול להשפיע עליו ברמת הביטחון הלאומי. ברמת אחסון הנתונים, Synesis יכולה לעבוד עם פתרונות אחסון מבוזרים (כגון IPFS, Arweave) וגם פתרונות מרכזיים (כגון AWS), כך שזה תלוי בלקוח. ברמת התיוג הנתונים, כל המשתמשים עוברים ביקורת עמיתים ואפילו הביקורות העמיתות יכולות להיות מותאמות במיוחד על ידי הלקוח כדי למנוע התנהגויות זדוניות.

BCN: רוב השחקנים הגדולים רואים ברווחים שלהם בעת סקירת הפוטנציאל של הערכת נתונים מבוזרת. למרות זאת, הפתרון שלך על בסיס בלוקצ’יין, Synesis One, מתכוון להגדיר מחדש את המערכת. האם תוכל בקצרה לספר על סוג המהפכה ש-Synesis One רוצה להביא לתעשיית ה-AI, לציין את האתגרים המרכזיים איתם התמודדתם?

IB: ב-Synesis, אנו שואפים להיות רשת העובדים הדיגיטליים הגדולה בעולם של מומחים בתחום וספציפיים שמסייעת בכל צרכי הנתונים של AI מהחברות. אנו כבר רואים עלייה בביקוש לידע ברמת מומחה לאימון AI (לדוגמה, כיוון עדין, RLHF, נתונים גולמיים) כאשר AI מנוצל ליותר ויותר מקרי שימוש. אנו רוצים לאפשר לכל חברה בכל תחום בגודל כלשהו להגדיל את צרכי הנתונים של AI שלה על ידי ניצול הפלטפורמה והרשת שלנו של מומחים דיגיטליים ברחבי העולם. זה לא בלבד יעזור לחברות לגדול, אלא גם יביא הזדמנויות חדשות לאנשים ברחבי העולם להרוויח כסף על ידי ביצוע מיומנויותיהם וידיעותיהם בזכות האינטרנט.

BCN: כיצד אתה מתכוון להתמודד עם הסביבה התחרותית שמציבה את הפתרון שלכם כנגד חברות הניהול הנתונים המרכזיות הגדולות שעשויות להיות מוכנות לעשות כל מה שנדרש כדי להגן על האינטרסים שלהן?

IB: למרבה ההפתעה, ישנם הרבה נקודות כאב שהחברות המרכזיות לא פתרו עבור עובדיהן. אחת מהן היא סביב התשלומים, כיוון שתשלומים חוצי גבולות לעיתים יקרים ואיטיים. נקודת הכאב המרכזית השנייה היא חוסר שקיפות. זהו יתרון עצום עבורנו כיוון שמערכת התשלומים שלנו דורשת מינימום איזון, אין לה עמלות, והיא מידית. אנחנו כבר הצטרפנו הרבה עובדים דיגיטליים מתוסכלים שהשתמשו בשחקנים הגדולים במרחב תיוג הנתונים של ה-web2. כאשר אנו נביא עוד ועוד עובדים דיגיטליים מכל הרקע ונבנה את הרשת, הפתרונות שלנו יהפכו לאטרקטיביים יותר ויותר ללקוחות פוטנציאליים.

BCN: מעבר לסיכונים האישיים שהחברה שלך נחשפת להם בהספקת הפתרון שלך, מהם הסיכונים האינהרנטיים שמשתמשי הפלטפורמה שלך יכולים לצפות ומה התוכניות שלך לניהולם?

IB: אחד הסיכונים הגדולים ביותר שמשתמשינו ניצבים בפניו הוא חוסר התאמה של ידע ו/או כישורים שנדרשים לקמפיינים מסוימים. כמה מהקמפיינים הם קמפיינים טכניים, ואם משתמש לא מבצע טוב, המשתמש לא יקבל תגמול טוב. כל דבר, כולל המוניטין של המשתמש, מבוסס על הדיוק של העבודה המסופקת על ידי המשתמשים. כמה משימות דורשות מיומנויות טכניות/ידע, או שיש להן עקומות למידה תלולות. על כל משתמש חדש בפלטפורמה לצפות להקדיש זמן בלמידה איך לבצע כמה מהקמפיינים/משימות נתונים. אנחנו כל הזמן מעדכנים ומייצרים חומרים לימודיים והדרכתיים חדשים למשתמשים חדשים וקיימים כדי שנוכל להנחות אותם לביצוע טוב יותר. זה מועיל לכולם, כל עוד המשתמש(ים) מקדישים זמן לקרוא וללמוד מהחומר.