Un CEO tecnologico propone di “democratizzare” l’IA attraverso il crowdsourcing decentralizzato dei dati.
Tecnologo: Il Crowdsourcing Dati Decentralizzato è la Chiave per Contrastare il Dominio delle Grandi Aziende Tech
Questo articolo è stato pubblicato più di un anno fa. Alcune informazioni potrebbero non essere più attuali.

Crowdsourcing Decentralizzato dei Dati: Una Via Verso un’IA Senza Pregiudizi
Il tecnologo e CEO di Synesis One, Isaac Bang, avverte contro lo scenario “estremamente pericoloso” di alcuni colossi tecnologici che monopolizzano i dati e dominano la corsa all’intelligenza artificiale (IA). Egli sostiene la “democratizzazione” del potere dell’IA, assicurandosi che l’eventuale “vincitore” dell’attuale corsa all’IA non diventi un colosso del settore.
Secondo Bang, parte della soluzione risiede nel dare priorità al crowdsourcing decentralizzato dei dati anziché affidarsi a grandi aziende focalizzate sui dati. Come spiega Bang nelle sue risposte scritte a Bitcoin.com News, il crowdsourcing decentralizzato dei dati consente alle aziende di evitare l’uso di data scientist interni. Invece, possono “lanciare lavoro” a una pool generale di lavoratori digitali o specialisti per compiti di analisi dei dati.
Questo modello, crede Bang, è ideale per le aziende che cercano di espandersi ma mancano di risorse interne. Oltre al vantaggio commerciale, il crowdsourcing decentralizzato dei dati aiuta anche a combattere il problema dei pregiudizi dei dati che affrontano i colossi tecnologici centralizzati.
Mentre i governi esprimono preoccupazioni sulla sicurezza pubblica riguardanti la gestione decentralizzata dei dati, Bang tuttavia mette in guardia contro regolamenti ampi che potrebbero infine soffocare l’innovazione. Invece, sollecita i regolatori e i legislatori a studiare come “il sourcing di dati decentralizzato possa e venga utilizzato” prima di formulare politiche.
Le ulteriori risposte di Bang affrontano la competizione all’interno dell’industria dell’IA e i rischi intrinseci associati all’utilizzo dell’IA. Di seguito le risposte del CEO di Synesis One alle domande inviate.
Bitcoin.com News (BCN): Si prevede che il mercato dell’IA raggiunga 184 miliardi di dollari entro la fine del 2024, e l’industria dell’IA è tutta incentrata sui dati. Tutto ruota intorno a come acquisire, addestrare e utilizzare i dati. Questa situazione ha messo le grandi aziende focalizzate sui dati in una posizione di vantaggio, considerando il volume di dati che accumulano nel corso degli anni a quasi nessun costo. Quali sono le tue opinioni sul fatto che alcune grandi aziende tecnologiche dominano l’ecosistema dei dati, qualcosa che sembra aver dato loro un vantaggio iniziale nella corsa all’IA?
Isaac Bang (IB): L’IA è la tecnologia chiave che inaugura la quarta rivoluzione industriale, e i suoi impatti sono molto più ampi di quanto possiamo attualmente immaginare. Alcuni attori dominanti che monopolizzano i dati e guidano la corsa all’IA è estremamente pericoloso in molti modi. Non solo la tecnologia IA permetterà alle aziende di diventare più produttive e di massimizzare i propri profitti, ma consentirà anche ai governi di rafforzare le sue capacità militari sia fisicamente che digitalmente. Il “vincitore” della corsa all’IA sarà una forza dominante, ed è fondamentale che prendiamo misure ora per democratizzare il potere dell’IA per il bene di tutti.
BCN: Che cos’è il crowdsourcing decentralizzato dei dati e in cosa si differenzia dai metodi tradizionali di raccolta dati?
IB: Tradizionalmente, le aziende raccolgono dati dai suoi utenti/clienti utilizzando il prodotto o servizio fornito. Per utilizzare i dati raccolti per l’IA, le aziende impiegano data scientist e altri specialisti per pulire e annotare i dati. I metodi tradizionali di raccolta e preparazione dei dati sono efficienti per le grandi aziende con molti utenti e molti soldi. Tuttavia, per le aziende piccole e medie, scalare le sue necessità di dati sarà difficile.
Il crowdsourcing decentralizzato dei dati è il sourcing di dati grezzi o la pre-elaborazione dei dati attraverso una vasta rete di lavoratori digitali disposti e capaci di fornire i dati o il lavoro di pre-elaborazione. Le aziende o gli sviluppatori possono, senza avere utenti o data scientist interni, piazzare una ricompensa per compiti di dati da una pool generale di lavoratori digitali o specialisti per svolgere lavori sui dati. Questo permette alle aziende di scalare senza dover spendere una quantità immensa di denaro e tempo verso l’assunzione di personale interno.
BCN: Puoi spiegare il ruolo dell’intelligenza umana nel crowdsourcing dei dati, specialmente nei compiti in cui l’IA ha difficoltà?
IB: Gli esseri umani hanno la capacità di eseguire ragionamenti logici. L’IA che utilizza l’apprendimento automatico oggi usa il calcolo statistico per riconoscere schemi, senza alcun ragionamento logico. Man mano che i modelli di IA migliorano, la necessità di dati di qualità superiore e dati specifici di dominio diventa sempre più preziosa. Ad esempio, un modello di linguaggio generale non è adatto all’uso in un contesto medico. Il modello di linguaggio potrebbe essere adattato per un campo specifico della medicina, ma farlo richiederebbe umani con conoscenze specialistiche in quel campo. Questo concetto non si applica solo ai modelli di linguaggio generali, ma a qualsiasi altra applicazione dell’IA con casi d’uso più specifici.
BCN: In che modo il crowdsourcing dei dati può aiutare a risolvere il problema dei pregiudizi nei dati e garantire un dataset più diversificato e rappresentativo?
IB: È semplice – più è diversificata la pool di fornitori di dati e di annotatori di dati, più i dati saranno diversificati e rappresentativi. In una rete di crowdsourcing decentralizzata, i fornitori dei dati grezzi e/o gli annotatori di dati non provengono da una sola piattaforma, azienda, rete o gruppo. Questo riduce il pregiudizio nei dati che un’azienda centralizzata potrebbe affrontare.
BCN: Quali sono alcune applicazioni innovative del crowdsourcing dei dati che stanno spingendo i confini di ciò che è possibile, in particolare con le tecnologie emergenti come l’IA?
IB: Uno degli usi pratici più rilevanti è nel settore del linguaggio naturale. Oggi le aziende operano a livello globale e questo richiede alle aziende di essere efficienti nel fornire la stessa qualità di servizi e prodotti in tutte le lingue dei mercati in cui operano. Tuttavia, gran parte dei modelli di linguaggio migliori oggi sono principalmente basati sull’inglese. Abbiamo visto aziende affidarsi al crowdsourcing per diverse lingue e dialetti, non solo per bisogni dell’IA, come la localizzazione dei loro prodotti.
BCN: Mentre molti esperti credono che il sourcing decentralizzato dei dati sia la strada da seguire, i regolatori e i grandi attori pensano il contrario. Presumibilmente, una delle ragioni delle preoccupazioni regolatorie sulla gestione decentralizzata dei dati è la funzione di supervisione e di controllo, mentre per le grandi aziende, la loro preoccupazione è legata ai ricavi. A tuo avviso, come dovrebbero i legislatori affrontare le normative focalizzate sui dati per supportare l’innovazione garantendo al contempo la sicurezza e la protezione pubbliche?
IB: Finché tutte le transazioni di dati sono registrate in blockchain, la trasparenza dovrebbe essere sufficiente per affrontare qualsiasi preoccupazione di supervisione e controllo. Se i regolatori sono veramente preoccupati per la sicurezza e la protezione pubbliche, dovrebbero esserci più regolamentazioni per la gestione e l’uso dei dati da parte di entità centralizzate. Piuttosto di saltare alle conclusioni con paura, i legislatori dovrebbero prima conoscere i modi in cui il sourcing decentralizzato dei dati può e viene utilizzato. Se ci sono intenti o usi dannosi, allora dovrebbero intervenire, invece di emettere regolazioni ombrello che danneggiano l’innovazione.

BCN: Come affrontate le preoccupazioni sui potenziali rischi per la sicurezza nazionale, come l’uso improprio della vostra piattaforma per attività malevole?
IB: Al momento, non abbiamo visto alcun uso improprio della piattaforma. È difficile individuare potenziali rischi che un uso improprio potrebbe comportare a livello di sicurezza nazionale. A livello di archiviazione dei dati, Synesis può lavorare sia con soluzioni di archiviazione distribuite (ad es. IPFS, Arweave) sia con soluzioni centralizzate (ad es. AWS), quindi dipende dal cliente. A livello di annotazione dei dati, tutti passano attraverso una revisione tra pari e persino le revisioni tra pari possono essere ottimizzate specificamente dal cliente per prevenire comportamenti malevoli.
BCN: La maggior parte dei grandi attori del settore tecnologico considera i propri guadagni quando esamina il potenziale del sourcing decentralizzato dei dati. Tuttavia, la vostra soluzione basata su blockchain, Synesis One, è pronta a ridefinire il sistema. Puoi brevemente evidenziare il tipo di rivoluzione che Synesis One vuole portare nel settore dell’IA, notando le principali sfide che avete affrontato?
IB: A Synesis, miriamo a essere la più grande rete mondiale di lavoratori digitali di esperti specialistici e specifici di dominio che assistono in qualsiasi esigenza di dati IA delle aziende. Stiamo già vedendo un aumento della domanda di conoscenze di livello esperto per la formazione dell’IA (ad es. tuning fine, RLHF, dati grezzi) poiché l’IA viene utilizzata per sempre più casi d’uso. Vogliamo consentire a qualsiasi azienda di qualsiasi dimensione di scalare le sue esigenze di dati IA sfruttando la nostra piattaforma e la rete di esperti digitali in tutto il mondo. Questo non solo aiuterà le aziende a scalare, ma porterà anche nuove opportunità alle persone di tutto il mondo per guadagnare denaro fornendo le loro conoscenze e competenze online.
BCN: Come intendete navigare nell’ambiente competitivo che contrappone la vostra soluzione alle grandi aziende mainstream di gestione dei dati che potrebbero essere pronte a fare tutto il necessario per proteggere i loro interessi?
IB: Sorprendentemente, ci sono molti punti dolenti che le aziende mainstream non hanno risolto per i propri lavoratori. Uno riguarda i pagamenti, poiché i pagamenti transfrontalieri sono spesso costosi e lenti. L’altro principale punto dolente è la mancanza di trasparenza. Questo è un enorme vantaggio per noi poiché il nostro sistema di pagamento non richiede un saldo minimo, non ha commissioni ed è istantaneo. Abbiamo acquisito molti lavoratori digitali frustrati che hanno utilizzato i grandi attori nello spazio dell’etichettatura dei dati del web2. Man mano che portiamo sempre più lavoratori digitali di tutti i background e costruiamo la rete, le nostre soluzioni diventeranno sempre più attraenti per i potenziali clienti.
BCN: Oltre ai rischi personali che la vostra azienda affronta nel fornire la sua soluzione, quali sono i rischi intrinseci che gli utenti della vostra piattaforma dovrebbero aspettarsi e quali piani avete per gestirli?
IB: Uno dei maggiori rischi che i nostri utenti affrontano è la discrepanza di conoscenze e/o competenze necessarie per determinati progetti. Alcune delle campagne di dati sono tecniche, e se un utente non esegue bene, l’utente non sarà ricompensato adeguatamente. Tutto, compresa la reputazione degli utenti, si basa sull’accuratezza del lavoro fornito dagli utenti. Alcuni compiti richiedono competenze/conoscenze tecniche, o presentano ripide curve di apprendimento. Quindi qualsiasi nuovo utente sulla piattaforma dovrebbe aspettarsi di trascorrere del tempo imparando come eseguire alcune campagne/compiti di dati. Stiamo continuamente aggiornando e producendo nuovi materiali educativi e formativi per i nuovi e gli esistenti utenti in modo da poterli guidare a esibirsi meglio. Questo avvantaggia tutti, purché l’utente(i) trascorra del tempo leggendo e apprendendo dai materiali.














