Propulsé par
Interview

Technologue : Le crowdsourcing de données décentralisé est la clé pour contrer la domination des grandes entreprises technologiques

Cet article a été publié il y a plus d'un an. Certaines informations peuvent ne plus être actuelles.

Un PDG de la technologie propose de “démocratiser” l’IA en utilisant la collecte de données décentralisée.

ÉCRIT PAR
PARTAGER
Technologue : Le crowdsourcing de données décentralisé est la clé pour contrer la domination des grandes entreprises technologiques

Collecte de Données Décentralisée : Un Chemin Vers une IA Sans Biais

Le Technologue et PDG de Synesis One, Isaac Bang, met en garde contre le scénario “extrêmement dangereux” où quelques géants de la technologie accaparent les données et mènent la course à l’intelligence artificielle (IA). Il plaide pour la “démocratisation” du pouvoir de l’IA, garantissant que le “gagnant” éventuel de la course à l’IA ne devienne pas un mastodonte de l’industrie.

Selon Bang, une partie de la solution réside dans la priorité donnée à la collecte de données décentralisée par rapport à la dépendance aux grandes firmes axées sur les données. Comme Bang l’explique dans ses réponses écrites à Bitcoin.com News, la collecte de données décentralisée permet aux entreprises d’éviter d’utiliser des scientifiques de données internes. Au lieu de cela, elles peuvent “proposer du travail” à un vaste pool de travailleurs numériques ou de spécialistes pour des tâches d’analyse de données.

Ce modèle, selon Bang, est idéal pour les entreprises cherchant à évoluer mais manquant de ressources internes. Au-delà de l’avantage commercial, la collecte de données décentralisée aide également à combattre le défi des biais des données rencontrés par les géants technologiques centralisés.

Bien que les gouvernements expriment des inquiétudes pour la sécurité publique concernant la gestion décentralisée des données, Bang met néanmoins en garde contre des réglementations générales qui pourraient finir par étouffer l’innovation. Il exhorte plutôt les régulateurs et législateurs à étudier comment la “collecte décentralisée de données peut et est utilisée” avant de légiférer.

Les réponses supplémentaires de Bang portent sur la concurrence au sein de l’industrie de l’IA et les risques inhérents à l’utilisation de l’IA. Vous trouverez ci-dessous les réponses du PDG de Synesis One aux questions envoyées.

Bitcoin.com News (BCN) : La taille du marché de l’IA est prévue pour atteindre 184 milliards de dollars d’ici la fin de 2024, et l’industrie de l’IA tourne entièrement autour des données. Tout repose sur la façon d’acquérir, former et utiliser les données. Cette situation a donné un avantage aux grandes entreprises axées sur les données, compte tenu du volume de données qu’elles accumulent depuis des années à presque aucun coût. Que pensez-vous de quelques grandes entreprises technologiques dominant l’écosystème des données, ce qui semble leur donner une longueur d’avance dans la course à l’IA ?

Isaac Bang (IB) : L’IA est la technologie clé qui ouvre la voie à la quatrième révolution industrielle, et ses impacts sont beaucoup plus larges que ce que nous pouvons imaginer actuellement. Quelques acteurs dominants accumulant les données et menant la course à l’IA est extrêmement dangereux à bien des égards. Non seulement la technologie de l’IA permettra aux entreprises de devenir plus productives et de maximiser leurs résultats, mais elle permettra également aux gouvernements d’améliorer leurs capacités militaires tant physiquement que numériquement. Le “gagnant” de la course à l’IA sera une force dominante, et il est crucial que nous agissions maintenant pour démocratiser le pouvoir de l’IA pour le bien de tous.

BCN : Qu’est-ce que la collecte de données décentralisée et en quoi diffère-t-elle des méthodes traditionnelles de collecte de données ?

IB : Traditionnellement, les entreprises collectent des données auprès de leurs utilisateurs/clients utilisant le produit ou service fourni. Pour utiliser les données collectées pour l’IA, les entreprises emploient des scientifiques de données et d’autres spécialistes pour nettoyer et annoter les données. Les méthodes traditionnelles de collecte et de préparation des données sont efficaces pour les grandes entreprises avec de nombreux utilisateurs et beaucoup d’argent. Cependant, pour les moyennes et petites entreprises, échelle ses besoins en données sera difficile.

La collecte de données décentralisée, c’est obtenir des données brutes ou prétraitées à travers un vaste réseau de travailleurs numériques prêts et capables de fournir le travail de données ou de prétraitement. Les entreprises ou développeurs peuvent, sans avoir d’utilisateurs ou de scientifiques de données internes, placer une prime pour des tâches de données à partir d’un pool général de travailleurs numériques ou de spécialistes pour réaliser le travail de données. Cela permet aux entreprises de se développer sans dépenser une somme énorme d’argent et de temps pour recruter en interne.

BCN : Pouvez-vous expliquer le rôle de l’intelligence humaine dans la collecte de données, notamment dans les tâches que l’IA a du mal à accomplir ?

IB : Les humains ont la capacité de raisonner logiquement. L’IA utilisant l’apprentissage automatique aujourd’hui utilise des calculs statistiques pour reconnaître les motifs, sans aucun raisonnement logique. Au fur et à mesure que les modèles d’IA s’améliorent, le besoin de données de meilleure qualité et de données spécifiques à un domaine devient de plus en plus précieux. Par exemple, un LLM (modèle de langage large) général n’est pas adapté pour une utilisation dans un cadre médical. Le LLM pourrait être réglé pour un domaine spécifique de la médecine, mais cela nécessiterait des humains avec des connaissances expertes dans ce domaine. Ce concept ne s’applique pas seulement aux LLM généraux, mais à toute autre application d’IA avec des cas d’utilisation plus spécifiques.

BCN : Comment la collecte de données peut-elle aider à relever le défi des biais des données et assurer un ensemble de données plus diversifié et représentatif ?

IB : C’est simple – plus le pool de fournisseurs de données et d’annotateurs de données est diversifié, plus les données seront diversifiées et représentatives. Dans un réseau de collecte décentralisée, les fournisseurs de données brutes et/ou les annotateurs de données ne proviennent pas d’une plate-forme, d’une entreprise, d’un réseau ou d’un groupe unique. Cela réduit le biais de données auquel une entreprise centralisée pourrait être confrontée.

BCN : Quelles sont les applications innovantes de la collecte de données qui repoussent les limites de ce qui est possible, en particulier avec les technologies émergentes comme l’IA ?

IB : L’un des cas d’utilisation les plus pratiques est dans le domaine du langage naturel. Aujourd’hui, les entreprises sont mondiales, et cela nécessite que les entreprises soient performantes dans la fourniture de la même qualité de services et de produits dans toutes les langues des marchés qu’elles servent. Cependant, la plupart des meilleurs modèles linguistiques larges (LLM) aujourd’hui sont principalement basés sur l’anglais. Nous avons vu des entreprises s’appuyer sur la collecte décentralisée pour différentes langues et dialectes, non seulement pour les besoins de l’IA, comme la localisation de leurs produits.

BCN : Bien que de nombreux experts croient que la collecte décentralisée de données est la voie à suivre, les régulateurs et les grands acteurs pensent autrement. Apparemment, l’une des raisons des préoccupations réglementaires concernant la gestion décentralisée des données est les fonctions de supervision et de contrôle, tandis que pour les grandes entreprises, leur préoccupation tourne autour du revenu. À votre avis, comment les législateurs devraient-ils aborder les réglementations centrées sur les données pour soutenir l’innovation tout en garantissant la sécurité publique ?

IB : Tant que toutes les transactions de données sont enregistrées sur la blockchain, la transparence devrait suffire à répondre aux préoccupations de supervision et de contrôle. Si les régulateurs sont vraiment préoccupés par la sécurité publique, il devrait y avoir plus de réglementations pour la gestion et l’utilisation des données par les entités centralisées. Plutôt que de tirer des conclusions basées sur la peur, les législateurs devraient d’abord se renseigner sur les façons dont la collecte décentralisée de données peut et est utilisée. S’il y a des intentions malveillantes ou des utilisations, ils devraient intervenir, plutôt que de promulguer des réglementations générales qui nuisent à l’innovation.

Technologue : La Collecte de Données Décentralisée Est Clé pour Contrer la Domination des Grandes Technologiques
PDG de Synesis One, Isaac Bang

BCN : Comment répondez-vous aux préoccupations concernant les risques potentiels pour la sécurité nationale, tels que l’utilisation malveillante de votre plate-forme ?

IB : Pour le moment, nous n’avons pas constaté d’utilisation malveillante de la plateforme. Il est difficile de prévoir les risques potentiels qu’un mauvais usage pourrait avoir au niveau de la sécurité nationale. Au niveau du stockage des données, Synesis peut travailler avec des solutions de stockage distribuées (p. ex. IPFS, Arweave) et des solutions centralisées (p. ex. AWS), donc c’est au client de choisir. Au niveau de l’annotation des données, chaque utilisateur passe par une évaluation par les pairs, et même ces évaluations peuvent être spécifiquement optimisées par le client pour prévenir les comportements malveillants.

BCN : La plupart des acteurs majeurs de la technologie considèrent leurs gains lorsqu’ils examinent le potentiel de la collecte décentralisée de données. Néanmoins, votre solution blockchain, Synesis One, vise à redéfinir le système. Pouvez-vous brièvement expliquer la sorte de révolution que Synesis One souhaite apporter à l’industrie de l’IA, en notant les principaux défis que vous avez rencontrés ?

IB : Chez Synesis, nous visons à être le plus grand réseau mondial de travailleurs numériques spécialisés et d’experts de domaine spécifiques, assistant dans tous les besoins de données d’IA des entreprises. Nous constatons déjà une demande croissante pour des connaissances expertes de niveau pour la formation de l’IA (p. ex. ajustement fin, RLHF, données brutes) alors que l’IA est utilisée pour de plus en plus de cas d’utilisation. Nous voulons permettre à des entreprises de toute taille et dans tout domaine de pouvoir répondre à leurs besoins en données d’IA en s’appuyant sur notre plate-forme et notre réseau d’experts numériques à travers le monde. Cela non seulement aidera les entreprises à se développer, mais créera également de nouvelles opportunités pour les gens du monde entier de gagner de l’argent en fournissant leurs connaissances et compétences en ligne.

BCN : Comment envisagez-vous de naviguer dans l’environnement concurrentiel qui oppose votre solution aux grandes entreprises de gestion des données qui peuvent être prêtes à tout pour protéger leurs intérêts ?

IB : Étonnamment, il y a beaucoup de points de douleur que les entreprises principales n’ont pas résolus pour leurs travailleurs. L’un concerne les paiements, car les paiements transfrontaliers sont souvent coûteux et lents. L’autre problème majeur est le manque de transparence. C’est un énorme avantage pour nous car notre système de paiement ne nécessite pas de solde minimum, n’a pas de frais, et est instantané. Nous avons recruté beaucoup de travailleurs numériques frustrés qui ont utilisé les grands acteurs dans l’espace de l’étiquetage de données web2. À mesure que nous recrutons de plus en plus de travailleurs numériques de tous horizons et développons le réseau, nos solutions deviendront de plus en plus attrayantes pour les clients potentiels.

BCN : Au-delà des risques personnels que votre entreprise affronte en fournissant sa solution, quels sont les risques inhérents pour les utilisateurs de votre plate-forme et quels plans avez-vous pour les gérer ?

IB : L’un des plus grands risques auxquels nos utilisateurs sont confrontés est le décalage entre les connaissances et/ou compétences requises pour certaines campagnes. Certaines des campagnes de données sont techniques, et si un utilisateur ne performe pas bien, l’utilisateur ne sera pas bien récompensé. Tout, y compris la réputation des utilisateurs, est basé sur la précision du travail fourni par les utilisateurs. Certaines tâches nécessitent des compétences/connaissances techniques, ou ont des courbes d’apprentissage raides. Ainsi, tout nouvel utilisateur sur la plateforme devrait s’attendre à passer du temps à apprendre comment réaliser certaines des campagnes/tâches de données. Nous mettons continuellement à jour et produisons de nouveaux supports éducatifs et de formation pour les nouveaux et anciens utilisateurs afin que nous puissions les guider pour qu’ils performent mieux. Cela bénéficie à tout le monde, tant que les utilisateurs passent du temps à lire et à apprendre à partir du matériel.

Tags dans cet article