技術系CEOが分散型データ・クラウドソーシングを使用してAIを「民主化」することを提案
テクノロジスト:分散型データのクラウドソーシングが大手テック企業の支配を対抗する鍵
この記事は1年以上前に公開されました。一部の情報は最新でない場合があります。

分散型データ・クラウドソーシング:バイアスのないAIへの道
Synesis Oneの技術者でありCEOであるアイザック・バン氏は、少数のテック大手がデータを独占し、人工知能(AI)競争でリードを保つ「極めて危険な」シナリオを警告しています。彼は、AIの権力を「民主化」することで、AI競争の最終的な「勝者」が業界の巨人とならないようにすることを主張しています。
バン氏によれば、解決策の一部は、大規模なデータ志向の企業に頼るのではなく、分散型データ・クラウドソーシングを優先することにあります。Bitcoin.com Newsに対する書面での回答でバン氏は、分散型データ・クラウドソーシングを利用することで、企業が社内のデータサイエンティストを利用せずに済むと説明しています。代わりに、データ分析のタスクを一般のデジタルワーカーや専門家のプールに「投げかける」ことができます。
このモデルは、バン氏が考えるに、社内のリソースが不足している企業が成長を目指すのに理想的です。商業的な利点を超えて、分散型データ・クラウドソーシングは集中型テクノロジー企業が直面するデータバイアスの課題を戦う助けにもなります。
政府は分散型データ管理に関する公共の安全に対する懸念を表明していますが、それでもバン氏はイノベーションを抑制する可能性がある広範な規制に対して警告しています。代わりに、彼は規制当局と立法者が政策を制定する前に「分散型データソースがどのように利用されているかを学ぶ」ことを促しています。
バン氏の追加の回答は、AI業界内の競争とAI使用に伴う内在的なリスクに関するものです。以下に、Synesis OneのCEOから送られた質問への回答を紹介します。
Bitcoin.com News (BCN): AI市場規模は2024年末までに1840億ドルに達すると予測されていますが、AI業界はすべてデータに関するものです。データを取得し、訓練し、使用する方法がすべての中心です。この状況は、年間ほとんどコストをかけずに大量のデータを収集している大手データ志向企業に有利なスタートを与えていると思われます。データのエコシステムをわずかな大手技術企業が支配することについてのご意見はどう思われますか?
アイザック・バン (IB): AIは第4次産業革命を牽引するキーテクノロジーであり、その影響は現在我々が想像できるよりもはるかに広範です。少数の支配的なプレイヤーがデータを独占し、AI競争をリードすることは多くの面で極めて危険です。AI技術は企業がより生産的になり、利益を最大化するだけでなく、政府が軍事能力を物理的にもデジタル的にも強化するのに役立ちます。AI競争の「勝者」は支配的な力となるため、全体の利益のためにAIの力を民主化するために今行動を起こすことが重要です。
BCN: 分散型データ・クラウドソーシングとは何ですか、従来のデータ収集方法とどのように異なりますか?
IB: 従来、企業は提供する製品やサービスを通してそのユーザー/顧客からデータを収集します。収集したデータをAIに利用するために、企業はデータサイエンティストや他の専門家を雇ってデータをクリーン化およびアノテーションします。データを収集し準備する従来の方法は、多くのユーザーと潤沢な資金を持つ大企業には効率的です。しかし、中小企業にとっては、データニーズの拡大には難しさがあります。
分散型データ・クラウドソーシングは、データやデータ前処理を希望し可能な多数のデジタルワーカーのネットワークを通じて取得することです。企業や開発者は、ユーザーや社内のデータサイエンティストがなくても、一般のデジタルワーカーや専門家のプールからデータタスクの報酬を掲示できます。これにより企業は社内採用に多大なコストと時間をかけることなく成長することができます。
BCN: データクラウドソーシングにおける人間の知能の役割、特にAIが苦手とするタスクについて説明してください。
IB: 人間は論理的推論を行う能力を持っています。今日の機械学習を使用したAIは、統計的計算を用いてパターンを認識する一方で、論理的推論は行いません。AIモデルが改良されればされるほど、より高品質なデータや特定の分野に特化したデータの需要がますます価値を持ちます。たとえば、一般的なLLM(大規模言語モデル)は医療設定での使用には適していません。LLMを特定の医療分野用に適応させるには、その分野の専門知識を持つ者が必要です。この概念は、一般的なLLMだけでなく、より特定の用途を持つ他のAIアプリケーションにも適用されます。
BCN: データクラウドソーシングはデータバイアスの課題にどのように対処し、より多様で代表的なデータセットを確保するのでしょうか?
IB: 簡単です – データ提供者やデータアノテーターのプールが多様であればあるほど、データもより多様で代表的になります。分散型クラウドソーシングネットワークでは、生のデータの提供者やデータアノテーターは一つのプラットフォーム、企業、ネットワーク、またはグループから来ることはありません。これにより、集中型企業が直面するかもしれないデータバイアスを軽減します。
BCN: データクラウドソーシングの革新的な応用事例で、特にAIのような新興技術で可能性の限界を押し広げているものはどれですか?
IB: 最も実用的なユースケースの一つは自然言語の領域にあります。今日の企業はグローバルであり、市場で提供するサービスや製品の品質をすべての言語で均等に提供する能力が求められています。しかし、現時点で最も性能の良いLLMは主に英語に基づいています。企業は、自社製品のローカライズなど、AIのニーズだけでなく、さまざまな言語や方言にもクラウドソーシングを頼るようになっています。
BCN: 多くの専門家が分散型データソーシングを推進の方法と信じている一方で、規制当局と大手企業はそう思っていません。規制上の懸念の一因として監督と管理機能が挙げられ、また大手企業は収益を懸念しています。革新を支援しながら公共の安全とセキュリティを確保するために、立法者はデータ志向の規制にどのようにアプローチすべきでしょうか?
IB: すべてのデータ取引がオンチェーンで記録されている限り、透明性は監督と管理の懸念を解消するのに十分なはずです。もし規制当局が本当に公共の安全とセキュリティを懸念しているなら、集中型の団体によるデータの管理と使用に関してより多くの規制があるべきです。恐れによって結論を急ぐのではなく、立法者はまず分散型データソーシングがどのように利用されているかを学ぶべきです。悪意のある意図や利用があれば、そのときに介入すべきであり、革新を損なう包括的な規制を出すべきではありません。

BCN: プラットフォームの悪用による潜在的な国家安全保障リスクについての懸念にどのように対処しますか?
IB: 現時点では、プラットフォームの悪用は目撃されていません。その悪用が国家安全保障レベルに及ぼす潜在的なリスクを本当に見ることは難しいです。データストレージレベルでは、Synesisは分散型ストレージソリューション(例: IPFS、Arweave)と集中型ソリューション(例: AWS)の両方と連携できるため、クライアント次第です。データアノテーションレベルでは、すべての参加者がピアレビューを受け、ピアレビュー自体もクライアントによって特定に最適化することで悪意のある行動を防ぐことができます。
BCN: 大手のデータ管理企業に対抗するために、あなたのソリューションがどう競争力を発揮するつもりなのかについて教えてください。
IB: 驚くべきことに、従来の企業が労働者のために解決していない課題が多くあります。ひとつはペイメントです。クロスボーダーペイメントはしばしば高価で遅いです。もうひとつの主な課題は透明性の欠如です。支払いシステムには最低残高はなく、手数料もなく、即時です。Web2データラベリング分野の大手プレイヤーを利用してきた多くの不満を持つデジタルワーカーを取り込みました。さまざまな背景を持つデジタルワーカーを増やし、ネットワークを構築するにつれて、我々のソリューションは潜在的なクライアントにとってますます魅力的になるでしょう。
BCN: 提供するソリューションに伴う個人的なリスクを超えて、プラットフォームのユーザーが予期するべき内在的なリスクとは何ですか、それらを管理する計画は何ですか?
IB: 我々のユーザーが直面する最大のリスクの一つは、あるキャンペーンに必要な知識および/またはスキルの不一致です。特定のデータキャンペーンは技術的であり、ユーザーがよくできなければ、十分な報酬を得られません。すべてのもの、ユーザーの評判をも含め、提供された仕事の正確性に基づいています。仕事によっては、技術的スキル/知識が要求されたり、急な学習曲線があります。したがって、プラットフォームの新しいユーザーは、キャンペーン/データタスクを学ぶための時間を費やす覚悟を持つべきです。我々は新規および既存ユーザーに向けた新しい教育資料を絶えず更新し、提供していますので、より良いパフォーマンスを発揮できるよう導きます。これにより、すべての人に利益がありますが、ユーザーが時間をかけて資料を読んで学ぶことが条件です。









