一位科技公司CEO提议通过使用去中心化的数据众包来“民主化”AI。
Technologist:去中心化数据众包是对抗科技巨头主导地位的关键
本文发布于一年多前。部分信息可能已不是最新的。

去中心化数据众包:通往无偏见AI之路
Synesis One的技术专家兼CEO Isaac Bang 警告称,少数科技巨头囤积数据并领导人工智能(AI)竞赛的情况“极其危险”。他主张“民主化”AI的力量,确保正在进行的AI竞赛的最终“赢家”不会成为行业巨头。
根据Bang的说法,解决方案的一部分在于优先考虑去中心化数据众包,而不是依赖大型数据公司。正如他在给Bitcoin.com News的书面回复中解释,在去中心化数据众包的模式下,公司可以避免利用内部数据科学家。相反,他们可以对数据分析任务向通用的数字劳动力池或专家“投标”。
Bang认为,这种模式是希望扩展但缺乏内部资源的公司的理想选择。除了商业优势,去中心化的数据众包还有助于解决集中式科技巨头面临的数据偏差问题。
虽然政府对去中心化数据管理表示公众安全隐忧,但Bang仍然警告不要对可能最终扼杀创新的广泛监管。他敦促监管者和立法者在制定政策之前研究“去中心化数据源如何以及正在被利用”。
Bang的其它回复谈到了AI行业内的竞争以及AI使用中固有的风险。以下是Synesis One CEO对提出的问题的回答。
Bitcoin.com 新闻 (BCN):据预测,到2024年底,AI市场规模将达到1,840亿美元,AI行业则完全围绕数据展开。所有内容都围绕如何采集、训练和使用数据进行。由于多年来几乎无需成本便持续收集大量数据,这种情况使得专注于大数据的公司获得了优势。您对少数大型科技公司在数据生态系统中的主导地位有什么看法,貌似这给了他们在AI竞赛中领先的开端?
Isaac Bang (IB): AI是第四次工业革命的关键技术,其影响力远超我们目前的想象。少数优势玩家囤积数据并领导AI竞赛在多方面都极其危险。AI技术不仅将使企业更具生产力并最大化利润,还将增强政府的军事实力,无论是实体还是数字方面。AI竞赛的“赢家”将成为一个主导力量,因此我们必须采取行动,将AI的力量民主化,以造福所有人。
BCN:什么是去中心化数据众包,它与传统数据收集方法有何不同?
IB: 传统上,公司通过提供的产品或服务从用户/客户那里收集数据。为了将收集的数据用于AI,公司会雇佣数据科学家和其他专家来清理和标注数据。对于拥有大量用户和资金的大公司而言,传统的数据收集和准备方法是有效的。但对于中小型企业而言,扩展其数据需求将很困难。
去中心化数据众包是通过大型数字工人网络来获取原始数据或进行数据预处理,这些工人愿意并能够提供数据或预处理工作。公司或开发者无需用户或内部数据科学家,即可对数据任务从通用的数字工作者或专家池中发布悬赏,以完成数据工作。这使得公司可以在不需要大量资金和时间来雇佣内部员工的情况下进行扩展。
BCN:您能否解释一下在人类难以处理的任务中,人工智能在人类智能中的作用?
IB: 人类具有进行逻辑推理的能力。如今使用机器学习的AI使用的是统计计算来识别模式,没有任何逻辑推理。随着AI模型的改进,对更高质量的数据和领域特定数据的需求变得越来越有价值。例如,普通的LLM不适合在医疗环境中使用。LLM可以调整到医学的特定领域,但这需要具有该领域专业知识的人来进行。这种概念不仅适用于通用的LLM,也适用于其他更具体用途的AI应用。
BCN:数据众包如何帮助解决数据偏见的挑战并确保更具多样性和代表性的数据集?
IB: 很简单——数据提供者和数据标注者的池越多样化,数据就越多样化和具有代表性。在去中心化的众包网络中,原始数据和/或数据标注者不来自一个平台、公司、网络或群体。这减少了集中公司可能面临的数据偏见。
BCN:有哪些数据众包的创新应用在推动可能性的界限,特别是对于像AI这样的新兴技术?
IB: 最实用的用例之一是在自然语言领域。如今企业是全球化的,这要求公司能够在所有市场语言中提供相同质量的服务和产品。然而,目前表现最佳的LLMs主要是基于英语的。我们看到公司依靠众包来获得不同语言和方言,这不仅仅是出于AI的需求,例如产品的本地化。
BCN:虽然许多专家相信去中心化的数据来源是前进之路,但监管者和大公司却不这么认为。传闻监管者对去中心化数据管理的顾虑之一是监督和监管功能,而大型公司则关注收入问题。在您看来,立法者应如何针对数据相关的法规来支持创新,同时确保公共安全和保安?
IB: 只要所有的数据交易都被记录在链上,透明度就足以解决任何监督和监管问题。如果监管者真的关心公共安全和保安,就应该更多地针对集中实体对数据的管理和使用进行监管。与其因恐惧而信口开河,立法者应首先了解去中心化数据来源的利用方式。如果存在恶意意图或用途,再介入,而不是颁布伤害创新的全面法规。

BCN:您如何应对潜在国家安全风险的担忧,例如您平台被用于恶意活动?
IB: 目前,我们尚未发现平台的任何滥用。要看到滥用对国家安全层面可能产生的风险是很困难的。在数据存储层面,Synesis可以使用分布式存储解决方案(如IPFS,Arweave)和集中解决方案(如AWS)进行工作,因此这取决于客户。在数据标注层面,每个人都经过同行评审,甚至同行评审也可以通过客户进行特定优化以防止恶意行为。
BCN:大多数大科技公司在评估去中心化数据来源潜力时会考虑自己的收益。然而,您的区块链解决方案Synesis One旨在重新定义系统。您能否简要强调Synesis One想要带给AI行业的革命,指出您面临的主要挑战?
IB: 在Synesis,我们的目标是成为全球最大的专属专家和领域专家数字工人网络,帮助公司满足其任何AI数据需求。随着AI被用于越来越多的用例,我们已经看到对专家级知识用于AI训练(如微调,RLHF,原始数据)的需求在增加。我们希望使任何领域的任何规模的公司都能通过我们的平台和全球数字专家网络扩展其AI数据需求。这样不仅有助于公司扩展,还能为全球各地的人们带来通过线上提供知识和技能赚钱的新机会。
BCN:您打算如何在竞争环境中导航,以对抗那些可能准备好采取一切措施来保护其利益的大型主流数据管理公司?
IB: 令人惊讶的是,主流企业在为其员工解决痛点方面并未做到位。一个问题是在支付方面,因为跨境支付通常昂贵且缓慢。另一个主要痛点是缺乏透明度。这对我们来说是巨大的优势,因为我们的支付系统不需要最低余额,没有费用,并且是即时的。我们已经吸引了许多对使用web2数据标注领域的大公司感到沮丧的数字工人。随着我们引入更多背景各异的数字工人并建立网络,我们的解决方案将对潜在客户变得越来越有吸引力。
BCN:除了您公司在提供解决方案时所面临的个人风险外,使用您平台的用户应预期哪些固有风险以及您有什么计划来管理这些风险?
IB: 我们用户面临的最大风险之一是针对某些活动的知识和/或技能不匹配。有些数据活动是技术性的,如果用户表现不佳,他们将得不到良好的报酬。所有事情,包括用户的声誉,都是根据用户提供的工作准确性来评估的。一些任务需要技术技能/知识,或者有陡峭的学习曲线。因此,平台上的任何新用户都应期望花费一些时间学习如何进行某些活动/数据任务。我们正在不断更新和制作新的教育和培训材料,供新用户和现有用户使用,以便我们能指导他们更好地表现。这对每个将时间花在阅读和学习材料上的用户都是有利的。














