Um CEO de tecnologia propõe “democratizar” a IA usando a crowdsourcing de dados descentralizada.
Tecnologista: A Coleta de Dados Descentralizada é Fundamental para Contrabalançar o Domínio das Big Tech
Este artigo foi publicado há mais de um ano. Algumas informações podem não ser mais atuais.

Crowdsourcing de Dados Descentralizada: Um Caminho para uma IA Livre de Preconceitos
O tecnólogo e CEO da Synesis One, Isaac Bang, alerta contra o cenário “extremamente perigoso” de algumas gigantes da tecnologia acumularem dados e liderarem a corrida da inteligência artificial (IA). Ele defende a “democratização” do poder da IA, garantindo que o eventual “vencedor” da corrida de IA em curso não se torne um gigante da indústria.
De acordo com Bang, parte da solução está em priorizar o crowdsourcing de dados descentralizada ao invés de depender de grandes empresas focadas em dados. Como Bang explica em suas respostas escritas para a Bitcoin.com News, o crowdsourcing de dados descentralizada permite que as empresas evitem utilizar cientistas de dados internos. Em vez disso, elas podem “oferecer trabalho” para um grupo geral de trabalhadores digitais ou especialistas para tarefas de análise de dados.
Este modelo, acredita Bang, é ideal para empresas que desejam expandir, mas carecem de recursos internos. Além da vantagem comercial, o crowdsourcing de dados descentralizada também ajuda a combater o desafio do viés de dados enfrentado pelas grandes empresas tecnológicas centralizadas.
Enquanto os governos expressam preocupações sobre a segurança pública em relação à gestão de dados descentralizada, Bang, no entanto, adverte contra regulamentações gerais que podem eventualmente sufocar a inovação. Em vez disso, ele insta reguladores e legisladores a estudarem como “a origem descentralizada de dados pode e está sendo utilizada” antes de promulgar políticas.
Respostas adicionais de Bang abordam a concorrência dentro da indústria de IA e os riscos inerentes associados ao uso da IA. Abaixo estão as respostas do CEO da Synesis One para as perguntas enviadas.
Bitcoin.com News (BCN): Está projetado que o mercado de IA alcance US$ 184 bilhões até o final de 2024, e a indústria de IA gira completamente em torno de dados. Tudo revolve em torno de como adquirir, treinar e usar dados. Essa situação colocou grandes empresas focadas em dados em vantagem, considerando o volume de dados que elas continuam coletando ao longo dos anos a quase nenhum custo. Quais são seus pensamentos sobre algumas grandes empresas de tecnologia dominando o ecossistema de dados, algo que parece ter lhes dado uma vantagem no início da corrida de IA?
Isaac Bang (IB): IA é a tecnologia chave que está trazendo a quarta revolução industrial, e seus impactos são muito mais amplos do que podemos imaginar atualmente. Alguns atores dominantes acumulando os dados e liderando a corrida de IA é extremamente perigoso de muitas maneiras. Não apenas a tecnologia de IA permitirá que as empresas se tornem mais produtivas e maximizem seus resultados financeiros, mas também permitirá que os governos melhorem suas capacidades militares tanto física quanto digitalmente. O “vencedor” da corrida de IA será uma força dominante, e é crítico que tomemos medidas agora para democratizar o poder da IA para o bem de todos.
BCN: O que é crowdsourcing de dados descentralizada, e como difere dos métodos tradicionais de coleta de dados?
IB: Tradicionalmente, as empresas coletam dados de seus usuários/clientes usando o produto ou serviço fornecido. Para utilizar os dados coletados para IA, as empresas empregam cientistas de dados e outros especialistas para limpar e anotar os dados. Os métodos tradicionais de coleta e preparação de dados são eficientes para grandes empresas com muitos usuários e muito dinheiro. No entanto, para empresas de pequeno e médio porte, expandir suas necessidades de dados será difícil.
O crowdsourcing de dados descentralizada é a obtenção de dados brutos ou pré-processamento de dados através de uma grande rede de trabalhadores digitais que estão dispostos e são capazes de fornecer os dados ou trabalho de pré-processamento. As empresas ou desenvolvedores podem, sem ter usuários ou cientistas de dados internos, colocar uma recompensa por tarefas de dados de um grupo geral de trabalhadores digitais ou especialistas para realizar trabalhos de dados. Isso permite que as empresas escalem sem precisar gastar uma quantidade imensa de dinheiro e tempo com a contratação interna.
BCN: Você pode explicar o papel da inteligência humana no crowdsourcing de dados, especialmente em tarefas que a IA tem dificuldades?
IB: Os humanos têm a capacidade de realizar raciocínio lógico. A IA que usa aprendizado de máquina hoje utiliza cálculos estatísticos para reconhecer padrões, sem nenhum raciocínio lógico. À medida que os modelos de IA melhoram, a necessidade de dados de maior qualidade e dados específicos de domínio torna-se cada vez mais valiosa. Por exemplo, um LLM geral não é adequado para uso em um ambiente médico. O LLM poderia ser ajustado para um campo específico da medicina, mas isso exigiria humanos com conhecimento especializado nesse campo. Este conceito não se aplica apenas aos LLMs gerais, mas qualquer outra aplicação de IA com casos de uso mais específicos.
BCN: Como o crowdsourcing de dados pode ajudar a lidar com o desafio do viés de dados e garantir um conjunto de dados mais diverso e representativo?
IB: É simples – quanto mais diverso o grupo de provedores de dados e anotadores de dados, mais diverso e representativo será o conjunto de dados. Em uma rede de crowdsourcing descentralizada, os provedores dos dados brutos e/ou anotadores de dados não vêm de uma única plataforma, empresa, rede ou grupo. Isso reduz o viés de dados que uma empresa centralizada poderia enfrentar.
BCN: Quais são algumas aplicações inovadoras de crowdsourcing de dados que estão ultrapassando os limites do que é possível, particularmente com tecnologias emergentes como a IA?
IB: Um dos casos de uso mais práticos é no campo da linguagem natural. As empresas hoje são globais, e isso requer que as empresas sejam proficientes em fornecer a mesma qualidade de serviços e produtos em todos os idiomas dos mercados que atendem. No entanto, muitos dos melhores LLMs de hoje são principalmente baseados no inglês. Temos visto empresas confiarem no crowdsourcing para diferentes idiomas e dialetos, não apenas para necessidades de IA, como a localização de seus produtos.
BCN: Enquanto muitos especialistas acreditam que a origem descentralizada de dados é o caminho a seguir, os reguladores e os grandes players pensam de maneira diferente. Alegadamente, uma das razões para as preocupações regulatórias sobre a gestão de dados descentralizada é a supervisão e funções de monitoramento, enquanto para as grandes empresas, sua preocupação gira em torno de receita. Na sua opinião, como os legisladores devem abordar as regulamentações focadas em dados para apoiar a inovação enquanto garantem a segurança e a proteção públicas?
IB: Desde que todas as transações de dados sejam registradas na cadeia, a transparência deve ser suficiente para lidar com qualquer preocupação de supervisão e monitoramento. Se os reguladores estão realmente preocupados com a segurança e proteção públicas, deveria haver mais regulamentações para a gestão e uso de dados por entidades centralizadas. Em vez de tirar conclusões precipitadas com base no medo, os legisladores deveriam primeiro aprender sobre as formas como a origem descentralizada de dados pode e está sendo utilizada. Se houver intenções ou usos maliciosos, aí eles deveriam intervir, em vez de emitir regulamentações abrangentes que prejudiquem a inovação.

BCN: Como você aborda preocupações sobre potenciais riscos à segurança nacional, como o uso indevido de sua plataforma para atividades maliciosas?
IB: No momento, não testemunhamos nenhum uso indevido da plataforma. É difícil realmente ver quaisquer riscos potenciais que um uso indevido possa impactar a nível de segurança nacional. No nível de armazenamento de dados, a Synesis pode trabalhar com soluções de armazenamento distribuído (por exemplo, IPFS, Arweave) e soluções centralizadas (por exemplo, AWS), então depende do cliente. No nível de anotação de dados, todos passam por revisões por pares e até mesmo as revisões por pares podem ser especificamente otimizadas pelo cliente para evitar comportamentos maliciosos.
BCN: Muitos dos grandes players de tecnologia consideram seus ganhos ao revisar o potencial da origem descentralizada de dados. No entanto, sua solução blockchain, Synesis One, pretende redefinir o sistema. Você pode destacar brevemente o tipo de revolução que a Synesis One quer trazer para a indústria de IA, observando os principais desafios que você enfrentou?
IB: Na Synesis, nosso objetivo é ser a maior rede mundial de trabalhadores digitais de especialistas e especialistas específicos de domínio que ajudam em qualquer necessidade de dados de IA das empresas. Já estamos vendo um aumento na demanda por conhecimento especializado para treinamento de IA (por exemplo, ajuste fino, RLHF, dados brutos) à medida que a IA está sendo utilizada para mais e mais casos de uso. Queremos permitir que empresas de qualquer tamanho em qualquer domínio sejam capazes de expandir suas necessidades de dados de IA acessando nossa plataforma e rede de especialistas digitais ao redor do mundo. Isso não apenas ajudará as empresas a crescerem, mas também trará novas oportunidades para pessoas ao redor do mundo ganharem dinheiro fornecendo seu conhecimento e habilidades online.
BCN: Como você pretende navegar no ambiente competitivo que coloca sua solução contra grandes empresas de gerenciamento de dados convencionais que podem estar prontas para fazer todo o necessário para proteger seus interesses?
IB: Surpreendentemente, há muitos pontos problemáticos que as empresas convencionais não resolveram para seus trabalhadores. Um deles é em relação aos pagamentos, pois pagamentos internacionais costumam ser caros e lentos. Outro ponto problemático principal é a falta de transparência. Isso é uma grande vantagem para nós, pois nosso sistema de pagamento não requer saldo mínimo, não tem taxas e é instantâneo. Temos embarcado muitos trabalhadores digitais frustrados que utilizaram os grandes players do espaço de rotulagem de dados da web2. À medida que trazemos mais e mais trabalhadores digitais de todas as origens e construímos a rede, nossas soluções se tornarão cada vez mais atraentes para potenciais clientes.
BCN: Além dos riscos pessoais que sua empresa enfrenta ao fornecer sua solução, quais são os riscos inerentes que os usuários de sua plataforma devem esperar e quais planos você tem para administrá-los?
IB: Um dos maiores riscos que nossos usuários enfrentam é a incompatibilidade de conhecimento e/ou habilidades necessárias para certas campanhas. Algumas das campanhas de dados são técnicas, e se um usuário não desempenhar bem, o usuário não será bem recompensado. Tudo, incluindo a reputação de um usuário, é baseado na precisão do trabalho fornecido pelos usuários. Algumas tarefas exigem habilidades/conhecimento técnico ou têm curvas de aprendizado acentuadas. Portanto, qualquer novo usuário na plataforma deve esperar gastar algum tempo aprendendo como realizar algumas das campanhas/tarefas de dados. Estamos continuamente atualizando e produzindo novos materiais educacionais e de treinamento para novos e existentes usuários, para que possamos orientá-los a desempenharem melhor. Isso beneficia a todos, desde que o(s) usuário(s) dediquem tempo para ler e aprender com o material.














