Impulsado por
Interview

Tecnólogo: La Recolección de Datos Descentralizada es Clave para Contrarrestar el Dominio de las Grandes Tecnológicas

Este artículo se publicó hace más de un año. Alguna información puede no estar actualizada.

Un CEO tecnológico propone “democratizar” la IA mediante el uso de la recopilación de datos descentralizada.

ESCRITO POR
COMPARTIR
Tecnólogo: La Recolección de Datos Descentralizada es Clave para Contrarrestar el Dominio de las Grandes Tecnológicas

Recopilación Descentralizada de Datos: Un Camino hacia una IA Sin Sesgos

El tecnólogo y CEO de Synesis One, Isaac Bang, advierte sobre el escenario “extremadamente peligroso” de que unos pocos gigantes tecnológicos acumulen datos y lideren la carrera de la inteligencia artificial (IA). Aboga por la “democratización” del poder de la IA, asegurando que el eventual “ganador” de la carrera de IA en curso no se convierta en un gigante de la industria.

Según Bang, parte de la solución radica en priorizar la recopilación de datos descentralizada sobre la dependencia de grandes empresas centradas en datos. Como explica Bang en sus respuestas escritas a Bitcoin.com News, la recopilación descentralizada de datos permite a las empresas evitar utilizar científicos de datos internos. En su lugar, pueden “ofrecer trabajo” a un grupo general de trabajadores digitales o especialistas para tareas de análisis de datos.

Este modelo, cree Bang, es ideal para empresas que buscan escalar pero carecen de recursos internos. Más allá de la ventaja comercial, la recopilación descentralizada de datos también ayuda a combatir el desafío del sesgo de datos que enfrentan los gigantes tecnológicos centralizados.

Mientras que los gobiernos expresan preocupaciones de seguridad pública con respecto a la gestión de datos descentralizados, Bang sin embargo advierte contra regulaciones amplias que eventualmente podrían sofocar la innovación. En su lugar, insta a los reguladores y legisladores a estudiar cómo “se pueden y se están utilizando” las fuentes de datos descentralizadas antes de promulgar políticas.

Las respuestas adicionales de Bang abordan la competencia dentro de la industria de la IA y los riesgos inherentes al uso de la IA. A continuación, se presentan las respuestas del CEO de Synesis One a las preguntas enviadas.

Bitcoin.com News (BCN): Se proyecta que el tamaño del mercado de la IA alcance los $184 mil millones para finales de 2024, y la industria de la IA se centra en los datos. Todo gira en torno a cómo adquirir, entrenar y usar datos. Esta situación ha puesto a las grandes empresas centradas en datos en ventaja, considerando el volumen de datos que continúan acumulando con los años sin casi ningún coste. ¿Cuáles son sus pensamientos sobre unas pocas grandes empresas tecnológicas dominando el ecosistema de datos, algo que parece haberles dado una ventaja en la carrera de la IA?

Isaac Bang (IB): La IA es la tecnología clave que está impulsando la cuarta revolución industrial, y sus impactos son mucho más amplios de lo que podemos imaginar actualmente. Unos pocos jugadores dominantes acumulando los datos y liderando la carrera de la IA es extremadamente peligroso en muchos sentidos. No solo la tecnología de IA permitirá a las empresas ser más productivas y maximizar sus beneficios, sino que también permitirá a los gobiernos potenciar sus capacidades militares tanto física como digitalmente. El “ganador” de la carrera de la IA será una fuerza dominante, y es crucial que tomemos medidas ahora para democratizar el poder de la IA para el bien de todos.

BCN: ¿Qué es la recopilación descentralizada de datos y cómo se diferencia de los métodos tradicionales de recopilación de datos?

IB: Tradicionalmente, las empresas recopilan datos de sus usuarios/clientes utilizando el producto o servicio proporcionado. Para utilizar los datos recopilados para IA, las empresas emplean científicos de datos y otros especialistas para limpiar y anotar los datos. Los métodos tradicionales de recopilación y preparación de datos son eficientes para grandes empresas con muchos usuarios y mucho dinero. Sin embargo, para empresas pequeñas y medianas, escalar sus necesidades de datos será difícil.

La recopilación descentralizada de datos consiste en obtener datos en bruto o preprocesarlos a través de una gran red de trabajadores digitales dispuestos y capaces de proporcionar los datos o el trabajo de preprocesamiento. Las empresas o desarrolladores, sin necesidad de usuarios o científicos de datos internos, pueden ofrecer recompensas por tareas de datos a un grupo general de trabajadores digitales o especialistas para realizar el trabajo de datos. Esto permite a las empresas escalar sin necesidad de gastar una cantidad inmensa de dinero y tiempo en la contratación interna.

BCN: ¿Puede explicar el papel de la inteligencia humana en la recopilación de datos, especialmente en las tareas con las que la IA tiene dificultades?

IB: Los humanos tienen la capacidad de realizar razonamientos lógicos. La IA que utiliza el aprendizaje automático hoy en día emplea cálculos estadísticos para reconocer patrones, sin ningún razonamiento lógico. A medida que los modelos de IA mejoran, la necesidad de datos de mayor calidad y datos específicos de dominio se vuelve más y más valiosa. Por ejemplo, un LLM general no es adecuado para su uso en un entorno médico. El LLM podría afinarse para un campo específico de la medicina, pero hacerlo requeriría humanos con conocimiento experto en ese campo. Este concepto no solo se aplica a los LLM generales, sino a cualquier otra aplicación de IA con casos de uso más específicos.

BCN: ¿Cómo puede la recopilación de datos ayudar a abordar el desafío del sesgo de datos y garantizar un conjunto de datos más diverso y representativo?

IB: Es simple: cuanto más diverso sea el grupo de proveedores de datos y anotadores de datos, más diverso y representativo será el conjunto de datos. En una red de crowdsourcing descentralizada, los proveedores de los datos en bruto y/o anotadores de datos no provienen de una plataforma, empresa, red o grupo único. Esto reduce el sesgo de datos que una empresa centralizada podría enfrentar.

BCN: ¿Cuáles son algunas aplicaciones innovadoras de la recopilación de datos que están empujando los límites de lo que es posible, particularmente con las tecnologías emergentes como la IA?

IB: Uno de los casos de uso más prácticos está en el ámbito del lenguaje natural. Hoy en día, las empresas son globales, y esto requiere que las empresas sean competentes al brindar la misma calidad de servicios y productos en todos los idiomas de los mercados que sirven. Sin embargo, muchos de los mejores LLM actuales son principalmente en inglés. Hemos visto que las empresas recurren al crowdsourcing para diferentes idiomas y dialectos, no solo para necesidades de IA, como la localización de sus productos.

BCN: Aunque muchos expertos creen que la obtención descentralizada de datos es el camino a seguir, los reguladores y los grandes actores piensan lo contrario. Supuestamente, una de las razones de las preocupaciones regulatorias sobre la gestión descentralizada de datos radica en las funciones de supervisión y control, mientras que para las grandes empresas, su preocupación gira en torno a los ingresos. En su opinión, ¿cómo deberían los legisladores abordar las regulaciones centradas en datos para apoyar la innovación asegurando al mismo tiempo la seguridad y protección públicas?

IB: Mientras todas las transacciones de datos se registren en la cadena, la transparencia debería ser suficiente para abordar cualquier preocupación de supervisión y control. Si los reguladores realmente están preocupados por la seguridad y protección públicas, debería haber más regulaciones para la gestión y uso de datos por parte de entidades centralizadas. En lugar de sacar conclusiones con miedo, los legisladores primero deberían aprender sobre las formas en que la obtención descentralizada de datos puede y se está utilizando. Si hay intenciones o usos maliciosos, entonces deberían intervenir, en lugar de emitir regulaciones generales que dañen la innovación.

Tecnólogo: La Recopilación Descentralizada de Datos es Clave para Contrarrestar el Dominio de las Grandes Tecnológicas
CEO de Synesis One, Isaac Bang

BCN: ¿Cómo aborda las preocupaciones sobre los posibles riesgos de seguridad nacional, como el uso indebido de su plataforma para actividades malintencionadas?

IB: Por el momento, no hemos presenciado ningún uso indebido de la plataforma. Es difícil realmente ver cualquier riesgo potencial que un uso indebido podría impactar a nivel de seguridad nacional. A nivel de almacenamiento de datos, Synesis puede trabajar tanto con soluciones de almacenamiento distribuido (por ejemplo, IPFS, Arweave) como con soluciones centralizadas (por ejemplo, AWS), por lo que depende del cliente. A nivel de anotación de datos, todos pasan por revisión por pares e incluso las revisiones por pares pueden ser específicamente optimizadas por el cliente para prevenir conductas malintencionadas.

BCN: La mayoría de los jugadores de Big Tech consideran sus ganancias al revisar el potencial de la obtención descentralizada de datos. Sin embargo, su solución blockchain, Synesis One, está redefiniendo el sistema. ¿Puede destacar brevemente el tipo de revolución que Synesis One quiere aportar a la industria de la IA, señalando los principales desafíos que ha enfrentado?

IB: En Synesis, pretendemos ser la red de trabajadores digitales más grande del mundo de especialistas y expertos específicos de dominio que ayudan en cualquier necesidad de datos de IA de las empresas. Ya estamos viendo un aumento en la demanda de conocimiento de nivel experto para el entrenamiento de IA (e.g. afinación fina, RLHF, datos en bruto) a medida que la IA se está utilizando para más y más casos de uso. Queremos permitir que cualquier empresa de cualquier tamaño en cualquier dominio pueda escalar sus necesidades de datos de IA aprovechando nuestra plataforma y red de expertos digitales en todo el mundo. Esto no solo ayudará a las empresas a escalar, sino que también brindará nuevas oportunidades a las personas de todo el mundo para ganar dinero proporcionando su conocimiento y habilidades en línea.

BCN: ¿Cómo pretende navegar en un entorno competitivo que opone su solución contra grandes firmas de gestión de datos que pueden estar dispuestas a hacer lo que sea necesario para proteger sus intereses?

IB: Sorprendentemente, hay muchos puntos problemáticos que las firmas convencionales no han resuelto para sus trabajadores. Uno es sobre los pagos, ya que los pagos transfronterizos suelen ser caros y lentos. El otro punto problemático principal es la falta de transparencia. Este es un gran beneficio para nosotros, ya que nuestro sistema de pagos no requiere un saldo mínimo, no tiene tarifas y es instantáneo. Hemos incorporado a muchos trabajadores digitales frustrados que han usado a los grandes jugadores en el espacio de etiquetado de datos de la web2. A medida que incorporamos más y más trabajadores digitales de todos los orígenes y construimos la red, nuestras soluciones se volverán más atractivas para clientes potenciales.

BCN: Más allá de los riesgos personales que enfrenta su empresa al proporcionar su solución, ¿cuáles son los riesgos inherentes que deberían esperar los usuarios de su plataforma y qué planes tiene para gestionarlos?

IB: Uno de los mayores riesgos que enfrentan nuestros usuarios es la falta de coincidencia de conocimiento y/o habilidades necesarias para ciertas campañas. Algunas de las campañas de datos son técnicas, y si un usuario no se desempeña bien, no será bien recompensado. Todo, incluida la reputación de un usuario, se basa en la precisión del trabajo proporcionado por los usuarios. Algunas tareas requieren habilidades/conocimientos técnicos o tienen curvas de aprendizaje pronunciadas. Así que cualquier nuevo usuario en la plataforma debería esperar pasar tiempo aprendiendo cómo realizar algunas de las campañas/tareas de datos. Continuamente estamos actualizando y produciendo nuevos materiales educativos y de capacitación para usuarios nuevos y existentes para poder guiarlos a desempeñarse mejor. Esto beneficia a todos, siempre y cuando el/los usuario(s) pasen tiempo leyendo y aprendiendo del material.

Etiquetas en esta historia