При поддержке
Interview

Технолог: Децентрализованный краудсорсинг данных — ключ к противодействию доминированию крупных технологических компаний

Эта статья была опубликована более года назад. Некоторая информация может быть неактуальной.

Технический генеральный директор предлагает «демократизировать» ИИ с помощью децентрализованного краудсорсинга данных.

АВТОР
ПОДЕЛИТЬСЯ
Технолог: Децентрализованный краудсорсинг данных — ключ к противодействию доминированию крупных технологических компаний

Децентрализованный краудсорсинг данных: Путь к ИИ без предвзятости

Технолог и генеральный директор Synesis One, Исаак Банг, предупреждает об «крайне опасной» ситуации, когда несколько технологических гигантов захватывают данные и лидируют в гонке искусственного интеллекта (ИИ). Он выступает за «демократизацию» силы ИИ, чтобы гарантировать, что конечным «победителем» текущей гонки ИИ не станет индустриальный гигант.

По мнению Банга, часть решения заключается в приоритетности децентрализованного краудсорсинга данных, а не в зависимости от крупных компаний, фокусирующихся на данных. Как объясняет Банг в своих письменных ответах для Bitcoin.com News, децентрализованный краудсорсинг данных позволяет компаниям избегать использования внутренних специалистов по данным. Вместо этого они могут «размещать задания» в общей базе цифровых работников или специалистов для выполнения задач анализа данных.

Эта модель, по мнению Банга, идеальна для компаний, стремящихся к масштабированию, но не имеющих внутренних ресурсов. Помимо коммерческого преимущества, децентрализованный краудсорсинг данных также помогает бороться с проблемой предвзятости данных, с которой сталкиваются централизованные технологические гиганты.

Хотя правительства выражают обеспокоенность общественной безопасностью в отношении децентрализованного управления данными, Банг все же предостерегает от широких регулирований, которые могут в итоге подавить инновации. Вместо этого он призывает регуляторов и законодателей изучить, как «используется и может использоваться децентрализованный источник данных» перед принятием политик.

Дополнительные ответы Банга касаются конкуренции в индустрии ИИ и присущих рисков, связанных с использованием ИИ. Ниже представлены ответы генерального директора Synesis One на отправленные вопросы.

Bitcoin.com News (BCN): По данным прогноза, размер рынка ИИ достигнет 184 миллиардов долларов к концу 2024 года, и индустрия ИИ полностью сосредоточена на данных. Все крутится вокруг того, как приобрести, обучить и использовать данные. Эта ситуация дала преимущество крупным компаниям, сосредоточенным на данных, учитывая объем данных, который они собирали почти бесплатно в течение многих лет. Ваши мысли по поводу того, что несколько крупных технологических компаний доминируют в экосистеме данных, что, кажется, дало им фору в гонке ИИ?

Исаак Банг (IB): ИИ является ключевой технологией, способствующей четвертой промышленной революции, и его последствия гораздо шире, чем мы можем себе представить в настоящее время. Наличие нескольких доминирующих игроков, удерживающих данные и ведущих гонку ИИ, крайне опасно по многим причинам. ИИ позволит бизнесам стать более продуктивными и максимизировать их прибыль, но также он позволит правительствам улучшить их военные возможности как физически, так и цифрово. «Победитель» гонки ИИ станет доминирующей силой, и крайне важно действовать сейчас, чтобы демократизировать силу ИИ на благо всех.

BCN: Что такое децентрализованный краудсорсинг данных, и как он отличается от традиционных методов сбора данных?

IB: Традиционно компании собирают данные от своих пользователей/клиентов, используя предоставляемый продукт или услугу. Для использования собранных данных для ИИ компании нанимают специалистов по данным и других специалистов для очистки и аннотирования данных. Традиционные методы сбора и подготовки данных эффективны для крупных компаний с многочисленными пользователями и большими финансовыми ресурсами. Однако для небольших и средних компаний масштабирование их потребностей в данных будет сложной задачей.

Децентрализованный краудсорсинг данных — это поиск сырых данных или предобработка данных через большую сеть цифровых работников, которые готовы и способны предоставить данные или выполнить работу по предобработке. Компании или разработчики могут, не имея пользователей или внутренних специалистов по данным, выставить вознаграждение за выполнение задач по данным из общего пула цифровых работников или специалистов. Это позволяет компаниям масштабироваться без необходимости в огромных затратах времени и средств на найм внутренних сотрудников.

BCN: Можете ли вы объяснить роль человеческого интеллекта в краудсорсинге данных, особенно в задачах, с которыми ИИ трудится?

IB: Людям присуща способность выполнять логические умозаключения. ИИ, использующий машинное обучение сегодня, использует статистические вычисления для распознавания шаблонов, без какой-либо логической аргументации. По мере улучшения моделей ИИ, потребность в более качественных и специализированных данных становится все более ценной. Например, общий LLM не подходит для использования в медицинской среде. LLM можно настроить для конкретной области медицины, но для этого потребуются люди с экспертными знаниями в этой области. Эта концепция применима не только к общим LLM, но и к любым другим приложениям ИИ с более специфическими случаями использования.

BCN: Как краудсорсинг данных может помочь решить проблему предвзятости данных и обеспечить более разнообразный и репрезентативный набор данных?

IB: Это просто – чем разнообразнее пул поставщиков данных и аннотаторов данных, тем разнообразнее и репрезентативнее будут данные. В децентрализованной краудсорсинговой сети поставщики сырых данных и/или аннотаторы данных не исходят из одной платформы, компании, сети или группы. Это уменьшает предвзятость данных, с которой может столкнуться централизованная компания.

BCN: Какие инновационные применение краудсорсинга данных продвигают границы возможного, особенно с появляющимися технологиями, такими как ИИ?

IB: Один из наиболее практичных случаев использования – это область естественного языка. Сегодняшние компании глобальны, и это требует от них грамотности в предоставлении одинакового качества услуг и продуктов на всех языках рынков, которые они обслуживают. Однако многие из самых эффективных LLM в настоящее время в основном основаны на английском языке. Мы видели, как компании полагаются на краудсорсинг для различных языков и диалектов не только для нужд ИИ, таких как локализация их продуктов.

BCN: Хотя многие эксперты считают децентрализованный источник данных правильным путем, регуляторы и крупные игроки думают иначе. Якобы одна из причин регуляторных опасений по поводу децентрализованного управления данными – это функции надзора и контроля, а для больших компаний их озабоченность связана с доходами. На ваш взгляд, как законодателям следует подходить к правилам, ориентированным на данные, чтобы поддерживать инновации, обеспечивая при этом общественную безопасность и защиту?

IB: Пока все транзакции с данными записываются на цепочке, прозрачности должно быть достаточно для решения любых вопросов надзора и контроля. Если регуляторы действительно обеспокоены общественной безопасностью и защитой, должно быть больше регулирования для управления и использования данных централизованными организациями. Вместо того чтобы делать преждевременные выводы из страха, законодатели должны сначала узнать о способах, которыми децентрализованный источник данных может и используется. Если есть злонамеренные намерения или использования, то тогда они должны вмешиваться, а не издавать универсальные регулирования, которые вредят инновациям.

Технолог: Децентрализованный краудсорсинг данных — ключ к противостоянию доминированию крупных технологий
Генеральный директор Synesis One, Исаак Банг

BCN: Как вы решаете вопросы о потенциальных угрозах национальной безопасности, таких как ненадлежащее использование вашей платформы в злонамеренных целях?

IB: На данный момент мы не наблюдали какого-либо ненадлежащего использования платформы. Действительно трудно увидеть потенциальные риски, которые бы подачи могли повлиять на уровне национальной безопасности. На уровне хранения данных Synesis может работать как с распределенными решениями для хранения (например, IPFS, Arweave), так и с централизованными решениями (например, AWS), так что это зависит от клиента. На уровне аннотирования данных все проходят экспертную проверку, и даже саму проверку можно оптимизировать клиентом для предотвращения недобросовестного поведения.

BCN: Многие крупные технологические игроки учитывают свои выгоды, оценивая потенциал децентрализованного источника данных. Однако ваше блокчейн-решение, Synesis One, намерено переосмыслить систему. Можете ли вы кратко отметить, какую революцию Synesis One хочет принести в индустрию ИИ, указав на основные проблемы, с которыми вы столкнулись?

IB: В Synesis мы стремимся стать крупнейшей в мире сетью цифровых работников, специализирующихся в различных областях, которые помогают в любых нуждах компаний, связанных с данными ИИ. Мы уже наблюдаем рост спроса на экспертные знания для обучения ИИ (например, тонкая настройка, RLHF, сырые данные), так как ИИ используется для всё большего количества применений. Мы хотим дать возможность любой компании в любой области масштабировать свои потребности в данных ИИ, подключаясь к нашей платформе и сети цифровых экспертов по всему миру. Это не только поможет компаниям масштабироваться, но и предоставит новые возможности людям по всему миру зарабатывать деньги, предоставляя свои знания и навыки онлайн.

BCN: Как вы собираетесь ориентироваться в конкурентной среде, противопоставляющей ваше решение крупным основным компаниям по управлению данными, которые могут быть готовы сделать все возможное, чтобы защитить свои интересы?

IB: Удивительно, но существует множество проблем, которые основные фирмы не решили для своих работников. Одна из них касается платежей, так как международные платежи часто дороги и медленны. Следующая основная проблема — это отсутствие прозрачности. Это огромное преимущество для нас, так как наша система выплат не требует минимального баланса, не имеет комиссий и является мгновенной. Мы привлекли множество разочарованных цифровых работников, которые использовали крупных игроков в пространстве маркировки данных web2. По мере того, как мы привлекаем больше и больше цифровых работников разных происхождений и развиваем сеть, наши решения будут становиться все более привлекательными для потенциальных клиентов.

BCN: Помимо личных рисков, с которыми сталкивается ваша компания, предоставляя свое решение, какие присущие риски должны ожидать пользователи вашей платформы и какие у вас планы по их управлению?

IB: Один из самых больших рисков, с которыми сталкиваются наши пользователи, — это несоответствие знаний и/или навыков, необходимых для определенных кампаний. Некоторые из кампаний по данным являются техническими, и если пользователь не проявит себя хорошо, он не будет хорошо вознагражден. Все, включая репутацию пользователя, основано на точности работы, предоставленной пользователями. Некоторые задачи требуют технических навыков/знаний или имеют крутые кривые обучения. Поэтому новые пользователи на платформе должны ожидать потратить немного времени на изучение того, как выполнять некоторые кампании/задачи с данными. Мы постоянно обновляем и создаем новые обучающие и учебные материалы для новых и существующих пользователей, чтобы мы могли помочь им проявить себя лучше. Это выгодно всем, пока пользователь(или) тратят время на чтение и обучение по материалам.

Теги в этой статье