Interview게시일:2024년 11월 23일 오전 5:46

기술자: 분산형 데이터 크라우드소싱은 대형 기술 기업의 지배력에 대응하는 핵심이다

이 기사는 1년 이상 전에 게시되었습니다. 일부 정보는 최신이 아닐 수 있습니다.

한 기술 기업 CEO, 분산형 데이터 크라우드소싱으로 AI “민주화” 제안

작성자

Alan Inman

게시일: 2024년 11월 23일 오전 5:46

<span class="technologist">기술자:</span> <span class="decentralized">분산형 데이터 크라우드소싱</span>은 대형 기술 기업의 지배력에 대응하는 핵심이다

분산형 데이터 크라우드소싱: 편향 없는 AI로 가는 길

시네시스 원의 기술 전문가이자 CEO인 아이작 방(Isaac Bang)은 몇몇 기술 거물이 데이터를 독점하고 인공지능(AI) 경쟁을 주도하는 “매우 위험한” 시나리오를 경고합니다. 그는 AI 권력의 “민주화”를 주장하며, AI 경주의 궁극적인 “승자”가 산업 거인이 되지 않도록 해야 한다고 강조합니다.

방(Bang)에 따르면 해결책의 일부는 대규모 데이터 중심의 업체에 의존하는 대신 분산형 데이터 크라우드소싱을 우선시하는 데 있습니다. 방은 Bitcoin.com News에 보낸 서면 답변에서 분산형 데이터 크라우드소싱을 통해 기업이 내부 데이터 과학자를 활용하지 않고도 작업을 수행할 수 있다고 설명합니다. 대신, 데이터 분석 작업을 위한 일반 디지털 작업자 또는 전문가 그룹에 “작업을 제안”할 수 있습니다.

방은 이 모델이 내부 자원이 부족하지만 확장이 필요한 기업들에게 이상적이라고 믿습니다. 상업적 이점 외에도 분산형 데이터 크라우드소싱은 중앙 집중식 기술 거물들이 직면한 데이터 편향 문제를 해결하는 데 도움을 줍니다.

정부가 분산형 데이터 관리에 대한 공공 안전 문제를 표명하는 동안에도 방은 광범위한 규제 조치가 혁신을 저해할 수 있다고 경고합니다. 대신, 그는 규제 당국과 입법자들에게 정책을 제정하기 전에 “분산형 데이터 소싱이 어떻게 활용될 수 있는지” 연구할 것을 촉구합니다.

방의 추가 답변은 AI 산업 내 경쟁과 AI 사용과 관련된 내재적 위험에 대해 다룹니다. 아래는 시네시스 원의 CEO가 보낸 질문에 대한 대답입니다.

Bitcoin.com News (BCN): AI 시장 규모는 2024년 말까지 1,840억 달러에 이를 것으로 예상됩니다. 그리고 AI 산업은 모두 데이터에 관한 것입니다. 모든 것이 데이터를 획득하고, 훈련하고, 사용하는 방법에 달려 있습니다. 이 상황은 대규모 데이터 중심회사가 지속적으로 데이터를 무료로 수집하면서 유리한 위치에 서게 했습니다. 데이터 생태계를 소수의 대형 기술 회사가 지배하는 것에 대한 생각은 무엇입니까?

아이작 방 (IB): AI는 네 번째 산업 혁명을 이끄는 핵심 기술이며, 그 영향은 현재 상상할 수 있는 것보다 훨씬 넓습니다. 소수의 주요 플레이어가 데이터를 독점하고 AI 경주를 주도하는 것은 여러 면에서 매우 위험합니다. AI 기술은 기업들이 더 생산적이 되고 이익을 극대화하도록 함과 동시에, 정부가 군사 능력을 물리적, 디지털적으로 향상할 수 있도록 합니다. AI 경주의 “승자”는 강력한 존재가 될 것이며, 모든 사람들을 위한 AI 권력의 민주화를 지금 행동에 옮기는 것이 중요합니다.

BCN: 생중계된 데이터 크라우드소싱이란 무엇이며, 전통적인 데이터 수집 방법과 어떻게 다릅니까?

IB: 전통적으로 기업들은 제품이나 서비스를 사용하는 사용자나 고객으로부터 데이터를 수집합니다. AI를 위한 데이터를 활용하기 위해, 기업들은 데이터 과학자와 기타 전문가들을 고용하여 데이터를 정제하고 주석을 붙입니다. 전통적인 데이터 수집 및 준비 방법은 많은 사용자와 자금을 보유한 대기업에게는 효율적입니다. 그러나 중소기업은 데이터 확장이 쉽지 않습니다.

분산형 데이터 크라우드소싱은 데이터를 제공할 의향과 능력이 있는 디지털 작업자들로 구성된 대규모 네트워크를 통해 원시 데이터나 데이터 전처리를 소싱하는 것입니다. 기업이나 개발자는 사용자가나 내부 데이터 과학자 없이 일반 디지털 작업자나 전문가 그룹에 데이터를 요청하여 데이터 작업을 수행할 수 있습니다. 이를 통해 기업은 거대한 시간과 돈을 들여 내부 인력을 고용하지 않고도 확장할 수 있습니다.

BCN: AI가 어려움을 겪는 작업에서 인간의 지능이 데이터 크라우드소싱에서 어떤 역할을 하는지 설명해 주시겠습니까?

IB: 인간은 논리적 추론을 수행할 수 있는 능력을 가지고 있습니다. 오늘날 기계 학습을 사용하는 AI는 논리적 추론 없이 통계적 계산을 통해 패턴을 인식합니다. AI 모델이 개선됨에 따라 더 높은 품질의 데이터와 특정 도메인 데이터의 필요성이 점점 더 중요해지고 있습니다. 예를 들어, 일반적인 LLM은 의료 환경에서 사용하기 적합하지 않습니다. LLM을 특정 의학 분야에 맞춰 조정하려면 해당 분야의 전문가가 필요할 것입니다. 이 개념은 일반 LLM뿐만 아니라 더 구체적인 사용 사례를 가진 다른 AI 애플리케이션에도 적용됩니다.

BCN: 데이터 크라우드소싱이 데이터 편향 문제를 해결하고 더 다양하고 대표적인 데이터셋을 보장하는 데 어떻게 도움을 줄 수 있습니까?

IB: 간단합니다 – 데이터 공급자와 데이터 주석자가 다양하면 다양할수록 데이터는 더 다양하고 대표적이게 됩니다. 분산형 크라우드소싱 네트워크에서는 원시 데이터 제공자 및/또는 데이터 주석자가 하나의 플랫폼, 회사, 네트워크, 또는 그룹에서 오지 않습니다. 이는 중앙 집중식 회사가 직면할 수 있는 데이터 편향을 줄입니다.

BCN: AI와 같은 신기술의 경계를 확장하는 데이터 크라우드소싱의 혁신적인 응용 사례에는 어떤 것들이 있습니까?

IB: 가장 실용적인 사용 사례 중 하나는 자연어 분야입니다. 오늘날 기업들은 글로벌로 활동하고 있으며, 이는 그들이 서비스를 제공하는 모든 시장의 언어에 동일한 품질의 서비스와 제품을 제공할 수 있어야 합니다. 그러나, 오늘날 최고의 성능을 내는 LLM의 대부분은 주로 영어 기반입니다. 우리는 기업들이 다양한 언어와 방언에 대해 AI 필요성뿐만 아니라 제품의 현지화를 위해 크라우드소싱에 의존하는 것을 목격했습니다.

BCN: 많은 전문가들은 분산형 데이터 소싱이 가야 할 길이라고 믿는 반면, 규제자와 대형 플레이어들은 그렇지 않다고 생각합니다. 분산형 데이터 관리에 대한 규제 우려 중 하나는 감독과 감시 기능이며, 대기업들의 우려는 수익을 둘러싼 것입니다. 혁신을 지원하면서도 공공 안전과 보안을 보장하기 위한 데이터 중심 규제에 대한 입법자들의 접근 방안은 무엇입니까?

IB: 모든 데이터 거래가 온체인에 기록되는 한, 투명성은 모든 감독 및 감시 관련 문제를 해결하기에 충분해야 합니다. 규제 당국이 정말로 공공 안전과 보안을 우려한다면, 중앙 집중식 기관이 데이터 관리 및 사용에 대해 더 많은 규제를 해야 합니다. 결론에 단정짓기보다는, 입법자들은 먼저 분산형 데이터 소싱이 어떻게 활용되고 있는지를 배워야 합니다. 악의적 의도나 사용이 있을 경우, 혁신을 해치는 포괄적 규제를 발행하는 대신 개입해야 합니다.

기술 전문가: 분산형 데이터 크라우드소싱은 빅 테크의 지배에 맞설 핵심 — 시네시스 원 CEO 아이작 방

BCN: 잠재적인 국가 안보 위험, 예를 들어 악의적 활동을 위한 플랫폼의 악용에 대한 우려를 어떻게 해결하십니까?

IB: 현재로서는 플랫폼의 잘못된 사용 사례를 목격하지 않았습니다. 국가 안보 수준에서 악용으로 인해 발생할 수 있는 실질적인 위험을 파악하기 어렵습니다. 데이터 저장 수준에서 시네시스는 분산형 저장 솔루션(예: IPFS, Arweave)과 중앙 집중식 솔루션(예: AWS) 모두와 협력할 수 있으며, 이는 클라이언트의 선택에 달려 있습니다. 데이터 주석 수준에서는 모두가 동료 검토를 거치고 있으며, 심지어 동료 검토도 고객이 최적화할 수 있어 악의적 행위를 방지할 수 있습니다.

BCN: 대부분의 빅 테크 플레이어는 분산형 데이터 소싱의 잠재력을 검토할 때 그들의 이익을 고려합니다. 그럼에도 불구하고, 당신의 블록체인 솔루션인 시네시스 원은 시스템을 재정의하고자 합니다. AI 산업에 가져오고자 하는 혁신의 종류를 간단히 설명해주실 수 있습니까? 주된 도전 과제는 무엇이었나요?

IB: 시네시스에서 우리는 회사의 AI 데이터 필요를 돕는 전문가 및 도메인 특정 전문가의 세계 최대 디지털 작업자 네트워크가 되는 것을 목표로 합니다. AI가 점점 더 많은 용도로 사용됨에 따라 AI 훈련에 대한 전문가 수준의 지식에 대한 수요가 증가하고 있음을 이미 보고 있습니다(예: 파인 튜닝, RLHF, 원시 데이터). 우리는 모든 크기의 회사가 우리의 플랫폼과 전 세계 전문가 네트워크를 활용하여 AI 데이터 요구를 확장할 수 있도록 하고 싶습니다. 이것은 회사가 확장하는 데 도움을 줄 뿐만 아니라 전 세계 사람들에게 온라인에서 그들의 지식과 기술을 제공함으로써 돈을 벌 수 있는 새로운 기회를 제공합니다.

BCN: 대형 주류 데이터 관리 회사들이 그들의 이익을 보호하기 위해 모든 노력을 기울일 준비가 되어 있는 경쟁 환경에서 해결책을 어떻게 헤쳐 나갈 계획입니까?

IB: 놀랍게도, 주류 회사들이 그들의 작업자들을 위해 해결하지 못한 많은 문제점들이 있습니다. 하나는 지불 문제로, 국경 간 지불은 종종 비싸고 느립니다. 다른 주요 문제는 투명성의 부족입니다. 우리의 지불 시스템은 최소 잔액 요구 사항이 없으며, 수수료도 없고, 즉시 처리돼 이것이 큰 장점입니다. 우리는 웹2 데이터 라벨링 공간에서 대형 플레이어를 사용한 경험이 있는 많은 좌절한 디지털 작업자들을 우리에게 소개했습니다. 더 많은 배경의 디지털 작업자를 확보하고 네트워크를 확장함에 따라 우리의 솔루션은 잠재 고객에게 더욱 매력적으로 다가갈 것입니다.

BCN: 솔루션을 제공하는 데 있어 귀사가 직면한 개인적 위험을 넘어, 플랫폼 사용자가 예상하는 내재적 위험은 무엇이며, 이를 관리하기 위해 어떤 계획을 가지고 있습니까?

IB: 사용자들이 직면할 수 있는 주요 위험 중 하나는 특정 캠페인에 필요한 지식 및/또는 기술의 불일치입니다. 일부 데이터 캠페인은 기술적이며, 사용자가 잘 수행하지 못하면 적절한 보상을 받지 못할 것입니다. 사용자의 평판을 포함하여 모든 것은 사용자가 제공한 작업의 정확성을 기반으로 합니다. 일부 작업에는 기술적인 기술/지식이 필요하거나 높은 학습 곡선이 있을 수 있습니다. 따라서 플랫폼의 새로운 사용자는 캠페인/데이터 작업을 배우는 데 시간을 할애할 필요가 있음을 예상해야 합니다. 우리는 지속적으로 새로 사용자와 기존 사용자를 대상으로 교육과 훈련 자료를 업데이트하고 제공하여 더 나은 성과를 낼 수 있도록 가이드를 제공하고 있습니다. 이는 사용자가 자료를 읽고 학습하도록 시간을 할애하는 한 모두에게 이익이 됩니다.