Didukung oleh
Interview

Teknolog: Penggalangan Data Terdesentralisasi Adalah Kunci untuk Melawan Dominasi Big Tech

Artikel ini diterbitkan lebih dari setahun yang lalu. Beberapa informasi mungkin sudah tidak terkini.

Seorang CEO teknologi mengusulkan “demokratisasi” AI dengan menggunakan crowdsourcing data terdesentralisasi.

DITULIS OLEH
BAGIKAN
Teknolog: Penggalangan Data Terdesentralisasi Adalah Kunci untuk Melawan Dominasi Big Tech

Crowdsourcing Data Terdesentralisasi: Jalur Menuju AI Bebas Bias

Ahli teknologi dan CEO Synesis One, Isaac Bang, memperingatkan terhadap skenario “sangat berbahaya” dimana beberapa raksasa teknologi menyimpan data dan memimpin perlombaan kecerdasan buatan (AI). Dia berargumen untuk “demokratisasi” kekuatan AI, memastikan agar “pemenang” dari perlombaan AI yang sedang berlangsung ini tidak menjadi raksasa industri.

Menurut Bang, bagian dari solusinya terletak pada memprioritaskan crowdsourcing data terdesentralisasi dibandingkan bergantung pada perusahaan yang berfokus pada data besar. Seperti yang dijelaskan Bang dalam tanggapan tertulisnya kepada Bitcoin.com News, crowdsourcing data terdesentralisasi memungkinkan perusahaan menghindari penggunaan ilmuwan data internal. Sebaliknya, mereka dapat “menyodorkan pekerjaan” kepada kumpulan umum pekerja digital atau spesialis untuk tugas analisis data.

Model ini, menurut Bang, ideal untuk perusahaan yang ingin meningkatkan skala tetapi tidak memiliki sumber daya internal. Selain keuntungan komersial, crowdsourcing data terdesentralisasi juga membantu mengatasi tantangan bias data yang dihadapi oleh raksasa teknologi terpusat.

Meski pemerintah menyatakan kekhawatiran tentang keselamatan publik terkait pengelolaan data terdesentralisasi, Bang tetap memperingatkan terhadap regulasi luas yang dapat menghambat inovasi. Sebaliknya, dia mendesak regulator dan pembuat undang-undang untuk mempelajari bagaimana “sumber data terdesentralisasi dapat dan sedang dimanfaatkan” sebelum menetapkan kebijakan.

Tanggapan tambahan Bang membahas persaingan dalam industri AI dan risiko inheren yang terkait dengan penggunaan AI. Di bawah ini adalah jawaban CEO Synesis One untuk pertanyaan yang diajukan.

Bitcoin.com News (BCN): Ukuran pasar AI diproyeksikan mencapai $184 miliar pada akhir 2024, dan industri AI semuanya tentang data. Semuanya berputar di sekitar bagaimana memperoleh, melatih, dan menggunakan data. Situasi ini memberikan keuntungan bagi perusahaan besar yang berfokus pada data, mengingat volume data yang terus mereka kumpulkan selama bertahun-tahun dengan biaya hampir nol. Apa pendapat Anda tentang beberapa perusahaan teknologi besar yang mendominasi ekosistem data, yang tampaknya memberikan mereka langkah awal dalam perlombaan AI?

Isaac Bang (IB): AI adalah teknologi utama yang membawa revolusi industri keempat, dan dampaknya jauh lebih luas daripada yang kita bayangkan saat ini. Beberapa pemain dominan yang menyimpan data dan memimpin perlombaan AI sangat berbahaya dalam banyak hal. Tidak hanya teknologi AI memungkinkan bisnis menjadi lebih produktif dan memaksimalkan garis keuntungan mereka, tetapi juga memungkinkan pemerintah meningkatkan kemampuan militernya baik secara fisik maupun digital. “Pemenang” dari perlombaan AI akan menjadi kekuatan dominan, dan penting untuk kita bertindak sekarang untuk mendemokratisasi kekuatan AI untuk kebaikan semua.

BCN: Apa itu crowdsourcing data terdesentralisasi, dan bagaimana bedanya dengan metode pengumpulan data tradisional?

IB: Secara tradisional, perusahaan mengumpulkan data dari penggunanya/konsumen dengan menggunakan produk atau layanan yang disediakan. Untuk memanfaatkan data yang dikumpulkan untuk AI, perusahaan mempekerjakan ilmuwan data dan spesialis lainnya untuk membersihkan dan memberi anotasi pada data. Metode tradisional untuk mengumpulkan dan menyiapkan data efisien untuk perusahaan besar dengan banyak pengguna dan banyak uang. Namun, untuk perusahaan kecil dan menengah, meningkatkan kebutuhan datanya akan sulit.

Crowdsourcing data terdesentralisasi adalah mendapatkan data mentah atau prapemrosesan data melalui jaringan besar pekerja digital yang bersedia dan mampu menyediakan data atau pekerjaan prapemrosesan. Perusahaan atau pengembang dapat, tanpa harus menghadirkan pengguna atau ilmuwan data internal, menetapkan hadiah untuk tugas data dari kumpulan umum pekerja digital atau spesialis untuk melakukan pekerjaan data. Ini memungkinkan perusahaan untuk berkembang tanpa perlu menghabiskan banyak uang dan waktu untuk merekrut staf internal.

BCN: Bisakah Anda menjelaskan peran kecerdasan manusia dalam crowdsourcing data, terutama dalam tugas-tugas yang sulit dilakukan AI?

IB: Manusia memiliki kemampuan untuk melakukan penalaran logis. AI menggunakan pembelajaran mesin saat ini menggunakan perhitungan statistik untuk mengenali pola, tanpa penalaran logis. Seiring meningkatnya model AI, kebutuhan akan data berkualitas tinggi dan data spesifik domain menjadi semakin berharga. Misalnya, LLM umum tidak cocok untuk digunakan dalam pengaturan medis. LLM dapat disesuaikan untuk bidang kedokteran tertentu, tetapi melakukannya akan membutuhkan manusia dengan pengetahuan ahli dalam bidang tersebut. Konsep ini tidak hanya berlaku untuk LLM umum, tetapi juga aplikasi AI lainnya dengan penggunaan yang lebih spesifik.

BCN: Bagaimana crowdsourcing data dapat membantu mengatasi tantangan bias data dan memastikan dataset yang lebih beragam dan representatif?

IB: Sederhana – semakin beragam sumber data dan anotator data, semakin beragam dan representatif datanya. Dalam jaringan crowdsourcing terdesentralisasi, penyedia data mentah dan/atau anotator data tidak berasal dari satu platform, perusahaan, jaringan, atau grup. Ini mengurangi bias data yang mungkin dihadapi perusahaan terpusat.

BCN: Apa saja aplikasi inovatif dari crowdsourcing data yang mendorong batasan dari apa yang mungkin, terutama dengan teknologi yang sedang berkembang seperti AI?

IB: Salah satu penggunaan yang paling praktis adalah dalam ranah bahasa alami. Bisnis saat ini bersifat global, dan ini mengharuskan perusahaan untuk mahir dalam menyediakan kualitas layanan dan produk yang sama dalam semua bahasa dari pasar yang mereka layani. Namun, sebagian besar LLM berkinerja terbaik saat ini terutama berbasis bahasa Inggris. Kami telah melihat perusahaan mengandalkan crowdsourcing untuk berbagai bahasa dan dialek, tidak hanya untuk kebutuhan AI, seperti lokalisasi produk mereka.

BCN: Sementara banyak ahli percaya bahwa sumber data terdesentralisasi adalah jalan yang harus ditempuh, regulator dan pemain besar berpikir sebaliknya. Diduga, salah satu alasan kekhawatiran regulasi terhadap pengelolaan data terdesentralisasi adalah fungsi pengawasan dan supervisi, sedangkan bagi perusahaan besar, kekhawatiran mereka berkisar pada pendapatan. Menurut Anda, bagaimana pembuat undang-undang harus mendekati regulasi yang berfokus pada data untuk mendukung inovasi sambil memastikan keselamatan dan keamanan publik?

IB: Selama semua transaksi data dicatat secara onchain, transparansi seharusnya cukup untuk menjawab kekhawatiran pengawasan dan supervisi. Jika regulator benar-benar khawatir tentang keselamatan dan keamanan publik, seharusnya ada lebih banyak regulasi untuk pengelolaan dan penggunaan data entitas terpusat. Daripada mengambil kesimpulan dengan ketakutan, pembuat undang-undang harus terlebih dahulu mempelajari tentang cara sumber data terdesentralisasi dapat dan sedang dimanfaatkan. Jika ada niat atau penggunaan yang jahat, maka mereka harus campur tangan, alih-alih mengeluarkan regulasi umum yang merugikan inovasi.

Teknolog: Crowdsourcing Data Terdesentralisasi Kunci untuk Menghadang Dominasi Big Tech
CEO Synesis One, Isaac Bang

BCN: Bagaimana Anda menangani kekhawatiran tentang potensi risiko keamanan nasional, seperti penyalahgunaan platform Anda untuk kegiatan berbahaya?

IB: Saat ini, kami belum menyaksikan penyalahgunaan platform. Sulit untuk benar-benar melihat potensi risiko yang bisa berdampak pada tingkat keamanan nasional. Pada tingkat penyimpanan data, Synesis dapat bekerja dengan solusi penyimpanan terdistribusi (misalnya IPFS, Arweave) dan solusi terpusat (misalnya AWS), jadi itu tergantung pada klien. Pada tingkat anotasi data, semua orang melalui ulasan sebaya dan bahkan ulasan sebaya dapat dioptimalkan secara spesifik oleh klien untuk mencegah perilaku jahat.

BCN: Sebagian besar pemain Big Tech mempertimbangkan keuntungan mereka ketika meninjau potensi sumber data terdesentralisasi. Namun, solusi blockchain Anda, Synesis One, berupaya mendefinisi ulang sistem. Bisakah Anda secara singkat menyoroti jenis revolusi yang ingin dibawa Synesis One ke industri AI, mencatat tantangan utama yang Anda hadapi?

IB: Di Synesis, kami bertujuan menjadi jaringan pekerja digital spesialis terbesar di dunia dan pakar domain khusus yang membantu kebutuhan data AI dari perusahaan. Kami sudah melihat peningkatan permintaan untuk pengetahuan tingkat ahli untuk pelatihan AI (misalnya penyetelan halus, RLHF, data mentah) karena AI digunakan untuk semakin banyak kasus penggunaan. Kami ingin memungkinkan perusahaan dalam ukuran apapun di domain apapun untuk dapat meningkatkan kebutuhan data AI mereka dengan memanfaatkan platform kami dan jaringan pakar digital kami di seluruh dunia. Ini tidak hanya akan membantu perusahaan untuk berkembang, tetapi juga membawa peluang baru bagi orang-orang di seluruh dunia untuk mendapatkan uang dengan menyediakan pengetahuan dan keahlian mereka secara online.

BCN: Bagaimana Anda berniat menavigasi lingkungan kompetitif yang menempatkan solusi Anda melawan perusahaan manajemen data mainstream yang mungkin siap melakukan apa pun untuk melindungi kepentingan mereka?

IB: Anehnya, ada banyak masalah yang belum dipecahkan oleh perusahaan mainstream untuk pekerja mereka. Salah satunya adalah terkait pembayaran, karena pembayaran lintas batas sering mahal dan lambat. Masalah utama lainnya adalah kurangnya transparansi. Ini adalah keuntungan besar bagi kami karena sistem pembayaran kami tidak memerlukan saldo minimum, tidak memiliki biaya, dan instan. Kami telah merekrut banyak pekerja digital yang frustrasi yang telah menggunakan pemain besar di ruang pelabelan data web2. Saat kami membawa lebih banyak pekerja digital dari berbagai latar belakang dan membangun jaringan kami, solusi kami akan menjadi semakin menarik bagi klien potensial.

BCN: Selain risiko pribadi yang dihadapi perusahaan Anda dalam menyediakan solusinya, apa risiko inheren yang dihadapi pengguna platform Anda dan apa rencana Anda untuk mengelolanya?

IB: Salah satu risiko terbesar yang dihadapi pengguna kami adalah ketidakcocokan pengetahuan dan/atau keterampilan yang dibutuhkan untuk kampanye tertentu. Beberapa kampanye data bersifat teknis, dan jika pengguna tidak berkinerja baik, pengguna tidak akan mendapatkan imbalan yang baik. Semua, termasuk reputasi pengguna, didasarkan pada akurasi pekerjaan yang diberikan oleh pengguna. Beberapa tugas memerlukan keterampilan/pengetahuan teknis, atau memiliki kurva pembelajaran yang curam. Jadi setiap pengguna baru di platform diharapkan menghabiskan waktu untuk belajar cara melakukan beberapa kampanye/tugas data. Kami terus memperbarui dan membuat materi pendidikan dan pelatihan baru untuk pengguna baru dan yang sudah ada sehingga kami dapat membimbing mereka untuk berkinerja lebih baik. Ini menguntungkan semua orang, selama pengguna menghabiskan waktu membaca dan belajar dari materi tersebut.

Tag dalam cerita ini