26 Kumpulan Data Terbuka Luar Biasa untuk Proyek Ilmu Data/ML Anda

Diterbitkan: 2022-08-12

Pencarian set data yang tepat bisa jadi sulit, terutama saat Anda membutuhkannya untuk proyek pembelajaran mesin (ML) dan ilmu data. Kami mengurangi upaya penelitian Anda dengan memberikan daftar akhir kumpulan data gratis.

Dataset hanyalah kumpulan data. Itu bisa berupa keuangan, kesehatan masyarakat, data pasar saham, data perbankan, data geografis, data penelitian ilmu partikel, peringkat produk di situs eCommerce, dll.

Kumpulan data berisi data yang dikumpulkan melalui standar survei ilmiah dan penting untuk visualisasi lebih lanjut, ekstraksi, peramalan, dll. Karena data setara dengan minyak mentah di dunia digital, kumpulan data menjadi komersial dan langka.

Lanjutkan membaca untuk mengetahui dasar-dasar tentang kumpulan data. Anda juga akan menemukan beberapa kumpulan data sumber terbuka yang benar-benar gratis untuk pembelajaran mesin (ML) atau proyek ilmu data Anda.

Apa Itu Dataset?

Dataset adalah kumpulan data dalam wadah yang terstruktur dan terorganisir. Biasanya, surveyor mengaitkan kumpulan data dengan badan yang unik, misalnya, Data Terbuka Bank Dunia.

Sekali lagi, pengumpul data menyimpan kumpulan data khusus untuk topik seperti Data Sensus Amerika Serikat 2020 yang diterbitkan oleh Biro Sensus Amerika Serikat.

Anda akan menemukan banyak kumpulan data tentang isu-isu global dan lokal. Sebagian besar kumpulan data berisi titik data yang saling terkait. Misalnya, populasi suatu negara dan bagaimana obesitas berhubungan dengan kelas yang berbeda dari populasi ini.

Ilmuwan data mungkin perlu membersihkan, merestrukturisasi, dan memproses kumpulan data tersebut menggunakan alat data besar untuk sampai pada kesimpulan berharga seperti mengurangi sampah plastik dengan menganalisis data penggunaan plastik, mengatasi masalah tenaga kerja dengan menganalisis data upah, melatih kecerdasan buatan (AI), dan sebagainya. pada.

Jenis Dataset

Bergantung pada sumber kumpulan data, mereka bisa bersifat publik atau pribadi. Kumpulan data publik terbuka untuk semua dan berkontribusi banyak terhadap penelitian dan pengembangan.

Sekali lagi, kumpulan data dapat berupa tipe berikut tergantung pada informasi yang terkandung di dalamnya:

  • Multivariat: Data tersebut berisi banyak variabel.
  • Kategoris: Ini menggambarkan banyak kategori orang.
  • Numerik: Kumpulan data tersebut mengukur data dalam angka seperti usia, tinggi badan, dll.
  • Korelasi: Dalam tipe ini, titik data saling terkait.
  • Berbasis File: Di sini, kumpulan data disimpan dalam file.
  • Bivariat: Kumpulan data dengan dua variabel dan hubungan di antara keduanya.
  • Web Dataset: Data yang dikumpulkan dari satu atau banyak portal internet serupa.
  • Database: Dataset tersebut menyimpan data dalam tabel, kolom, dan baris.

Kumpulan Data Sumber Terbuka untuk Proyek Ilmu Data

Kumpulan data gratis adalah bahan bakar untuk memperkuat hasrat Anda untuk karier ilmu data. Karena jika Anda berada di tahap awal karir ilmu data Anda, Anda mungkin ingin mengambil proyek pribadi dan non-komersial untuk kepercayaan diri atau pengembangan portofolio.

Pertama, Anda dapat dengan mudah menguji keterampilan yang baru dipelajari dengan menerapkan alat dan teknik pada masalah kumpulan data dunia nyata.

Misalnya, ada data penelitian kanker yang tersedia secara gratis, data Covid-19, data catatan kriminal FBI, data analisis partikel dari CERN, dll. Anda dapat menggunakan data tersebut dan membangun model ilmu data untuk menjawab masalah sosial, keuangan, dan kesehatan yang vital .

Kedua, proyek semacam itu berfungsi sebagai penambah portofolio untuk karier Anda. Jika Anda dapat membangun model analitik data yang sukses yang dapat menawarkan wawasan yang dapat ditindaklanjuti, Anda dapat menampilkan model tersebut secara online dengan membuat situs web portofolio. Pengusaha lebih memilih proyek daripada pernyataan tujuan.

Kumpulan Data Gratis untuk Proyek Pembelajaran Mesin

Seperti profesional ilmu data, profesional ML juga harus mengerjakan proyek yang dikelola sendiri untuk menguji keterampilan mereka. Jika proyek berhasil, itu juga menjadi komponen ideal untuk portofolio proyek ML online atau offline Anda.

Oleh karena itu, Anda sekarang dapat memahami bahwa ilmu data dan pertumbuhan ML bergantung pada kumpulan data terstruktur. Jika kumpulan data seperti itu terlalu dikomersialkan, penelitian dan pengembangan di bidang ilmu data akan menjadi sepenuhnya berpusat pada perusahaan.

Agar penelitian ML ilmu data tetap terbuka untuk semua, agensi, institusi, dan platform berikut menawarkan kumpulan data gratis :

Data.gov

Anda akan menemukan semua data terbuka yang dikumpulkan dan diproses oleh Pemerintah AS. di Data.gov. Platform ini juga menawarkan sumber daya dan alat untuk melakukan penelitian, mendesain visualisasi data, mengembangkan aplikasi seluler/web, dll.

Kumpulan datanya yang terkenal termasuk data penggunaan lahan berkelanjutan, data perumahan pedesaan, grafik navigasi elektronik pedalaman, dll.

Buka Dataset: Kaggle

Kaggle menawarkan lautan data publik dan kode komputer untuk proyek ilmu data. Anda dapat memilih Dataset untuk data mentah dan Kode untuk kode pemrograman. Kumpulan data yang sedang tren di Kaggle adalah data AMEX, Penayangan Simpsons, data pelatihan Chatbot, dll.

Kumpulan Data Segmen: YouTube 8-M

Kumpulan data segmen dari YouTube 8-M menawarkan anotasi segmen yang diverifikasi oleh auditor manusia. Anda juga dapat mengakses Kumpulan Data YouTube-8M dari portal yang sama. Dataset berisi 6,1 juta ID video, 350.000 jam video, 2,6 miliar fitur audio/visual, 3863 kelas video, dan rata-rata, 3,0 label per video.

Registri Data Terbuka di AWS

ROD di AWS membantu ilmuwan data berbagi dan menemukan kumpulan data yang dihosting di sumber daya AWS. Beberapa dataset menarik yang bisa Anda temukan di sini adalah The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, dll.

Gudang Pembelajaran Mesin: UCI

UCI Machine Learning Repository saat ini memelihara 622 set data yang sesuai untuk ilmuwan data dan insinyur ML untuk melatih model AI mereka. Juga, ada antarmuka yang dapat dicari untuk meneliti basis data. Atraksi populer adalah dataset Accelerometer, dataset Synchronous Machine, Wikipedia Math Essentials, dataset Turkish Headlines, dll.

Kumpulan Data Publik BigQuery: Google Cloud

Banyak set data publik disimpan di BigQuery. Google membuat kumpulan data dapat diakses secara gratis melalui Program Kumpulan Data Publik Google Cloud. Namun, kueri gratis memiliki batas 1 TB per bulan. Anda dapat melakukan SQL standar dan kueri SQL lama.

Kumpulan Data Publik yang Luar Biasa: GitHub

Kumpulan Data Publik Luar Biasa adalah kumpulan data sumber terbuka yang berisi data publik yang berpusat pada topik. Dikumpulkan dan diurutkan dari berbagai blog, jawaban, dan umpan balik pengguna, ini menggabungkan kumpulan data gratis dan berbayar tentang fisika, olahraga, perangkat lunak, bahasa alami, dan pembelajaran mesin.

Data Bank Dunia

Data Bank Dunia

Data Terbuka Bank Dunia adalah platform tempat Anda mendapatkan akses gratis ke data pembangunan global. Ini juga menawarkan sumber daya berharga lainnya seperti tabel dan laporan yang telah diformat sebelumnya. Anda dapat dengan mudah menelusuri berdasarkan negara atau indikator untuk mendapatkan kumpulan data yang diperlukan.

FiveThirtyEight: Data

FiveThirtyEight adalah situs web Amerika yang menangani analisis jajak pendapat, politik, ekonomi, dan olahraga. Anda dapat mengakses jajak pendapat dan perkiraan ini melalui kumpulan data dari platformnya. Anda dapat mengunduh kumpulan data dalam satu klik.

ImageNet

ImageNet adalah basis data gambar tempat para peneliti di seluruh dunia dapat memperoleh kumpulan data sumber terbuka untuk proyek non-komersial mereka. Di sini, gambar diatur berdasarkan hierarki WordNet. Proyek ini memainkan peran penting dalam penelitian pembelajaran mendalam tingkat lanjut.

Kumpulan Data Archives: UNICEF DATA

Dengan menggunakan Arsip Dataset, Anda dapat memperoleh kumpulan data yang dikumpulkan oleh UNICEF di seluruh dunia. Data tentang migrasi, pengungsian, diet, konektivitas, pendidikan, kesehatan, pembelajaran, kematian, kekerasan, perkembangan masa kanak-kanak, pernikahan anak, pekerja anak, dan berbagai statistik tersedia di sini.

Temukan Data Terbuka: Pemerintah. dari Inggris

Jika proyek Anda memerlukan data yang diterbitkan oleh badan lokal dan pemerintah pusat Inggris Raya, Find Open Data adalah portal yang harus Anda periksa. Ini mencakup pengeluaran pemerintah, bisnis, kesehatan, pendidikan, pertahanan, dan lebih banyak set data.

Data: Biro Sensus Amerika Serikat

Apakah Anda memerlukan data Sensus AS untuk proyek yang relevan? Anda dapat mengambil bantuan dari Data USCB. Di sini, Anda dapat menjelajahi data, tabel, peta, dan profil data sensus 2020 sambil memvisualisasikan data dan menggunakan alat data.

Data dan Statistik: CDC

Badan federal Amerika Serikat Pusat Pengendalian dan Pencegahan Penyakit juga menyediakan kumpulan data gratis kepada publik untuk mengakses data dan statistik dari portal ini. Topik kumpulan data adalah Kesehatan Lingkungan, Penyakit Kronis, Kelahiran & Natalitas, Kematian & Kematian, Harapan Hidup, Cedera & Kekerasan, Kesehatan Reproduksi, Penyakit yang Dapat Diberitahukan Nasional, dll.

Kumpulan data: MIT

Dataset ini berfokus pada data getaran yang diinduksi vortex. Pusat Teknik Kelautan di MIT menyelenggarakan beberapa kumpulan data yang tersedia untuk umum untuk pembandingan kode komputer. Dataset terbuka untuk semua untuk mengundang teori-teori baru dari data dan peneliti sinkronisasi yang bekerja di bidang yang sama.

Katalog Data Bank Dunia

Katalog Data Bank Dunia

Katalog Data mengumpulkan kumpulan data gratis yang membuat data terkait pembangunan Bank Dunia mudah diakses. Menggunakannya dalam berbagai proyek sangat mudah karena Anda dapat dengan mudah menemukan dan mengunduh informasi pilihan Anda. Ini berisi lebih dari 5000 set data yang mencakup mikrodata, keuangan, dan platform energi Bank Dunia.

Data Ilmu Luar Angkasa NASA

NASA menawarkan akses ke data arsipnya di Space Science Data Coordinated Archive. Platform ini sangat membantu masyarakat umum, terutama orang-orang yang bekerja di bidang pendidikan dan penelitian luar angkasa. Ini memiliki 400 TB data digital yang berisi informasi tentang 550 ilmu luar angkasa.

Dapatkan Data: Di Dalam Airbnb

Dapatkan Data Di Dalam Airbnb

Airbnb adalah pasar online yang terkenal secara global untuk homestay dan persewaan liburan. Ini juga menawarkan pengumpulan data di berbagai kota di seluruh dunia dari Get the Data. Anda dapat menelusuri kota untuk mendapatkan data dengan cepat. Selanjutnya, Anda dapat meminta data yang diperlukan dan membaca asumsi data di portal ini.

Data Web: Ulasan Amazon

Mereka yang tertarik dengan riset pasar dan ulasan produk harus menggunakan kumpulan data yang disediakan oleh Snap Web Data. Ini berisi lebih dari 34 juta ulasan pengguna di Amazon, dari Juni 1995 hingga Maret 2013. Dataset berisi teks biasa, informasi produk, nama pengguna, peringkat, dan ulasan.

Data IMF

data IMF

Portal Data IMF berharga untuk semua tipe data ekonomi dan keuangan. Baik Anda mencari data keuangan IMF, statistik sektor eksternal, publikasi unggulan, atau data ekonomi mikro, di sinilah Anda dapat menemukannya. Selain itu, Anda dapat menggunakan filter untuk mendapatkan data berdasarkan negara.

Ngram Google Buku

Jika Anda sedang mengerjakan bagian bicara dan bahasa, Google Books Ngrams dapat membantu Anda secara signifikan. Kumpulan data sumber terbuka ini memberi Anda gambaran tentang penggunaan kata dan frasa tertentu sepanjang riwayat atau rentang waktu tertentu. Sumber kumpulan data ini adalah dokumen digital yang diindeks oleh Google.

Data Pasar: Financial Times

Data Pasar: Financial Times

Jika Anda ingin mendapatkan data pasar saham global dan regional yang andal dan akurat, Markets Data by The Financial Times siap membantu Anda. Ini memungkinkan Anda untuk bekerja dengan data pasar dari Amerika, Asia-Pasifik, Eropa, Afrika, dan pasar global.

Data bumi: NASA

NASA menyediakan akses penuh dan terbuka ke data sainsnya melalui program Earth Data yang membantu Anda memahami planet asal kita dan melakukan proyek dengannya. Anda dapat menemukan kumpulan data gratis di atmosfer, biosfer, kriosfer, dimensi manusia, permukaan tanah, lautan, bumi padat, interaksi matahari-bumi, dan hidrosfer terestrial.

Pencarian Kumpulan Data: Google

Jika Anda seorang pelajar, peneliti, atau ilmuwan data yang mencari kumpulan data untuk mendukung proyek Anda, Anda dapat mengambil bantuan dari portal Pencarian Kumpulan Data. Anda dapat menyebutnya sebagai mesin telusur untuk kumpulan data karena memungkinkan Anda menemukan kumpulan data yang dihosting di berbagai laporan di seluruh web melalui pencarian kata kunci.

Buka Data: CERN

Organisasi penelitian Eropa CERN memiliki portal Data Terbuka yang dapat Anda gunakan untuk mengakses data yang dihasilkan penelitian di CERN. Portal kumpulan data ini berisi dua petabyte data yang terkait dengan fisika partikel. Selain itu, ia dilengkapi dengan aplikasi dan dokumentasi yang diperlukan untuk analisis data.

Penjelajah Data Kejahatan: FBI

Penjelajah Data Kejahatan FBI

Crime Data Explorer (CDE) adalah kumpulan data sumber terbuka dari FBI yang bertujuan untuk menyediakan akses yang lebih mudah ke berbagi data kriminal, non-kriminal, dan penegakan hukum. Selain memungkinkan Anda menemukan data yang diperlukan melalui visualisasi dan pemfilteran kategori, platform ini memungkinkan Anda mengunduh data dalam format CSV.

Kata-kata Terakhir

Sejauh ini, Anda telah melalui daftar kumpulan data berkualitas tinggi yang benar-benar lengkap. Artikel ini menyajikan data dari berbagai bidang seperti ilmu fisika, catatan medis, penelitian luar angkasa, catatan kriminal, peringkat produk, dll.

Bergantung pada ilmu data atau proyek pembelajaran mesin yang Anda lakukan, Anda dapat memilih. Hampir semua kumpulan data juga memiliki instruksi yang tepat untuk membantu Anda dengan proyek Anda.

Anda mungkin juga tertarik dengan sumber daya ini untuk mempelajari ilmu data dan ML.