Veri Bilimi/ML Projeleriniz için 26 Harika Açık Veri Kümesi
Yayınlanan: 2022-08-12Doğru veri kümelerini aramak, özellikle makine öğrenimi (ML) ve veri bilimi projeleri için ihtiyaç duyduğunuzda göz korkutucu olabilir. Nihai ücretsiz veri kümeleri listesini sağlayarak araştırma çabalarınızı azaltıyoruz.
Veri kümeleri basitçe veri koleksiyonlarıdır. Finans, toplum sağlığı, borsa verileri, bankacılık verileri, coğrafi veriler, parçacık bilimi araştırma verileri, bir e-ticaret sitesindeki ürünlerin derecelendirmeleri vb. olabilir.
Veri kümeleri, bilimsel bir anket standardı aracılığıyla toplanan verileri içerir ve daha fazla görselleştirme, çıkarma, tahmin vb. için önemlidir. Veriler, dijital evrendeki ham petrolün eşdeğeri olduğundan, veri kümeleri ticari ve kıt hale gelmektedir.
Veri kümeleriyle ilgili temel bilgileri öğrenmek için okumaya devam edin. Ayrıca, makine öğrenimi (ML) veya veri bilimi projeleriniz için gerçekten ücretsiz olan bazı açık kaynaklı veri kümelerini keşfedeceksiniz.
Veri Kümeleri Nedir?
Veri kümeleri, yapılandırılmış ve organize edilmiş bir kapsayıcıdaki verilerin toplanmasıdır. Genellikle, anketörler veri kümelerini benzersiz bir yapıyla, örneğin Dünya Bankası Açık Verileri ile ilişkilendirir.
Yine veri toplayıcılar, Amerika Birleşik Devletleri Sayım Bürosu tarafından yayınlanan Amerika Birleşik Devletleri 2020 Sayım Verileri gibi bir konuya özel veri kümelerini tutar.

Küresel ve yerel konularda birçok veri seti bulacaksınız. Çoğu veri kümesi birbiriyle ilişkili veri noktaları içerir. Örneğin, bir ülkenin nüfusu ve obezitenin bu nüfusun farklı sınıflarıyla ilişkisi.
Veri bilimcilerinin, plastik kullanım verilerini analiz ederek plastik atıkları azaltmak, ücret verilerini analiz ederek işgücü sorunlarını çözmek, yapay zekayı eğitmek gibi değerli sonuçlara ulaşmak için büyük veri araçlarını kullanarak bu tür veri kümelerini temizlemesi, yeniden yapılandırması ve işlemesi gerekebilir. üzerinde.
Veri Kümesi Türleri
Veri kümelerinin kaynağına bağlı olarak, genel veya özel olabilirler. Kamuya açık veri kümeleri herkese açıktır ve araştırma ve geliştirmeye büyük katkı sağlar.
Yine, veri kümeleri, içerdikleri bilgilere bağlı olarak aşağıdaki türlerde olabilir:
- Çok Değişkenli: Bu tür veriler birden çok değişken içerir.
- Kategorik: Birçok insan kategorisini tasvir eder.
- Sayısal: Bu tür veri kümeleri, verileri yaş, boy vb. sayılarla ölçer.
- Korelasyon: Bu tipte veri noktaları birbiriyle ilişkilidir.
- Dosya Tabanlı: Burada veri kümeleri dosyalarda saklanır.
- Bivariate: İki değişkenli ve aralarında bir ilişki bulunan bir veri kümesi.
- Web Veri Kümesi: Bir veya daha fazla benzer internet portalından toplanan veriler.
- Veritabanı: Bu tür veri kümeleri, verileri tablolarda, sütunlarda ve satırlarda depolar.
Veri Bilimi Projeleri için Açık Kaynak Veri Kümeleri
Ücretsiz veri setleri, veri bilimi kariyerine olan tutkunuzu güçlendirecek yakıttır. Çünkü veri bilimi kariyerinizin ilk aşamalarındaysanız, özgüven veya portföy oluşturma için kişisel ve ticari olmayan projelerde yer almak isteyebilirsiniz.

İlk olarak, gerçek dünyadaki veri kümesi problemlerine araç ve teknikler uygulayarak yeni öğrendiğiniz becerileri kolayca test edebilirsiniz.
Örneğin, ücretsiz olarak erişilebilen kanser araştırma verileri, Covid-19 verileri, FBI sabıka kayıtları verileri, CERN'den partikül analizi verileri vb. vardır. Bu tür verileri kullanabilir ve hayati sosyal, finansal ve sağlık sorunlarına yanıt vermek için bir veri bilimi modeli oluşturabilirsiniz. .
İkincisi, bu tür projeler kariyeriniz için portföy geliştiriciler olarak çalışır. Eyleme geçirilebilir içgörüler sunabilen başarılı bir veri analizi modeli oluşturabilirseniz, portföy web siteleri oluşturarak bu modelleri çevrimiçi olarak sergileyebilirsiniz. İşverenler, projeleri amaç beyanlarına tercih eder.
Makine Öğrenimi Projeleri için Ücretsiz Veri Kümeleri

Bir veri bilimi uzmanı gibi, bir makine öğrenimi uzmanı da becerilerini incelemek için kendi kendini yöneten projeler üzerinde çalışmalıdır. Proje başarılı olursa, çevrimiçi veya çevrimdışı makine öğrenimi projeleri portföyünüz için de ideal bir bileşen haline gelir.
Bu nedenle, artık veri biliminin ve makine öğrenimi büyümesinin yapılandırılmış veri kümelerine bağlı olduğunu anlayabilirsiniz. Bu tür veri kümeleri çok ticarileştirilirse, veri bilimi alanındaki araştırma ve geliştirme tamamen şirket merkezli hale gelecektir.
Veri bilimi makine öğrenimi araştırmasını herkese açık tutmak için aşağıdaki kurumlar, kurumlar ve platformlar ücretsiz veri kümeleri sunar :
veri.gov

ABD Hükümeti tarafından toplanan ve işlenen tüm açık verileri bulacaksınız. Data.gov'da. Platform ayrıca araştırma yapmak, veri görselleştirmeleri tasarlamak, mobil/web uygulamaları geliştirmek vb. için kaynaklar ve araçlar sunar.
Kayda değer veri kümeleri arasında sürdürülebilir arazi kullanım verileri, kırsal konut verileri, iç elektronik navigasyon çizelgeleri vb.
Açık Veri Kümeleri: Kaggle
Kaggle, veri bilimi projeleri için bir kamu verisi okyanusu ve bilgisayar kodları sunar. Ham veriler için Veri Kümeleri'ni ve programlama kodları için Kod'u seçebilirsiniz. Kaggle'daki trend veri kümeleri AMEX verileri, Simpsons Viewership, Chatbot eğitim verileri vb.'dir.
Segment Veri Kümeleri: YouTube 8-M

YouTube 8-M'deki segment veri kümeleri, insan denetçiler tarafından doğrulanan segment ek açıklamaları sunar. Aynı portaldan YouTube-8M Veri Kümesine de erişebilirsiniz. Veri kümesi 6,1 milyon video kimliği, 350.000 saatlik video, 2,6 milyar sesli/görsel özellik, 3863 video sınıfı ve video başına ortalama olarak 3,0 etiket içerir.
AWS'de Açık Veri Kaydı
AWS üzerinde ROD, veri bilimcilerinin AWS kaynaklarında barındırılan veri kümelerini paylaşmasına ve keşfetmesine yardımcı olur. Burada bulabileceğiniz bazı ilginç veri kümeleri, The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, vb.'dir.
Makine Öğrenimi Deposu: UCI

UCI Machine Learning Repository şu anda veri bilimcilerin ve makine öğrenimi mühendislerinin AI modellerini eğitmeleri için uygun 622 veri kümesini koruyor. Ayrıca, veritabanlarını araştırmak için aranabilir bir arayüz vardır. Popüler ilgi çekici yerler İvmeölçer veri kümesi, Senkron Makine veri kümesi, Wikipedia Math Essentials, Turkish Headlines veri kümesi vb.
BigQuery Herkese Açık Veri Kümeleri: Google Cloud

Birçok genel veri kümesi BigQuery'de depolanır. Google, Google Cloud Public Dataset Program aracılığıyla veri kümesini ücretsiz olarak erişilebilir hale getirir. Ancak ücretsiz sorgunun aylık 1 TB sınırı vardır. Standart SQL ve eski SQL sorguları gerçekleştirebilirsiniz.
Müthiş Genel Veri Kümeleri: GitHub
Müthiş Genel Veri Kümeleri, konu merkezli genel veriler içeren açık kaynaklı bir veri kümesidir. Çeşitli bloglardan, yanıtlardan ve kullanıcı geri bildirimlerinden toplanıp sıralanarak fizik, spor, yazılım, doğal dil ve makine öğrenimi ile ilgili ücretsiz ve ücretli veri kümelerini birleştirir.
Dünya Bankası Verileri

Dünya Bankası Açık Verileri, küresel kalkınma verilerine ücretsiz erişim elde ettiğiniz platformdur. Ayrıca önceden biçimlendirilmiş tablolar ve raporlar gibi diğer değerli kaynakları da sunar. Gerekli veri setini almak için ülkeye veya göstergeye göre kolayca göz atabilirsiniz.

FiveThirtyEight: Veri
FiveThirtyEight, kamuoyu yoklaması analizi, siyaset, ekonomi ve sporla ilgilenen bir Amerikan web sitesidir. Bu anketlere ve tahminlere platformundan veri setleri üzerinden ulaşabilirsiniz. Veri setlerini tek tıklamayla indirebilirsiniz.
Resim Ağı
ImageNet, dünya çapındaki araştırmacıların ticari olmayan projeleri için açık kaynaklı veri kümeleri alabilecekleri bir görüntü veritabanıdır. Burada görüntüler WordNet hiyerarşisine göre düzenlenir. Proje, ileri düzey derin öğrenme araştırmalarında hayati bir rol oynamaktadır.
Veri Kümeleri Arşivleri: UNICEF VERİLERİ
Veri Kümeleri Arşivlerini kullanarak, dünya çapında UNICEF tarafından toplanan veri kümelerine ulaşabilirsiniz. Göç, yerinden edilme, beslenme, bağlantı, eğitim, sağlık, öğrenme, ölüm, şiddet, çocukluk gelişimi, çocuk yaşta evlilik, çocuk işçiliği ve çeşitli istatistiklere ilişkin veriler burada mevcuttur.
Açık Verileri Bul: Govt. Birleşik Krallık

Projenizin yerel kurumlar ve Birleşik Krallık merkezi hükümeti tarafından yayınlanan verilere ihtiyacı varsa, Find Open Data, kontrol etmeniz gereken portaldır. Devlet harcamaları, iş, sağlık, eğitim, savunma ve daha fazla veri setini kapsar.
Veri: Amerika Birleşik Devletleri Sayım Bürosu
İlgili bir proje için ABD Nüfus Sayımı verilerine mi ihtiyacınız var? USCB Data'dan yardım alabilirsiniz. Burada verileri görselleştirirken ve veri araçlarını kullanırken 2020 nüfus sayımı verilerini, tabloları, haritaları ve veri profillerini keşfedebilirsiniz.
Veri ve İstatistikler: CDC

Amerika Birleşik Devletleri federal kurumu Hastalık Kontrol ve Önleme Merkezleri de bu portaldan verilere ve istatistiklere erişmek için halka ücretsiz veri kümeleri sağlar. Veri seti konuları Çevre Sağlığı, Kronik Hastalıklar, Doğumlar ve Doğumlar, Ölümler ve Ölümler, Beklenen Yaşam Süresi, Yaralanmalar ve Şiddet, Üreme Sağlığı, Ulusal Bildirilebilir Hastalıklar vb.'dir.
Veri kümeleri: MIT
Bu veri seti, girdap kaynaklı titreşim verilerine odaklanır. MIT'deki Okyanus Mühendisliği Merkezi, bilgisayar kodu kıyaslaması için bazı kamuya açık veri kümelerine ev sahipliği yapıyor. Veri kümeleri, verilerden yeni teorileri davet etmek ve aynı alanda çalışan araştırmacıları senkronize etmek için herkese açıktır.
Dünya Bankası Veri Kataloğu

Veri Kataloğu, Dünya Bankası'nın kalkınmayla ilgili verilerini kolayca erişilebilir hale getiren ücretsiz veri kümeleri toplar. Tercih ettiğiniz bilgileri zahmetsizce bulup indirebileceğiniz için çeşitli projelerde kullanmak çok kolaydır. Dünya Bankası'nın mikro verilerini, finans ve enerji platformlarını kapsayan 5000'den fazla veri seti içerir.
NASA Uzay Bilimi Verileri
NASA, Uzay Bilimi Veri Koordineli Arşivi üzerindeki arşiv verilerine erişim sağlar. Bu platform, genel halk için, özellikle eğitim ve uzay araştırmalarında çalışan insanlar için büyük bir yardımdır. 550 uzay bilimi hakkında bilgi içeren 400 TB dijital veriye sahiptir.
Verileri Alın: Airbnb'nin İçinde

Airbnb, aile yanında konaklama ve kiralık tatil evleri için dünyaca ünlü bir çevrimiçi pazar yeridir. Ayrıca Get the Data'dan dünya çapında çeşitli şehirlerde veri toplama olanağı sunar. Verileri hızlı bir şekilde almak için şehre göz atabilirsiniz. Ayrıca bu portal üzerinden gerekli verilerinizi talep edebilir ve veri varsayımlarını okuyabilirsiniz.
Web Verileri: Amazon İncelemeleri
Pazar araştırması ve ürün incelemeleriyle ilgilenenler, Snap Web Data tarafından sağlanan veri kümelerini kullanmalıdır. Haziran 1995'ten Mart 2013'e kadar Amazon'da 34 milyondan fazla kullanıcı incelemesi içerir. Veri kümesi düz metin, ürün bilgileri, kullanıcı adı, derecelendirmeler ve bir inceleme içerir.
IMF Verileri

IMF Veri portalı, tüm ekonomik ve finansal veri türleri için değerlidir. IMF finans verilerini, dış sektör istatistiklerini, amiral gemisi yayınlarını veya mikroekonomi verilerini arıyorsanız, bunları burada bulabilirsiniz. Ayrıca, ülke bazında verileri almak için bir filtre kullanabilirsiniz.
Google Kitaplar Ngramları
Konuşma ve dil bölümleri üzerinde çalışıyorsanız, Google Kitap Ngramları size önemli ölçüde yardımcı olabilir. Bu açık kaynaklı veri kümesi, size tarih boyunca veya belirli bir zaman aralığında belirli bir kelime ve ifadeyi kullanma hakkında bir fikir verir. Bu veri setinin kaynağı Google tarafından indekslenen dijital dokümanlardır.
Piyasa Verileri: Financial Times

Güvenilir ve doğru küresel ve bölgesel hisse piyasası verilerine sahip olmak istiyorsanız, Financial Times'ın Piyasa Verileri size yardımcı olmak için burada. Amerika, Asya-Pasifik, Avrupa, Afrika ve küresel pazardan piyasa verileriyle çalışmanıza olanak tanır.
Dünya verileri: NASA
NASA, ana gezegenimizi anlamanıza ve onunla projeler yapmanıza yardımcı olan Earth Data programı aracılığıyla bilim verilerine tam ve açık erişim sağlar. Atmosfer, biyosfer, kriyosfer, insan boyutları, kara yüzeyi, okyanus, katı dünya, güneş-dünya etkileşimi ve karasal hidrosfer hakkında ücretsiz veri setleri bulabilirsiniz.
Veri Kümesi Araması: Google

Projenizi desteklemek için veri kümeleri arayan bir öğrenci, araştırmacı veya veri bilimcisi iseniz, Veri Kümesi Arama portalından yardım alabilirsiniz. Anahtar kelime arama yoluyla web'de çeşitli raporlarda barındırılan veri kümelerini keşfetmenize izin verdiği için veri kümeleri için bir arama motoru olarak adlandırabilirsiniz.
Açık Veri: CERN
Avrupa araştırma kuruluşu CERN, CERN'de araştırmayla oluşturulan verilere erişmek için kullanabileceğiniz bir Açık Veri portalına sahiptir. Bu veri seti portalı, parçacık fiziği ile ilgili iki petabayt veri içerir. Ayrıca, veri analizi için gerekli uygulamalar ve belgelerle birlikte gelir.
Suç Veri Gezgini: FBI

Crime Data Explorer (CDE), FBI'ın cezai, suç dışı ve kanun uygulayıcı veri paylaşımına daha kolay erişim sağlamayı amaçlayan açık kaynaklı veri setidir. Bu platform, görselleştirme ve kategori filtreleme yoluyla gerekli verileri keşfetmenize olanak sağlamanın yanı sıra, verileri CSV formatında indirmenize de olanak tanır.
Son sözler
Şimdiye kadar, gerçekten kapsamlı bir yüksek kaliteli veri kümeleri listesinden geçtiniz. Makale, fizik bilimi, tıbbi kayıtlar, uzay araştırması, sabıka kayıtları, ürün derecelendirmeleri vb. gibi çeşitli alanlardan veriler sunmaktadır.
Yapmakta olduğunuz veri bilimi veya makine öğrenimi projesine bağlı olarak seçiminizi yapabilirsiniz. Hemen hemen tüm veri kümeleri, projenizde size yardımcı olacak uygun talimatlara da sahiptir.
Veri bilimi ve makine öğrenimi öğrenmek için bu kaynaklar da ilginizi çekebilir.
