為您的數據科學/機器學習項目提供 26 個很棒的開放數據集
已發表: 2022-08-12尋找正確的數據集可能會讓人望而生畏,尤其是當您需要它們用於機器學習 (ML) 和數據科學項目時。 我們通過提供免費數據集的最終列表來減少您的研究工作。
數據集只是數據的集合。 它可以是金融、社區健康、股票市場數據、銀行數據、地理數據、粒子科學研究數據、電子商務網站上的產品評級等。
數據集包含通過科學調查標準收集的數據,對於進一步的可視化、提取、預測等很重要。由於數據相當於數字世界中的原油,因此數據集正變得商業化和稀缺。
繼續閱讀以了解有關數據集的基礎知識。 您還將發現一些對您的機器學習 (ML) 或數據科學項目真正免費的開源數據集。
什麼是數據集?
數據集是結構化和有組織的容器中的數據集合。 通常,調查員將數據集與一個獨特的機構相關聯,例如世界銀行開放數據。
同樣,數據收集者保留特定於某個主題的數據集,例如美國人口普查局發布的 2020 年美國人口普查數據。

您會發現許多關於全球和本地問題的數據集。 大多數數據集包含相互關聯的數據點。 例如,一個國家的人口以及肥胖與該人口的不同類別之間的關係。
數據科學家可能需要使用大數據工具清理、重組和處理此類數據集,以得出有價值的結論,例如通過分析塑料使用數據來減少塑料浪費、通過分析工資數據來解決勞動力問題、訓練人工智能 (AI) 等等上。
數據集的類型
根據數據集的來源,它們可以是公共的或私有的。 公共數據集對所有人開放,並為研究和開發做出了很大貢獻。
同樣,數據集可以是以下類型,具體取決於其中包含的信息:
- 多變量:此類數據包含多個變量。
- 分類:它描繪了許多類別的人。
- 數字:此類數據集以年齡、身高等數字來衡量數據。
- 相關性:在這種類型中,數據點是相互關聯的。
- 基於文件:在這裡,數據集存儲在文件中。
- 雙變量:具有兩個變量以及它們之間的關係的數據集。
- 網絡數據集:從一個或多個類似的互聯網門戶收集的數據。
- 數據庫:此類數據集將數據存儲在表、列和行中。
數據科學項目的開源數據集
免費數據集是激發您對數據科學事業的熱情的燃料。 因為如果您處於數據科學職業生涯的早期階段,您可能希望承擔個人和非商業項目以建立自信或建立投資組合。

首先,您可以通過將工具和技術應用於現實世界的數據集問題來輕鬆測試您新學到的技能。
例如,有免費可用的癌症研究數據、Covid-19 數據、FBI 犯罪記錄數據、來自 CERN 的粒子分析數據等。您可以使用這些數據並構建數據科學模型來回答重要的社會、財務和健康問題.
其次,這些項目可以作為你職業生涯的投資組合增強器。 如果您可以建立一個可以提供可操作見解的成功數據分析模型,您可以通過創建投資組合網站在線展示這些模型。 與目的陳述相比,雇主更喜歡項目。
機器學習項目的免費數據集

與數據科學專業人士一樣,ML 專業人士也必須從事自我管理的項目以檢查他們的技能。 如果項目成功,它也將成為您在線或離線 ML 項目組合的理想組件。
因此,您現在可以理解數據科學和 ML 的發展依賴於結構化數據集。 如果此類數據集過於商業化,數據科學領域的研究和開發將完全以企業為中心。
為了保持數據科學機器學習研究對所有人開放,以下機構、機構和平台提供免費數據集:
數據網站

您會發現美國政府收集和處理的所有開放數據。 在 Data.gov 中。 該平台還提供資源和工具來進行研究、設計數據可視化、開發移動/網絡應用程序等。
其著名的數據集包括可持續土地利用數據、農村住房數據、內陸電子導航圖等。
開放數據集:Kaggle
Kaggle 為數據科學項目提供了大量的公共數據和計算機代碼。 您可以為原始數據選擇數據集,為編程代碼選擇代碼。 Kaggle 上的趨勢數據集是 AMEX 數據、Simpsons Viewership、Chatbot 訓練數據等。
細分數據集:YouTube 8-M

YouTube 8-M 中的分段數據集為您提供由人工審核員驗證的分段註釋。 您還可以從同一門戶訪問 YouTube-8M 數據集。 該數據集包含 610 萬個視頻 ID、35 萬小時的視頻、26 億個音頻/視頻特徵、3863 個視頻類別,平均每個視頻有 3.0 個標籤。
AWS 上的開放數據註冊表
AWS 上的 ROD 可幫助數據科學家共享和發現託管在 AWS 資源上的數據集。 您可以在此處找到一些有趣的數據集,如癌症基因組圖譜、Foldingathome COVID-19 數據集、Common Crawl 等。
機器學習存儲庫:UCI

UCI 機器學習存儲庫目前維護 622 個數據集,適合數據科學家和 ML 工程師訓練他們的 AI 模型。 此外,還有一個可搜索的界面來研究數據庫。 受歡迎的景點是加速度計數據集、同步機器數據集、維基百科數學要點、土耳其標題數據集等。
BigQuery 公共數據集:Google Cloud

許多公共數據集存儲在 BigQuery 上。 谷歌通過谷歌云公共數據集計劃免費提供數據集。 但是,免費查詢每月有 1 TB 的限制。 您可以執行標準 SQL 和舊版 SQL 查詢。
很棒的公共數據集:GitHub
Awesome Public Datasets 是一個包含以主題為中心的公共數據的開源數據集。 從各種博客、答案和用戶反饋中收集和整理,它結合了物理、體育、軟件、自然語言和機器學習方面的免費和付費數據集。
世界銀行數據

世界銀行開放數據是您免費訪問全球發展數據的平台。 它還提供其他有價值的資源,例如預先格式化的表格和報告。 您可以輕鬆地按國家或指標瀏覽以獲取所需的數據集。

FiveThirtyEight:數據
FiveThirtyEight 是一家美國網站,涉及民意調查分析、政治、經濟和體育。 您可以通過其平台上的數據集訪問這些民意調查和預測。 您可以一鍵下載數據集。
圖像網
ImageNet 是一個圖像數據庫,世界各地的研究人員可以從中獲取用於其非商業項目的開源數據集。 在這裡,圖像是根據 WordNet 層次結構組織的。 該項目在高級深度學習研究中發揮著至關重要的作用。
數據集檔案:聯合國兒童基金會數據
使用數據集檔案,您可以獲得聯合國兒童基金會在世界各地收集的數據集。 有關移民、流離失所、飲食、連通性、教育、健康、學習、死亡率、暴力、兒童發展、童婚、童工和各種統計數據的數據可在此處獲得。
查找開放數據:政府。 英國的

如果您的項目需要當地機構和英國中央政府發布的數據,Find Open Data 是您應該查看的門戶。 它涵蓋了政府支出、商業、健康、教育、國防和更多數據集。
數據:美國人口普查局
您是否需要相關項目的美國人口普查數據? 您可以從 USCB Data 獲得幫助。 在這裡,您可以在可視化數據和使用數據工具的同時探索 2020 年人口普查數據、表格、地圖和數據配置文件。
數據和統計:CDC

美國聯邦機構疾病控制和預防中心還向公眾提供免費數據集,以便從該門戶訪問數據和統計數據。 數據集主題是環境健康、慢性病、出生與出生、死亡與死亡率、預期壽命、傷害與暴力、生殖健康、國家法定傳染病等。
數據集:麻省理工學院
該數據集側重於渦激振動數據。 麻省理工學院的海洋工程中心擁有一些用於計算機代碼基準測試的公開數據集。 數據集對所有人開放,以邀請數據中的新理論並同步在同一領域工作的研究人員。
世界銀行數據目錄

數據目錄收集免費數據集,使世界銀行與發展相關的數據易於獲取。 在各種項目中使用它是輕而易舉的事,因為您可以輕鬆找到並下載您喜歡的信息。 它包含超過 5000 個數據集,涵蓋世界銀行的微觀數據、金融和能源平台。
美國宇航局空間科學數據
NASA 提供對其在 Space Science Data Coordinated Archive 上的檔案數據的訪問。 這個平台對廣大公眾,尤其是從事教育和空間研究工作的人來說,是一個很大的幫助。 它擁有 400 TB 的數字數據,其中包含有關 550 項空間科學的信息。
獲取數據:在 Airbnb 內部

Airbnb 是全球知名的寄宿家庭和度假租賃在線市場。 它還提供來自 Get the Data 的全球各個城市的數據收集。 您可以瀏覽整個城市以快速獲取數據。 此外,您可以在此門戶上請求您所需的數據並閱讀數據假設。
網絡數據:亞馬遜評論
那些對市場研究和產品評論感興趣的人應該使用 Snap Web Data 提供的數據集。 從 1995 年 6 月到 2013 年 3 月,它包含亞馬遜上超過 3400 萬條用戶評論。數據集包含純文本、產品信息、用戶名、評分和評論。
國際貨幣基金組織數據

IMF 數據門戶對所有經濟和金融數據類型都很有價值。 無論您是在搜索 IMF 財務數據、外部部門統計數據、旗艦出版物還是微觀經濟學數據,您都可以在這裡找到它們。 此外,您可以使用過濾器來獲取國家數據。
谷歌圖書 Ngram
如果您正在研究詞類和語言,Google Books Ngrams 可以為您提供極大的幫助。 這個開源數據集讓您了解在整個歷史或特定時間範圍內使用特定單詞和短語。 該數據集的來源是谷歌索引的數字文檔。
市場數據:金融時報

如果您想獲得可靠且準確的全球和區域股票市場數據,《金融時報》的 Markets Data 可為您提供幫助。 它使您能夠處理來自美洲、亞太地區、歐洲、非洲和全球市場的市場數據。
地球數據:NASA
NASA 通過地球數據計劃提供對其科學數據的全面開放訪問,幫助您了解我們的家園星球並利用它開展項目。 您可以找到有關大氣、生物圈、冰凍圈、人體維度、地表、海洋、固體地球、日地相互作用和陸地水圈的免費數據集。
數據集搜索:谷歌

如果您是正在尋找數據集來支持您的項目的學生、研究人員或數據科學家,您可以從數據集搜索門戶獲得幫助。 您可以將其稱為數據集搜索引擎,因為它可以讓您通過關鍵字搜索發現託管在網絡上各種報告中的數據集。
開放數據:歐洲核子研究中心
歐洲研究組織 CERN 有一個開放數據門戶,您可以使用該門戶訪問 CERN 的研究生成數據。 該數據集門戶包含 2 PB 與粒子物理學相關的數據。 此外,它還附帶數據分析所需的應用程序和文檔。
犯罪數據探索者:FBI

犯罪數據瀏覽器 (CDE) 是 FBI 的開源數據集,旨在提供對犯罪、非犯罪和執法數據共享的更輕鬆訪問。 除了允許您通過可視化和類別過濾發現必要的數據外,該平台還允許您以 CSV 格式下載數據。
最後的話
到目前為止,您已經瀏覽了一份真正詳盡的高質量數據集列表。 本文介紹了來自各種領域的數據,如物理科學、醫療記錄、空間研究、犯罪記錄、產品評級等。
根據您所從事的數據科學或機器學習項目,您可以自行選擇。 幾乎所有的數據集都有適當的說明來幫助您完成項目。
您可能還對這些資源感興趣,以學習數據科學和機器學習。
