データ サイエンス/ML プロジェクト向けの 26 の素晴らしいオープン データセット

公開: 2022-08-12

機械学習 (ML) やデータ サイエンス プロジェクトで必要な場合は特に、適切なデータセットを探すのは大変なことです。 無料のデータセットの究極のリストを提供することで、研究の労力を軽減します。

データセットは単なるデータの集まりです。 金融、コミュニティの健康、株式市場のデータ、銀行のデータ、地理的なデータ、粒子科学の研究データ、e コマース サイトでの製品の評価などです。

データセットには、科学的調査標準を通じて収集されたデータが含まれており、さらなる視覚化、抽出、予測などに重要です。データはデジタル ユニバースにおける原油に相当するため、データセットは商用化され、不足しています。

読み続けて、データセットの基本を理解してください。 また、機械学習 (ML) やデータ サイエンス プロジェクト向けの完全に無料のオープン ソース データセットもいくつか見つかります。

データセットとは

データセットは、構造化および整理されたコンテナー内のデータのコレクションです。 通常、調査員はデータセットを世界銀行オープン データなどの固有の本体に関連付けます。

繰り返しますが、データ コレクターは、米国国勢調査局が発行したアメリカ合衆国の 2020 年国勢調査データのようなトピックに固有のデータセットを保持しています。

グローバルおよびローカルの問題に関する多くのデータセットが見つかります。 ほとんどのデータセットには、相互に関連するデータ ポイントが含まれています。 たとえば、ある国の人口と、肥満がこの人口のさまざまなクラスにどのように関連しているかなどです。

データ サイエンティストは、プラスチック使用データの分析によるプラスチック廃棄物の削減、賃金データの分析による労働力の問題の改善、人工知能 (AI) のトレーニングなどの貴重な結論に到達するために、ビッグ データ ツールを使用してそのようなデータセットをクリーニング、再構築、および処理する必要がある場合があります。の上。

データセットの種類

データセットのソースに応じて、公開または非公開にすることができます。 公開データセットはすべての人に公開されており、研究と開発に大きく貢献しています。

繰り返しますが、データセットは、含まれる情報に応じて次のタイプになります。

  • 多変量:このようなデータには複数の変数が含まれます。
  • カテゴリー:さまざまなカテゴリーの人々を描写します。
  • 数値:このようなデータセットは、年齢、身長などの数値でデータを測定します。
  • 相関:このタイプでは、データ ポイントが相互に関連しています。
  • ファイルベース:ここでは、データセットはファイルに保存されます。
  • 二変量: 2 つの変数とそれらの間の関係を含むデータセット。
  • Web データセット: 1 つまたは多数の同様のインターネット ポータルから収集されたデータ。
  • データベース:このようなデータセットは、テーブル、列、および行にデータを格納します。

データ サイエンス プロジェクト用のオープン ソース データセット

無料のデータ セットは、データ サイエンスのキャリアへの情熱を後押しする原動力となります。 データ サイエンスのキャリアの初期段階にある場合は、自信やポートフォリオ構築のために、個人的かつ非営利的なプロジェクトに取り組みたいと思うかもしれません。

まず、ツールとテクニックを実際のデータセットの問題に適用することで、新しく学んだスキルを簡単にテストできます。

たとえば、癌研究データ、Covid-19 データ、FBI 犯罪記録データ、CERN からの粒子分析データなど、自由に利用できるデータがあります。これらのデータを使用してデータ サイエンス モデルを構築し、重要な社会的、財政的、および健康上の問題に答えることができます。 .

第二に、そのようなプロジェクトはあなたのキャリアのポートフォリオエンハンサーとして機能します。 実用的な洞察を提供できる優れたデータ分析モデルを構築できる場合は、ポートフォリオ Web サイトを作成して、それらのモデルをオンラインで紹介できます。 雇用主は、目的の表明よりもプロジェクトを好みます。

機械学習プロジェクト用の無料データセット

データ サイエンスの専門家と同様に、ML の専門家も自己管理プロジェクトに取り組み、自分のスキルを検証する必要があります。 プロジェクトが成功すれば、ML プロジェクトのオンラインまたはオフライン ポートフォリオの理想的なコンポーネントにもなります。

したがって、データ サイエンスと ML の成長が構造化されたデータセットに依存していることを理解できるようになりました。 このようなデータセットが商業化されすぎると、データサイエンス分野の研究開発は完全に企業中心になってしまいます。

データ サイエンス ML 研究をすべての人に公開し続けるために、次の機関、機関、およびプラットフォームが無料のデータ セットを提供しています。

データ政府

米国政府によって収集および処理されたすべての公開データを見つけることができます。 Data.gov で。 このプラットフォームは、調査の実施、データの視覚化の設計、モバイル/Web アプリの開発などのためのリソースとツールも提供します。

その注目すべきデータセットには、持続可能な土地利用データ、地方の住宅データ、内陸の電子ナビゲーション チャートなどが含まれます。

オープン データセット: Kaggle

Kaggle は、データ サイエンス プロジェクト用の公開データとコンピューター コードの海を提供します。 生データにはデータセットを、プログラミング コードにはコードを選択できます。 Kaggle のトレンド データセットは、AMEX データ、Simpsons Viewership、Chatbot トレーニング データなどです。

セグメント データセット: YouTube 8-M

YouTube 8-M のデータセットをセグメント化すると、人間の監査人によって検証されたアノテーションをセグメント化できます。 同じポータルから YouTube-8M データセットにアクセスすることもできます。 このデータセットには、610 万のビデオ ID、350,000 時間のビデオ、26 億のオーディオ/ビジュアル機能、3863 クラスのビデオ、およびビデオあたり平均 3.0 ラベルが含まれています。

AWS のオープンデータのレジストリ

ROD on AWS は、データ サイエンティストが AWS リソースでホストされているデータセットを共有および検出するのに役立ちます。 ここにある興味深いデータセットには、The Cancer Genome Atlas、Foldingathome COVID-19 Datasets、Common Crawl などがあります。

機械学習リポジトリ: UCI

UCI Machine Learning Repository は現在、データ サイエンティストと ML エンジニアが AI モデルをトレーニングするのに適した 622 のデータセットを維持しています。 また、データベースを調査するための検索可能なインターフェースもあります。 人気のあるアトラクションは、加速度計データセット、同期マシン データセット、Wikipedia Math Essentials、Turkish Headlines データセットなどです。

BigQuery 公開データセット: Google Cloud

多くの公開データセットが BigQuery に保存されています。 Google は、Google Cloud Public Dataset Program を通じてデータセットに無料でアクセスできるようにしています。 ただし、無料のクエリには 1 か月あたり 1 TB の制限があります。 標準 SQL およびレガシー SQL クエリを実行できます。

すばらしい公開データセット: GitHub

Awesome Public Datasets は、トピック中心の公開データを含むオープンソースのデータセットです。 さまざまなブログ、回答、ユーザー フィードバックから収集および分類され、物理学、スポーツ、ソフトウェア、自然言語、機械学習に関する無料および有料のデータ セットが組み合わされています。

世界銀行データ

世界銀行データ

World Bank Open Data は、世界の開発データに無料でアクセスできるプラットフォームです。 また、書式設定済みの表やレポートなど、その他の貴重なリソースも提供します。 国または指標別に簡単に参照して、必要なデータ セットを取得できます。

FiveThirtyEight: データ

FiveThirtyEight は、世論調査分析、政治、経済、スポーツを扱うアメリカの Web サイトです。 これらの世論調査と予測には、そのプラットフォームからデータ セットを介してアクセスできます。 ワンクリックでデータセットをダウンロードできます。

ImageNet

ImageNet は、世界中の研究者が非営利プロジェクト用のオープン ソース データセットを取得できる画像データベースです。 ここでは、画像は WordNet 階層に基づいて編成されています。 このプロジェクトは、高度な深層学習研究において重要な役割を果たします。

データセットのアーカイブ: UNICEF DATA

データセット アーカイブを使用すると、ユニセフが世界中で収集したデータセットを入手できます。 移住、移動、食事、接続性、教育、健康、学習、死亡率、暴力、幼児期の発達、児童婚、児童労働、およびさまざまな統計に関するデータは、ここで入手できます。

オープンデータを探す: 政府. イギリスの

あなたのプロジェクトが地方自治体や英国の中央政府によって公開されたデータを必要とする場合、Find Open Data はチェックアウトすべきポータルです。 政府支出、ビジネス、健康、教育、防衛などのデータセットをカバーしています。

データ: 米国国勢調査局

関連プロジェクトに米国国勢調査データが必要ですか? USCB Data から支援を受けることができます。 ここでは、データを視覚化し、データ ツールを使用しながら、2020 年の国勢調査データ、テーブル、マップ、およびデータ プロファイルを調べることができます。

データと統計: CDC

米国疾病管理予防センターも、このポータルからデータと統計にアクセスするための無料のデータ セットを一般に提供しています。 データセットのトピックは、環境衛生、慢性疾患、出生と出生、死亡と死亡率、平均余命、傷害と暴力、リプロダクティブ ヘルス、国家届出疾病などです。

データセット: MIT

このデータセットは、渦誘起振動データに焦点を当てています。 MIT の Center for Ocean Engineering は、コンピューター コードのベンチマーク用に公開されているデータセットをホストしています。 データセットは、データから新しい理論を導き出し、同じ分野で研究している研究者を同期させるために、すべての人に開かれています。

世界銀行データカタログ

世界銀行データカタログ

Data Catalog は、世界銀行の開発関連データに簡単にアクセスできるようにする無料のデータ セットを収集します。 好みの情報を簡単に見つけてダウンロードできるため、さまざまなプロジェクトで簡単に使用できます。 世界銀行のマイクロデータ、財政、エネルギー プラットフォームをカバーする 5000 以上のデータ セットが含まれています。

NASA 宇宙科学データ

NASA は、Space Science Data Coordinated Archive でアーカイブ データへのアクセスを提供しています。 このプラットフォームは、一般の人々、特に教育や宇宙研究に携わる人々にとって大きな助けとなります。 550 の宇宙科学に関する情報を含む 400 TB のデジタル データがあります。

データを取得する: Airbnb の内部

Airbnb 内のデータを入手する

Airbnb は、ホームステイやバケーション レンタルの世界的に有名なオンライン マーケットプレイスです。 また、Get the Data から世界中のさまざまな都市に関するデータ収集も提供しています。 街をブラウズして、データをすばやく取得できます。 さらに、このポータルで必要なデータを要求し、データの仮定を読み取ることができます。

Web データ: Amazon レビュー

市場調査や製品レビューに関心のある方は、Snap Web Data が提供するデータセットを使用してください。 1995 年 6 月から 2013 年 3 月までの、Amazon での 3,400 万件を超えるユーザー レビューが含まれています。データセットには、プレーン テキスト、製品情報、ユーザー名、評価、およびレビューが含まれています。

IMF データ

IMFデータ

IMF データ ポータルは、すべての経済および金融データ タイプに役立ちます。 IMF の金融データ、対外セクターの統計、主要な出版物、またはミクロ経済学のデータを探している場合でも、ここで見つけることができます。 さらに、フィルターを使用して国別のデータを取得できます。

Google ブックスの Ngram

品詞や言語に取り組んでいる場合は、Google ブックスの Ngrams が大いに役立ちます。 このオープンソース データセットを使用すると、歴史や特定の時間範囲で特定の単語やフレーズを使用する方法がわかります。 このデータ セットのソースは、Google によってインデックス化されたデジタル ドキュメントです。

市場データ: The Financial Times

市場データ: The Financial Times

信頼できる正確な世界および地域の株式市場データを入手したい場合は、The Financial Times の Markets Data が役に立ちます。 これにより、アメリカ、アジア太平洋、ヨーロッパ、アフリカ、およびグローバル市場の市場データを操作できます。

アースデータ: NASA

NASA は、地球データ プログラムを通じて科学データへの完全かつオープンなアクセスを提供しています。このプログラムは、私たちの故郷である惑星を理解し、それを使ってプロジェクトを行うのに役立ちます。 大気、生物圏、雪氷圏、人間の次元、地表、海洋、固体地球、太陽と地球の相互作用、および地球水圏に関する無料のデータ セットを見つけることができます。

データセット検索: Google

プロジェクトをサポートするデータセットを探している学生、研究者、またはデータ サイエンティストは、データセット検索ポータルから支援を受けることができます。 キーワード検索を使用して Web 上のさまざまなレポートでホストされているデータセットを検出できるため、データ セットの検索エンジンと呼ぶことができます。

オープンデータ: CERN

ヨーロッパの研究機関 CERN には、CERN で研究によって生成されたデータにアクセスするために使用できるオープン データ ポータルがあります。 このデータ セット ポータルには、素粒子物理学に関連する 2 ペタバイトのデータが含まれています。 さらに、データ分析に必要なアプリケーションとドキュメントが付属しています。

犯罪データ エクスプローラー: FBI

犯罪データ エクスプローラー FBI

Crime Data Explorer (CDE) は、犯罪者、非犯罪者、および法執行機関のデータ共有に簡単にアクセスできるようにすることを目的とした、FBI のオープンソース データ セットです。 このプラットフォームでは、視覚化とカテゴリ フィルタリングによって必要なデータを発見できるだけでなく、データを CSV 形式でダウンロードできます。

最後の言葉

これまで、高品質のデータセットの完全なリストを確認してきました。 この記事では、物理科学、医療記録、宇宙研究、犯罪歴、製品評価など、さまざまな分野のデータを紹介しています。

取り組んでいるデータ サイエンスまたは機械学習プロジェクトに応じて、選択できます。 ほとんどすべてのデータセットには、プロジェクトに役立つ適切な指示も含まれています。

また、データ サイエンスと ML を学ぶために、これらのリソースに興味があるかもしれません。