26 مجموعة بيانات مفتوحة رائعة لمشروعات علوم البيانات / تعلم الآلة

نشرت: 2022-08-12

قد يكون البحث عن مجموعات البيانات الصحيحة أمرًا شاقًا ، لا سيما عندما تحتاج إليها للتعلم الآلي (ML) ومشاريع علوم البيانات. نقوم بتقليل جهودك البحثية من خلال توفير القائمة النهائية لمجموعات البيانات المجانية.

مجموعات البيانات هي مجرد مجموعات من البيانات. يمكن أن يكون ماليًا ، أو صحة المجتمع ، أو بيانات سوق الأوراق المالية ، أو البيانات المصرفية ، أو البيانات الجغرافية ، أو بيانات أبحاث علوم الجسيمات ، أو تصنيفات المنتجات على موقع التجارة الإلكترونية ، وما إلى ذلك.

تحتوي مجموعات البيانات على البيانات التي تم جمعها من خلال معيار المسح العلمي وهي مهمة لمزيد من التصور والاستخراج والتنبؤ وما إلى ذلك. نظرًا لأن البيانات تعادل النفط الخام في العالم الرقمي ، أصبحت مجموعات البيانات تجارية ونادرة.

تابع القراءة لمعرفة الأساسيات حول مجموعات البيانات. ستكتشف أيضًا بعض مجموعات البيانات مفتوحة المصدر المجانية حقًا للتعلم الآلي (ML) أو مشروعات علوم البيانات.

ما هي مجموعات البيانات؟

مجموعات البيانات هي مجموعة البيانات في حاوية منظمة ومنظمة. عادة ، يربط المساحون مجموعات البيانات بهيئة فريدة ، على سبيل المثال ، البيانات المفتوحة للبنك الدولي.

مرة أخرى ، يحتفظ جامعو البيانات بمجموعات البيانات الخاصة بموضوع مثل بيانات التعداد السكاني لعام 2020 للولايات المتحدة الأمريكية والتي نشرها مكتب تعداد الولايات المتحدة.

ستجد العديد من مجموعات البيانات حول القضايا العالمية والمحلية. تحتوي معظم مجموعات البيانات على نقاط بيانات مترابطة. على سبيل المثال ، عدد سكان بلد ما وكيف ترتبط السمنة بفئات مختلفة من هؤلاء السكان.

قد يحتاج علماء البيانات إلى تنظيف مجموعات البيانات هذه وإعادة هيكلتها ومعالجتها باستخدام أدوات البيانات الضخمة للوصول إلى استنتاجات قيمة مثل الحد من النفايات البلاستيكية عن طريق تحليل بيانات استخدام البلاستيك ، ومعالجة مشكلات القوى العاملة من خلال تحليل بيانات الأجور ، وتدريب الذكاء الاصطناعي (AI) ، وما إلى ذلك. على.

أنواع مجموعات البيانات

اعتمادًا على مصدر مجموعات البيانات ، يمكن أن تكون عامة أو خاصة. مجموعات البيانات العامة مفتوحة للجميع وتساهم كثيرًا في البحث والتطوير.

مرة أخرى ، يمكن أن تكون مجموعات البيانات من الأنواع التالية اعتمادًا على المعلومات الواردة فيها:

  • متعدد المتغيرات: تحتوي هذه البيانات على متغيرات متعددة.
  • قاطع : يصور فئات كثيرة من الناس.
  • العددية: تقيس مجموعات البيانات هذه البيانات بأرقام مثل العمر والطول وما إلى ذلك.
  • الارتباط: في هذا النوع ، نقاط البيانات مترابطة.
  • بناءً على الملف: هنا ، يتم تخزين مجموعات البيانات في ملفات.
  • متغير ثنائي: مجموعة بيانات ذات متغيرين وعلاقة بينهما.
  • مجموعة بيانات الويب: البيانات التي يتم جمعها من واحد أو أكثر من بوابات الإنترنت المماثلة.
  • قاعدة البيانات: تخزن مجموعات البيانات هذه البيانات في جداول وأعمدة وصفوف.

مجموعات البيانات مفتوحة المصدر لمشاريع علوم البيانات

مجموعات البيانات المجانية هي الوقود لتعزيز شغفك بمهنة علم البيانات. لأنه إذا كنت في المراحل الأولى من مهنتك في علم البيانات ، فقد ترغب في القيام بمشاريع شخصية وغير تجارية من أجل الثقة بالنفس أو بناء المحفظة.

أولاً ، يمكنك بسهولة اختبار مهاراتك التي تعلمتها حديثًا عن طريق تطبيق الأدوات والتقنيات على مشاكل مجموعة البيانات الواقعية.

على سبيل المثال ، هناك بيانات أبحاث السرطان متاحة مجانًا ، وبيانات Covid-19 ، وبيانات السجلات الجنائية لمكتب التحقيقات الفيدرالي ، وبيانات تحليل الجسيمات من CERN ، وما إلى ذلك. يمكنك استخدام هذه البيانات وإنشاء نموذج علمي للبيانات للإجابة على المشكلات الاجتماعية والمالية والصحية الحيوية .

ثانيًا ، تعمل مثل هذه المشاريع كمحافظات لحياتك المهنية. إذا كان بإمكانك إنشاء نموذج ناجح لتحليل البيانات يمكنه تقديم رؤى قابلة للتنفيذ ، فيمكنك عرض هذه النماذج عبر الإنترنت من خلال إنشاء مواقع ويب للمحفظة. يفضل أصحاب العمل المشاريع على بيانات الغرض.

مجموعات بيانات مجانية لمشاريع التعلم الآلي

مثل متخصص في علوم البيانات ، يجب أن يعمل متخصص ML أيضًا في المشاريع المدارة ذاتيًا لفحص مهاراتهم. إذا أصبح المشروع ناجحًا ، فسيصبح أيضًا مكونًا مثاليًا لمحفظة مشروعات ML على الإنترنت أو دون اتصال بالإنترنت.

لذلك ، يمكنك الآن فهم أن علم البيانات ونمو تعلم الآلة يعتمدان على مجموعات البيانات المنظمة. إذا تم تسويق مجموعات البيانات هذه بشكل كبير ، فإن البحث والتطوير في مجال علم البيانات سيصبح مركزًا بالكامل على الشركة.

لإبقاء أبحاث ML الخاصة بعلوم البيانات مفتوحة للجميع ، تقدم الوكالات والمؤسسات والأنظمة الأساسية التالية مجموعات بيانات مجانية :

Data.gov

ستجد جميع البيانات المفتوحة التي تم جمعها ومعالجتها من قبل حكومة الولايات المتحدة. في Data.gov. توفر المنصة أيضًا موارد وأدوات لإجراء الأبحاث وتصميم تصورات البيانات وتطوير تطبيقات الهاتف / الويب وما إلى ذلك.

تشمل مجموعات البيانات البارزة الخاصة بها بيانات الاستخدام المستدام للأراضي ، وبيانات الإسكان الريفي ، ومخططات الملاحة الإلكترونية الداخلية ، وما إلى ذلك.

فتح مجموعات البيانات: Kaggle

تقدم Kaggle محيطًا من البيانات العامة ورموز الكمبيوتر لمشاريع علوم البيانات. يمكنك تحديد مجموعات البيانات للبيانات الأولية ورمز أكواد البرمجة. مجموعات البيانات الشائعة على Kaggle هي بيانات AMEX ، و Simpsons Viewership ، وبيانات تدريب Chatbot ، وما إلى ذلك.

مجموعات البيانات القطاعية: YouTube 8-M

تقدم لك مجموعات البيانات المقطعية من YouTube 8-M تعليقات توضيحية مقسمة تم التحقق منها بواسطة مدققين بشريين. يمكنك أيضًا الوصول إلى YouTube-8M Dataset من نفس البوابة. تحتوي مجموعة البيانات على 6.1 مليون معرف فيديو ، و 350.000 ساعة من الفيديو ، و 2.6 مليار ميزة صوتية / مرئية ، و 3863 فئة من مقاطع الفيديو ، وفي المتوسط ​​، 3.0 ملصقات لكل فيديو.

سجل البيانات المفتوحة على AWS

تساعد ROD على AWS علماء البيانات في مشاركة واكتشاف مجموعات البيانات المستضافة على موارد AWS. بعض مجموعات البيانات المثيرة للاهتمام التي يمكنك العثور عليها هنا هي أطلس جينوم السرطان ، ومجموعات بيانات Foldingathome COVID-19 ، والزحف المشترك ، وما إلى ذلك.

مستودع تعلم الآلة: UCI

يحتفظ UCI Machine Learning Repository حاليًا بـ 622 مجموعة بيانات مناسبة لعلماء البيانات ومهندسي ML لتدريب نماذج الذكاء الاصطناعي الخاصة بهم. أيضًا ، هناك واجهة قابلة للبحث للبحث في قواعد البيانات. عوامل الجذب الشهيرة هي مجموعة بيانات مقياس التسارع ومجموعة بيانات الجهاز المتزامن وويكيبيديا أساسيات الرياضيات ومجموعة بيانات العناوين الرئيسية التركية وما إلى ذلك.

مجموعات البيانات العامة في BigQuery: Google Cloud

يتم تخزين العديد من مجموعات البيانات العامة في BigQuery. تتيح Google إمكانية الوصول إلى مجموعة البيانات مجانًا من خلال برنامج Google Cloud Public Dataset. ومع ذلك ، فإن حد الاستعلام المجاني يبلغ 1 تيرابايت شهريًا. يمكنك إجراء استعلامات SQL القياسية واستعلامات SQL القديمة.

مجموعات بيانات عامة رائعة: GitHub

Awesome Public Datasets هي مجموعة بيانات مفتوحة المصدر تحتوي على بيانات عامة تتمحور حول الموضوع. يتم جمعها وفرزها من العديد من المدونات والإجابات وتعليقات المستخدمين ، فهي تجمع بين مجموعات البيانات المجانية والمدفوعة حول الفيزياء والرياضة والبرمجيات واللغة الطبيعية والتعلم الآلي.

بيانات البنك الدولي

بيانات البنك الدولي

البيانات المفتوحة للبنك الدولي هي المنصة التي يمكنك من خلالها الوصول مجانًا إلى بيانات التنمية العالمية. كما يوفر موارد أخرى قيّمة مثل الجداول والتقارير مسبقة التنسيق. يمكنك بسهولة التصفح حسب البلد أو المؤشر للحصول على مجموعة البيانات المطلوبة.

FiveThirtyEight: البيانات

FiveThirtyEight هو موقع إلكتروني أمريكي يتعامل في تحليل استطلاعات الرأي والسياسة والاقتصاد والرياضة. يمكنك الوصول إلى هذه الاستطلاعات والتنبؤات من خلال مجموعات البيانات من نظامها الأساسي. يمكنك تنزيل مجموعات البيانات بنقرة واحدة.

ImageNet

ImageNet هي قاعدة بيانات للصور يمكن للباحثين في جميع أنحاء العالم من خلالها الحصول على مجموعات بيانات مفتوحة المصدر لمشاريعهم غير التجارية. هنا ، يتم تنظيم الصور بناءً على التسلسل الهرمي لـ WordNet. يلعب المشروع دورًا حيويًا في أبحاث التعلم العميق ذات المستوى المتقدم.

أرشيف مجموعات البيانات: بيانات اليونيسف

باستخدام أرشيف مجموعات البيانات ، يمكنك الحصول على مجموعات البيانات التي جمعتها اليونيسف في جميع أنحاء العالم. تتوفر هنا بيانات عن الهجرة والنزوح والنظام الغذائي والاتصال والتعليم والصحة والتعلم والوفيات والعنف وتنمية الطفولة وزواج الأطفال وعمالة الأطفال وإحصاءات مختلفة.

البحث عن البيانات المفتوحة: Govt. المملكة المتحدة

إذا كان مشروعك يحتاج إلى بيانات منشورة من قبل الهيئات المحلية والحكومة المركزية في المملكة المتحدة ، فإن Find Open Data هي البوابة التي يجب عليك التحقق منها. ويغطي الإنفاق الحكومي ، والأعمال التجارية ، والصحة ، والتعليم ، والدفاع ، والمزيد من مجموعات البيانات.

البيانات: مكتب تعداد الولايات المتحدة

هل تحتاج إلى بيانات تعداد الولايات المتحدة لمشروع ذي صلة؟ يمكنك الحصول على المساعدة من بيانات USCB. هنا ، يمكنك استكشاف بيانات التعداد السكاني لعام 2020 والجداول والخرائط وملفات تعريف البيانات أثناء تصور البيانات واستخدام أدوات البيانات.

البيانات والإحصاءات: CDC

كما توفر مراكز مكافحة الأمراض والوقاية منها التابعة للوكالة الفيدرالية الأمريكية مجموعات بيانات مجانية للجمهور للوصول إلى البيانات والإحصاءات من هذه البوابة. مواضيع مجموعة البيانات هي الصحة البيئية ، والأمراض المزمنة ، والولادات والوفيات ، والوفيات والوفيات ، ومتوسط ​​العمر ، والإصابات والعنف ، والصحة الإنجابية ، والأمراض الوطنية الواجب الإبلاغ عنها ، وما إلى ذلك.

مجموعات البيانات: MIT

تركز مجموعة البيانات هذه على دوامة تحريض بيانات الاهتزاز. يستضيف مركز هندسة المحيطات في معهد ماساتشوستس للتكنولوجيا بعض مجموعات البيانات المتاحة للجمهور لقياس أداء الكود الحاسوبي. مجموعات البيانات مفتوحة للجميع لدعوة نظريات جديدة من البيانات ومزامنة الباحثين العاملين في نفس المجال.

كتالوج بيانات البنك الدولي

كتالوج بيانات البنك الدولي

يجمع كتالوج البيانات مجموعات بيانات مجانية تجعل الوصول إلى بيانات البنك الدولي المتعلقة بالتنمية أمرًا سهلاً. يعد استخدامه في مشاريع مختلفة أمرًا سهلاً حيث يمكنك العثور على معلوماتك المفضلة وتنزيلها بسهولة. يحتوي على أكثر من 5000 مجموعة بيانات تغطي البيانات الجزئية للبنك الدولي ، والشؤون المالية ، ومنصات الطاقة.

ناسا بيانات علوم الفضاء

تقدم وكالة ناسا الوصول إلى بياناتها الأرشيفية في الأرشيف المنسق لبيانات علوم الفضاء. هذه المنصة هي مساعدة كبيرة لعامة الناس ، وخاصة العاملين في مجال التعليم وأبحاث الفضاء. يحتوي على 400 تيرابايت من البيانات الرقمية التي تحتوي على معلومات حول 550 علوم الفضاء.

احصل على البيانات: داخل Airbnb

احصل على البيانات من داخل Airbnb

Airbnb هو سوق إلكتروني مشهور عالميًا للإقامة مع العائلات وإيجارات العطلات. كما يوفر جمع البيانات في مدن مختلفة في جميع أنحاء العالم من Get the Data. يمكنك تصفح المدينة للحصول على البيانات بسرعة. علاوة على ذلك ، يمكنك طلب البيانات المطلوبة وقراءة افتراضات البيانات على هذه البوابة.

بيانات الويب: مراجعات أمازون

يجب على المهتمين بأبحاث السوق ومراجعات المنتجات استخدام مجموعات البيانات التي توفرها Snap Web Data. يحتوي على أكثر من 34 مليون تقييم مستخدم على Amazon ، من يونيو 1995 إلى مارس 2013. تحتوي مجموعة البيانات على نص عادي ومعلومات المنتج واسم المستخدم والتقييمات والمراجعة.

بيانات صندوق النقد الدولي

بيانات صندوق النقد الدولي

تعد بوابة بيانات صندوق النقد الدولي ذات قيمة لجميع أنواع البيانات الاقتصادية والمالية. سواء كنت تبحث عن بيانات تمويل صندوق النقد الدولي ، أو إحصاءات القطاع الخارجي ، أو المنشورات الرئيسية ، أو بيانات الاقتصاد الجزئي ، فهذا هو المكان الذي يمكنك العثور عليه فيه. علاوة على ذلك ، يمكنك استخدام عامل تصفية للحصول على بيانات حسب البلد.

كتب Google Ngrams

إذا كنت تعمل على أجزاء من الكلام واللغة ، فيمكن أن تساعدك كتب Google Ngrams بشكل كبير. تمنحك مجموعة البيانات مفتوحة المصدر هذه فكرة عن استخدام كلمة وعبارة معينة عبر التاريخ أو في نطاق زمني محدد. مصدر مجموعة البيانات هذه هو المستندات الرقمية المفهرسة بواسطة Google.

بيانات الأسواق: فاينانشيال تايمز

بيانات الأسواق: فاينانشيال تايمز

إذا كنت ترغب في الحصول على بيانات موثوقة ودقيقة لسوق الأسهم العالمية والإقليمية ، فإن بيانات الأسواق التي تقدمها صحيفة Financial Times هنا لمساعدتك. يمكّنك من العمل مع بيانات السوق من أمريكا وآسيا والمحيط الهادئ وأوروبا وأفريقيا والسوق العالمية.

Earthdata: ناسا

توفر وكالة ناسا وصولاً كاملاً ومفتوحًا إلى بياناتها العلمية من خلال برنامج بيانات الأرض الذي يساعدك على فهم كوكبنا الأصلي والقيام بمشاريع معه. يمكنك العثور على مجموعات بيانات مجانية حول الغلاف الجوي والغلاف الحيوي والغلاف الجليدي والأبعاد البشرية وسطح الأرض والمحيط والأرض الصلبة والتفاعل بين الشمس والأرض والغلاف المائي الأرضي.

البحث في مجموعة البيانات: Google

إذا كنت طالبًا أو باحثًا أو عالم بيانات تبحث عن مجموعات بيانات لدعم مشروعك ، فيمكنك الحصول على المساعدة من بوابة Dataset Search. يمكنك تسميته محرك بحث لمجموعات البيانات لأنه يتيح لك اكتشاف مجموعات البيانات المستضافة في تقارير مختلفة عبر الويب من خلال البحث عن الكلمات الرئيسية.

البيانات المفتوحة: CERN

تمتلك منظمة الأبحاث الأوروبية CERN بوابة بيانات مفتوحة يمكنك استخدامها للوصول إلى البيانات الناتجة عن الأبحاث في CERN. تحتوي بوابة مجموعة البيانات هذه على اثنين بيتابايت من البيانات المتعلقة بفيزياء الجسيمات. علاوة على ذلك ، يأتي مع التطبيقات والوثائق اللازمة لتحليل البيانات.

مستكشف بيانات الجريمة: مكتب التحقيقات الفدرالي

مستكشف بيانات الجريمة مكتب التحقيقات الفدرالي

مستكشف بيانات الجريمة (CDE) هو مجموعة بيانات مفتوحة المصدر من مكتب التحقيقات الفيدرالي تهدف إلى توفير وصول أسهل لمشاركة البيانات الجنائية وغير الجنائية وإنفاذ القانون. إلى جانب السماح لك باكتشاف البيانات الضرورية من خلال التصور وتصفية الفئات ، يتيح لك هذا النظام الأساسي تنزيل البيانات بتنسيق CSV.

الكلمات الأخيرة

لقد مررت حتى الآن بقائمة شاملة حقًا لمجموعات البيانات عالية الجودة. تعرض المقالة بيانات من مجالات مختلفة مثل العلوم الفيزيائية والسجلات الطبية وأبحاث الفضاء والسجلات الجنائية وتقييمات المنتجات وما إلى ذلك.

اعتمادًا على علم البيانات أو مشروع التعلم الآلي الذي تنوي القيام به ، يمكنك الاختيار. تحتوي جميع مجموعات البيانات تقريبًا أيضًا على إرشادات مناسبة لمساعدتك في مشروعك.

قد تكون مهتمًا أيضًا بهذه الموارد لتعلم علوم البيانات و ML.