ما هو تطهير البيانات؟

نشرت: 2021-11-18

أدركت الشركات منذ فترة طويلة أهمية البيانات عندما يتعلق الأمر بفهم عملائها واتخاذ قرارات استراتيجية لزيادة عائد الاستثمار.

ومع ذلك ، في السعي لتقديم منتجات وحلول مخصصة ، يتم تهميش الحقائق المهمة حول جودة البيانات ، مما يؤدي إلى استنتاجات تحليلية غير صحيحة وقرارات تجارية مكلفة.

يقول Gartner ، "متوسط ​​الأثر المالي لسوء جودة البيانات على المؤسسات هو 9.7 مليون دولار سنويًا." يمكنك تحسين جودة البيانات من خلال ضمان دقة نقاط إدخال البيانات ودمج البيانات بشكل فعال وتوحيد البيانات وطرق تنقية البيانات.

يمكن أن يساعد التطبيق العملي لتقنيات تنقية وإثراء البيانات في إنشاء البيانات المهمة للأعمال والتحقق منها وتحديثها وتعزيزها وتعزيزها من خلال تطوير أدوات مخصصة (العناكب والروبوتات والبرامج النصية) والعمليات اليدوية.

فيما يلي بعض الآثار المترتبة على البيانات السيئة:

  • تشير تقارير Ovum Research إلى أن جودة البيانات السيئة تكلف الشركات 30٪ على الأقل من عائداتها.
  • تدفع بيانات المبيعات غير الصحيحة مندوبي المبيعات إلى إضاعة الوقت في العملاء المتوقعين المتوفين. يمكن للبيانات غير الدقيقة أن توجه الأعمال نحو استراتيجيات منحرفة.
  • تنص MarketingSherpa على أن 25-30٪ من البيانات تفسد كل عام. يمكن أن تعطي البيانات السيئة معلومات مشوهة حول التركيبة السكانية للعملاء وسلوكيات الشراء ، مما قد يؤدي إلى ضياع الفرص للمسوقين.
  • يعد الاتصال المفقود بمثابة إيقاف كبير للعملاء. يمكن أن تساهم البيانات السيئة في سوء التواصل مع العملاء ، والشعور بعدم الرضا بينهم ، وحتى العلامات التجارية السلبية على وسائل التواصل الاجتماعي.

ما هو تطهير البيانات؟

تنقية البيانات أو تنظيف البيانات هي طريقة لاكتشاف وتصحيح السجلات غير الدقيقة أو غير الدقيقة من مجموعة سجلات أو جدول أو قاعدة بيانات. يشير إلى اكتشاف أجزاء مجزأة أو غير صحيحة أو غير دقيقة أو غير ذات صلة من البيانات ثم استبدال البيانات المتسخة أو الخام أو تعديلها أو إزالتها.

يمكن تنفيذ تنقية البيانات بشكل تفاعلي مع حلول مشاكل البيانات ، أو كمعالجة مجمعة عن طريق البرمجة النصية. بعد التعقيم ، يجب أن تكون مجموعة البيانات متسقة مع مجموعات البيانات المماثلة الأخرى في النظام.

قد تكون الاختلافات التي تم اكتشافها أو إزالتها ناتجة في البداية عن عدم دقة إدخال المستخدم ، أو عن طريق التشويه في النقل أو التخزين ، أو عن طريق تعريفات قاموس البيانات المتباينة لنفس الكيانات في مخازن مختلفة.

يختلف تنقية البيانات عن مصادقة البيانات في أن التحقق من الصحة هذا يعني بشكل غير متغير تقريبًا استبعاد البيانات من النظام عند القبول ويتم تحقيقها في وقت الإدخال ، بدلاً من مجموعات البيانات.

قد يشمل الإجراء الفعلي لتنقية البيانات إزالة الأخطاء المطبعية أو مصادقة القيم وتصحيحها مقارنة بقائمة الكائنات المعروفة. قد تكون عملية التحقق صارمة (مثل رفض أي عنوان لا يحتوي على رمز بريدي صالح) أو غامض (مثل تصحيح السجلات التي تتطابق في بعض المقاييس مع الحسابات الحالية والمعروفة).

ستقوم بعض أدوات تنقية البيانات بتنظيف البيانات عن طريق التحقق من مجموعة البيانات المصدق عليها. ممارسة تطهير البيانات النموذجية هي تحسين البيانات ، حيث يتم استكمال البيانات عن طريق إضافة المعلومات ذات الصلة - على سبيل المثال ، إلحاق المواقع بأي أرقام هواتف مرتبطة بهذا العنوان.

قد يشمل تنظيف البيانات أيضًا مزامنة (أو تطبيع) البيانات ، وهي عملية تجميع بيانات "تنسيقات الملفات المتغيرة ، والتسميات ، والأعمدة" وتغييرها إلى مجموعة بيانات واحدة متماسكة ؛ مثال بسيط هو توسيع الاختصارات.

كيف تنظف البيانات؟

البيانات النظيفة هي أساس البحث والرؤى الهامة. لذلك ، يقضي مسؤولو علم البيانات 80٪ من وقتهم في تنقية البيانات وتطبيعها. تطهير البيانات يتبع أساليب مختلفة.

تدقيق البيانات

تدقيق البيانات باستخدام الأساليب الإحصائية وقواعد البيانات لاكتشاف الانحرافات والتناقضات: يشير هذا في النهاية إلى خصائص الخصائص وأماكنها.

ستتيح لك العديد من الأدوات افتراض أنواع مختلفة من الشيكات (باستخدام القواعد النحوية التي تحاكي ترميزًا قياسيًا مثل JavaScript أو Visual Basic) ثم إنشاء رمز يفحص البيانات لخرق هذه القيود.

لقد شرحت العملية أدناه في "مواصفات سير العمل" ، بالإضافة إلى "تنفيذ سير العمل". بالنسبة للمستخدمين الذين يفتقرون إلى أدوات التطهير المتطورة ، فإن أنظمة إدارة قاعدة بيانات الحواسيب الصغيرة مثل MS Access أو File Maker Pro ستتيح لك أيضًا الحصول على هذه التراخيص على أساس الحد الأقصى ، بشكل تفاعلي مع الضوء أو عدم الحاجة إلى البرمجة في العديد حالات.

مواصفات سير العمل

احصل على سير عمل لاكتشاف الحالات الشاذة وإزالتها. يبدأ بعد إجراء تدقيق البيانات وهو أمر حاسم في إنجاز المنتج النهائي لبيانات عالية الجودة. يتطلب إنشاء سير عمل مناسب مراقبة دقيقة لأسباب الانحرافات والأخطاء في البيانات.

تنفيذ سير العمل

في هذه المرحلة ، يتم تنفيذ سير العمل بعد اكتمال متطلباته ، والتأكد من دقته.

يجب أن يكون تطبيق سير العمل منظمًا جيدًا ، حتى على مجموعات كبيرة من البيانات ، والتي تشكل حتمًا مقايضة لأن تنفيذ عملية تنقية البيانات يمكن أن يكون مكلفًا من الناحية الحسابية.

المعالجة اللاحقة والتحكم

بعد الانتهاء من سير عمل التطهير ، افحص النتائج للتحقق من صحتها. اضبط البيانات غير الصحيحة المتبقية بعد تنفيذ سير العمل يدويًا ، إذا كان ذلك ممكنًا.

والنتيجة هي تسلسل جديد في إجراء تطهير البيانات حيث تقوم بمراجعة البيانات مرة أخرى للسماح بمتطلبات سير عمل إضافي لتنظيف البيانات عن طريق المعالجة التلقائية بشكل أكبر.

تنظيف البيانات

ترتبط بيانات المصدر ذات الجودة الأفضل بـ "ثقافة جودة البيانات" ، ويجب على كل مؤسسة أن تبدأها في قمة مؤسسة الأعمال.

لا يتعلق الأمر فقط بتنفيذ عمليات التحقق من الصحة الآمنة على شاشات الإدخال ، لأنه بغض النظر عن مدى دقة هذه الفحوصات ، لا يزال بإمكان المستخدمين تجاوزها في كثير من الأحيان.

يوجد دليل من تسع خطوات للمنشآت التي ترغب في تحسين جودة البيانات:

  • أعلن عن ضمان عالي المستوى لثقافة جودة البيانات
  • إعادة هندسة إجراءات القيادة على مستوى صنع السياسات
  • أنفق العجين لتحسين إعداد إدخال البيانات
  • أنفق الأموال لتطوير تكامل التطبيقات
  • كرس المال لتغيير كيفية عمل العمليات
  • قم بتأييد استجابة الفريق الشاملة
  • تشجيع التعاون بين الإدارات
  • الكشف علنًا عن تفوق جودة البيانات
  • قياس وتحسين جودة البيانات دون توقف

يتكون البعض الآخر من:

تفسير

للتعرف على الأخطاء النحوية. يختار المحلل ما إذا كانت سلسلة البيانات مقبولة ضمن مواصفات البيانات المسموح بها. إنه أقرب إلى الطريقة التي يكدح بها المحلل اللغوي مع التركيبات واللغات.

تحويل البيانات

يتيح تحويل البيانات تخطيط البيانات من تنسيقها المحدد إلى الترتيب الذي يتوقعه التطبيق المناسب. وهو يدمج تحويلات القيمة أو إجراءات الترجمة ، بالإضافة إلى توحيد القيم الرقمية لاتباع الحد الأدنى والحد الأقصى للقيم.

حذف مكرر

يحتاج الكشف عن التكرارات إلى خوارزمية لتحديد ما إذا كانت البيانات تحتوي على نسخ مكررة من نفس الكيان. عادة ، يتم ترتيب البيانات بواسطة مفتاح من شأنه أن يجعل الإدخالات المتطابقة أقرب لتحديد الهوية بشكل أسرع.

أساليب إحصائية

من خلال فحص البيانات باستخدام قيم المتوسط ​​أو الانحراف المعياري أو النطاق أو إجراءات التجميع ، يمكن للخبير العثور على قيم غير متوقعة وبالتالي غير صحيحة.

على الرغم من أن تصحيح هذه البيانات شديد الانحدار نظرًا لأن التسمية الفعلية غير معروفة ، إلا أنه يمكنك حلها عن طريق تعيين القيم على متوسط ​​أو قيمة إحصائية أخرى.

يجب أن يتعامل أحد الاستخدامات الأخرى للطرق الإحصائية مع الفئات المفقودة ، والتي يمكن استبدالها بواحدة أو أكثر من القيم المحتملة ، والتي يتم الحصول عليها عادةً بواسطة خوارزميات زيادة البيانات الشاملة.

صحة البيانات أو جودة البيانات

لكي تكون البيانات قابلة للمعالجة والتفسير بفعالية وكفاءة ، يجب أن تفي بمجموعة من معايير الجودة. يقال إن البيانات التي تلبي معايير الجودة هذه ذات جودة عالية. بشكل عام ، القيمة المجمعة لمجموعة من معايير الجودة هي جودة البيانات.

بدءًا من معايير الجودة المحددة في ، نصف مجموعة المعايير التي تتأثر بتنقية البيانات الشاملة ونحدد كيفية تقييم الدرجات لكل منها لمجموعة بيانات موجودة.

لقياس جودة جمع البيانات ، قم بتقييم التصنيفات لكل معيار من معايير الجودة.

يمكن أن يكون استخدام تقييم الدرجات لمعايير الجودة وسيلة لتقدير ضرورة تنقية البيانات لجمع البيانات وكذلك نجاح عملية تطهير البيانات المنفذة في جمع البيانات.

يمكنك استخدام معايير الجودة ضمن تحسين تنقية البيانات عن طريق تحديد الأولويات لكل من المتطلبات ، والتي بدورها تؤثر على تنفيذ أساليب تنقية البيانات التي تؤثر على القواعد المحددة.

صحة البيانات

صلاحية

النقطة التي تتناسب معها البيانات مع قواعد أو قيود العمل المحددة.

  • قيود نوع البيانات: يجب أن تكون القيم في عمود معين من نوع بيانات معين ، على سبيل المثال ، منطقية ، رقمية ، تاريخ ، إلخ.
  • قيود النطاق: عادة ، يجب أن تكون الأرقام أو التواريخ ضمن نطاق معين.
  • القيود الإلزامية : لا يمكن أن تكون الأعمدة فارغة.
  • القيود الفريدة: يجب أن يكون الحقل أو مزيج المناطق مميزًا عبر مجموعة البيانات.
  • قيود عضوية المجموعة : تنبثق فئات العمود من مجموعة من القيم المنفصلة ، مثل قيم التعداد. على سبيل المثال ، قد يكون الجنس ذكرًا أو أنثى أو غيرهم.
  • قيود المفتاح الخارجي : كما هو الحال في أنظمة قواعد البيانات العلائقية ، يجب أن يوجد عمود مفتاح خارجي في المفتاح الأساسي المشار إليه.
  • أنماط التعبير العادي: يجب أن تتبع الحقول النصية تصميمًا محددًا. على سبيل المثال ، يجب أن تمتثل أرقام الهواتف لملف تعريف معين (xxx) xxx-xxx.
  • التحقق من الصحة عبر الحقول: يجب أن تحتوي الإعدادات المحددة التي تمتد عبر العديد من المجالات ، على سبيل المثال ، لا يمكن أن يكون تاريخ خروج المريض من المستشفى قبل وقت القبول.

دقة

الدرجة التي تكون بها البيانات قريبة من القيم الفعلية. بينما يسمح تحديد جميع قيم الحقول الصالحة الممكنة برصد القيم غير الصالحة بسهولة ، فإن هذا لا يعني أنها دقيقة.

ربما لا يوجد عنوان شارع صالح . أ   قد يكون لون عين الشخص ، مثل اللون الأزرق ، صحيحًا ، لكنه ليس صحيحًا. شيء آخر لا ينبغي نسيانه هو الفرق بين الدقة والدقة.

القول بأنك تعيش على كوكب الأرض أمر مناسب. لكن ليس دقيقًا. أين على هذا الكوكب؟ يعتبر افتراض أنك تعيش في عنوان شارع معين أكثر دقة.

الاكتمال

النقطة التي يتم فيها معرفة واستيعاب جميع البيانات المطلوبة.

ستكون البيانات مفقودة لأسباب مختلفة. يمكن للمرء أن يخفف من هذه المشكلة عن طريق التشكيك في المصدر.

الاحتمالات هي أنك إما ستحصل على إجابة مختلفة أو سيكون من الصعب التحقق مرة أخرى.

التناسق

درجة ثبات البيانات ، ضمن مجموعة البيانات المطابقة أو عبر عدة مجموعات بيانات متشابهة.

يحدث عدم الاتساق عندما تتعارض قيمتان في مجموعة البيانات مع بعضهما البعض.

صالحة   العمر ، لنقل 10 ، قد لا يتناسب مع الحالة الزوجية ، لنفترض أنها مطلقة. يعد تسجيل العميل في جدولين مختلفين بعنوانين منفصلين أمرًا غير متسق.

اي واحد هو الصحيح؟

التوحيد

الدرجة التي تستخدم بها البيانات المحددة نفس وحدة المقياس.

الوزن بالجنيه أو الكيلوغرامات ، تاريخ بتنسيق الولايات المتحدة الأمريكية أو التنسيق الأوروبي ، والعملة أحيانًا بالدولار الأمريكي أو الين.