การล้างข้อมูลคืออะไร?
เผยแพร่แล้ว: 2021-11-18ธุรกิจต่างๆ ในอดีตได้เล็งเห็นถึงความสำคัญของข้อมูลแล้ว เมื่อเป็นเรื่องของการทำความเข้าใจลูกค้าและการตัดสินใจเชิงกลยุทธ์สำหรับ ROI ที่เพิ่มขึ้น
อย่างไรก็ตาม ในการแย่งชิงเพื่อนำเสนอผลิตภัณฑ์และโซลูชันที่ปรับแต่งได้ ข้อเท็จจริงที่สำคัญเกี่ยวกับคุณภาพของข้อมูลจะถูกกีดกันออกไป ซึ่งนำไปสู่การอนุมานเชิงวิเคราะห์ที่ไม่ถูกต้องและการตัดสินใจทางธุรกิจที่มีค่าใช้จ่ายสูง
Gartner กล่าวว่า "ผลกระทบทางการเงินโดยเฉลี่ยของคุณภาพข้อมูลที่ไม่ดีต่อองค์กรคือ 9.7 ล้านเหรียญต่อปี" คุณสามารถปรับปรุงคุณภาพของข้อมูลได้โดยการรับรองจุดป้อนข้อมูลที่ถูกต้อง การรวมข้อมูลที่มีประสิทธิภาพ การกำหนดมาตรฐานของข้อมูล และวิธีการล้างข้อมูล
การประยุกต์ใช้เทคนิคการล้างข้อมูลและการตกแต่งข้อมูลในทางปฏิบัติสามารถช่วยในการสร้าง ตรวจสอบ อัปเดต ปรับปรุง และปรับปรุงข้อมูลที่มีความสำคัญต่อธุรกิจโดยการพัฒนาเครื่องมือที่กำหนดเอง (แมงมุม บอท และสคริปต์) และกระบวนการแบบแมนนวล
นี่คือนัยบางประการของข้อมูลที่ไม่ถูกต้อง:
- Ovum Research รายงานคุณภาพข้อมูลที่ไม่ดีทำให้ธุรกิจต้องเสียรายได้อย่างน้อย 30%
- ข้อมูลการขายที่ไม่ถูกต้องทำให้พนักงานขายเสียเวลากับลูกค้าเป้าหมายที่เสียชีวิต ข้อมูลที่ไม่ถูกต้องสามารถนำพาธุรกิจไปสู่กลยุทธ์ที่เบ้ได้
- MarketingSherpa ระบุว่าทุกๆ ปี 25-30% ของข้อมูลเสียหาย ข้อมูลที่ไม่ถูกต้องสามารถให้ข้อมูลที่บิดเบือนเกี่ยวกับข้อมูลประชากรของลูกค้าและพฤติกรรมการซื้อ ซึ่งจะทำให้นักการตลาดพลาดโอกาส
- Miss-communication เป็นการเลิกราครั้งใหญ่สำหรับลูกค้า ข้อมูลที่ไม่ถูกต้องสามารถนำไปสู่การสื่อสารที่ผิดพลาดกับลูกค้า ความรู้สึกไม่พอใจในหมู่พวกเขา และแม้กระทั่งการสร้างแบรนด์เชิงลบบนโซเชียลมีเดีย
การล้างข้อมูลคืออะไร?
การล้างข้อมูล หรือการล้างข้อมูลเป็นวิธีการระบุและแก้ไขข้อมูล debase หรือบันทึกที่ไม่ถูกต้องจากชุดระเบียน ตาราง หรือฐานข้อมูล หมายถึงการตรวจจับข้อมูลบางส่วน ไม่ถูกต้อง ไม่แน่ชัด หรือไม่เกี่ยวข้อง จากนั้นแทนที่ ปรับเปลี่ยน หรือลบข้อมูลสกปรกหรือหยาบ
การล้างข้อมูลอาจดำเนินการแบบโต้ตอบกับโซลูชันการโต้แย้งข้อมูล หรือการประมวลผลแบบแบตช์โดยการเขียนสคริปต์ หลังจากฆ่าเชื้อแล้ว ชุดข้อมูลควรสอดคล้องกับชุดข้อมูลอื่นที่คล้ายคลึงกันในระบบ
ความคลาดเคลื่อนที่ตรวจพบหรือลบออกอาจเกิดจากความไม่ถูกต้องในการป้อนข้อมูลของผู้ใช้ โดยการบิดเบือนในการส่งผ่านหรือการจัดเก็บ หรือโดยคำจำกัดความของพจนานุกรมข้อมูลที่แตกต่างกันของเอนทิตีเดียวกันในร้านค้าต่างๆ
การล้างข้อมูลแตกต่างจากการรับรองความถูกต้องของข้อมูลในการตรวจสอบความถูกต้องนั้นแทบจะไม่ต่างกันเลย หมายความว่าข้อมูลจะถูกแยกออกจากระบบเมื่อรับเข้าและบรรลุผลในเวลาที่ป้อนข้อมูล แทนที่จะเป็นชุดข้อมูล
ขั้นตอนที่แท้จริงของการล้างข้อมูลอาจประกอบด้วยการลบข้อผิดพลาดในการพิมพ์หรือการตรวจสอบความถูกต้องและแก้ไขค่าเมื่อเปรียบเทียบกับรายการวัตถุที่ทราบ การตรวจสอบความถูกต้องอาจเข้มงวด (เช่น การปฏิเสธที่อยู่ใดๆ ที่ไม่มีรหัสไปรษณีย์ที่ถูกต้อง) หรือคลุมเครือ (เช่น การแก้ไขบันทึกที่ตรงกับบัญชีที่มีอยู่และรู้จักในมาตรการบางอย่าง)
เครื่องมือล้างข้อมูลบางตัวจะล้างข้อมูลโดยการตรวจสอบข้ามกับชุดข้อมูลที่รับรองความถูกต้อง แนวทางปฏิบัติในการล้างข้อมูลโดยทั่วไปคือการปรับปรุงข้อมูล โดยที่ข้อมูลจะสมบูรณ์โดยการเพิ่มข้อมูลที่เกี่ยวข้อง เช่น การต่อท้ายตำแหน่งด้วยหมายเลขโทรศัพท์ใดๆ ที่เกี่ยวข้องกับที่อยู่นั้น
การล้างข้อมูลอาจรวมถึงการซิงโครไนซ์ (หรือการทำให้เป็นมาตรฐาน) ของข้อมูล ซึ่งเป็นกระบวนการของการรวมข้อมูลของ "รูปแบบไฟล์ตัวแปร การตั้งชื่อ และคอลัมน์" และเปลี่ยนเป็นชุดข้อมูลเดียว ตัวอย่างง่ายๆคือการขยายคำย่อ
จะล้างข้อมูลได้อย่างไร?
ข้อมูลที่สะอาดเป็นรากฐานของการวิจัยและข้อมูลเชิงลึกที่สำคัญ ดังนั้น ผู้บริหารด้านวิทยาศาสตร์ข้อมูลจึงใช้เวลา 80% ในการล้างข้อมูลและทำให้เป็นมาตรฐาน การล้างข้อมูลเป็นไปตามแนวทางต่างๆ
การตรวจสอบข้อมูล
ตรวจสอบข้อมูลโดยใช้วิธีการทางสถิติและฐานข้อมูลเพื่อตรวจหาความผิดปกติและความขัดแย้ง ซึ่งสุดท้ายจะระบุลักษณะของลักษณะเฉพาะและท้องที่
เครื่องมือหลายอย่างจะช่วยให้คุณสามารถกำหนดการตรวจสอบประเภทต่างๆ (โดยใช้ไวยากรณ์ที่เลียนแบบการเข้ารหัสมาตรฐาน เช่น JavaScript หรือ Visual Basic) จากนั้นจึงสร้างโค้ดที่ตรวจสอบข้อมูลสำหรับการละเมิดข้อจำกัดเหล่านี้
ฉันได้อธิบายกระบวนการด้านล่างใน "ข้อกำหนดเวิร์กโฟลว์" เช่นเดียวกับ "การดำเนินการเวิร์กโฟลว์" สำหรับผู้ใช้ที่ไม่สามารถเข้าถึงเครื่องมือทำความสะอาดระดับไฮเอนด์ได้ ระบบจัดการฐานข้อมูลไมโครคอมพิวเตอร์ เช่น MS Access หรือ File Maker Pro จะช่วยให้คุณได้รับการอนุญาตดังกล่าวแบบจำกัดโดยมีการโต้ตอบกับแสงหรือการเขียนโปรแกรมที่จำเป็นในหลาย ๆ กรณี
ข้อกำหนดเวิร์กโฟลว์
มีเวิร์กโฟลว์สำหรับการตรวจจับและลบสิ่งผิดปกติ เริ่มต้นหลังจากขั้นตอนการตรวจสอบข้อมูลและมีความสำคัญอย่างยิ่งในการบรรลุผลสำเร็จของผลิตภัณฑ์ข้อมูลคุณภาพสูง การสร้างเวิร์กโฟลว์ที่เหมาะสมจำเป็นต้องมีการตรวจสอบสาเหตุของความผิดปกติและข้อผิดพลาดในข้อมูลอย่างใกล้ชิด
การดำเนินการเวิร์กโฟลว์
ในขั้นตอนนี้ ให้ดำเนินการเวิร์กโฟลว์หลังจากความต้องการเสร็จสมบูรณ์ และความถูกต้องจะได้รับการยืนยัน
แอปพลิเคชันของเวิร์กโฟลว์ควรได้รับการจัดระเบียบอย่างดี แม้จะอยู่ในชุดข้อมูลจำนวนมาก ซึ่งก่อให้เกิดการประนีประนอมอย่างหลีกเลี่ยงไม่ได้ เนื่องจากการดำเนินการตามกระบวนการล้างข้อมูลอาจมีต้นทุนในการคำนวณสูง
หลังการประมวลผลและการควบคุม
หลังจากเสร็จสิ้นขั้นตอนการทำความสะอาดแล้ว ให้ตรวจสอบผลลัพธ์เพื่อยืนยันความถูกต้อง ปรับข้อมูลที่ไม่ถูกต้องทิ้งไว้หลังจากดำเนินการเวิร์กโฟลว์ด้วยตนเอง หากเป็นไปได้
ผลลัพธ์คือลำดับใหม่ในขั้นตอนการล้างข้อมูลที่คุณตรวจสอบข้อมูลอีกครั้งเพื่ออนุญาตข้อกำหนดของเวิร์กโฟลว์เพิ่มเติมเพื่อล้างข้อมูลด้วยการประมวลผลอัตโนมัติเพิ่มเติม

ข้อมูลต้นฉบับที่มีคุณภาพดีขึ้นนั้นเกี่ยวข้องกับ "วัฒนธรรมคุณภาพข้อมูล" และทุกองค์กรต้องเริ่มต้นที่ด้านบนสุดของการจัดตั้งธุรกิจ
มันไม่ได้เป็นเพียงเรื่องของการดำเนินการตรวจสอบการตรวจสอบความปลอดภัยบนหน้าจออินพุต เพราะไม่ว่าการตรวจสอบเหล่านี้จะระมัดระวังเพียงใด ผู้ใช้ก็มักจะถูกข้ามได้

มีคำแนะนำเก้าขั้นตอนสำหรับสถานประกอบการที่ต้องการปรับปรุงคุณภาพข้อมูล:
- ประกาศการประกันระดับสูงต่อวัฒนธรรมคุณภาพข้อมูล
- ขับเคลื่อนกระบวนการรื้อปรับกระบวนการในระดับการกำหนดนโยบาย
- ใช้แป้งเพื่อเลื่อนการตั้งค่าการป้อนข้อมูล
- ใช้จ่ายเงินเพื่อพัฒนาการรวมแอปพลิเคชัน
- ทุ่มเทเงินเพื่อเปลี่ยนวิธีการทำงานของกระบวนการ
- รับรองการตอบสนองของทีมแบบ end-to-end
- ส่งเสริมความร่วมมือระหว่างแผนก
- เปิดเผยความเหนือกว่าด้านคุณภาพข้อมูล
- วัดผลและพัฒนาคุณภาพของข้อมูลอย่างไม่หยุดยั้ง
อื่นๆ ประกอบด้วย:
การแยกวิเคราะห์
สำหรับการรับรู้ข้อผิดพลาดทางไวยากรณ์ parser จะเลือกว่าจะยอมรับสตริงข้อมูลภายในข้อกำหนดข้อมูลที่อนุญาตหรือไม่ มันคล้ายกับวิธีที่ parser ใช้ไวยากรณ์และภาษา
การแปลงข้อมูล
การแปลงข้อมูลช่วยให้สามารถพล็อตข้อมูลจากรูปแบบที่กำหนดไปสู่การจัดเรียงที่แอปพลิเคชันที่เหมาะสมคาดหวังได้ รวมการแปลงค่าหรือขั้นตอนการแปลตลอดจนการกำหนดค่าตัวเลขให้เป็นมาตรฐานเพื่อให้เป็นไปตามค่าต่ำสุดและสูงสุด
การกำจัดซ้ำ
การตรวจหารายการซ้ำต้องใช้อัลกอริธึมในการกำหนดว่าข้อมูลมีรายการซ้ำของเอนทิตีเดียวกันหรือไม่ โดยปกติ ข้อมูลจะถูกจัดเรียงโดยคีย์ที่จะนำรายการที่เหมือนกันเข้ามาใกล้มากขึ้นเพื่อให้ระบุตัวตนได้เร็วขึ้น
วิธีการทางสถิติ
โดยการตรวจสอบข้อมูลโดยใช้ค่าของค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ช่วง หรือขั้นตอนการจัดกลุ่ม ผู้เชี่ยวชาญสามารถค้นหาค่าที่ไม่คาดคิดและไม่ถูกต้องได้
แม้ว่าการแก้ไขข้อมูลดังกล่าวจะสูงชันเนื่องจากไม่ทราบค่าจริง แต่คุณสามารถแก้ไขได้โดยการตั้งค่าเป็นค่าเฉลี่ยหรือค่าสถิติอื่นๆ
การใช้วิธีการทางสถิติอีกวิธีหนึ่งต้องจัดการกับค่าเงินที่สูญหาย ซึ่งสามารถแทนที่ด้วยค่าที่เป็นไปได้อย่างน้อยหนึ่งค่า ซึ่งมักจะได้มาจากอัลกอริธึมการเพิ่มข้อมูลที่กว้างขวาง
สุขอนามัยของข้อมูลหรือคุณภาพของข้อมูล
ข้อมูลที่จะประมวลผลและตีความได้อย่างมีประสิทธิผล จะต้องเป็นไปตามเกณฑ์คุณภาพที่กำหนด ข้อมูลที่ตรงตามเกณฑ์คุณภาพดังกล่าวมีคุณภาพสูง โดยทั่วไป ค่าที่รวบรวมจากชุดเกณฑ์คุณภาพคือคุณภาพของข้อมูล
เริ่มต้นด้วยเกณฑ์คุณภาพที่ระบุใน เราอธิบายชุดของมาตรฐานที่ได้รับผลกระทบจากการล้างข้อมูลอย่างครอบคลุม และกำหนดวิธีประเมินคะแนนสำหรับแต่ละรายการสำหรับการรวบรวมข้อมูลที่มีอยู่
สำหรับการวัดคุณภาพของการรวบรวมข้อมูล ให้ประเมินการให้คะแนนสำหรับเกณฑ์คุณภาพแต่ละข้อ
การใช้การประเมินคะแนนสำหรับเกณฑ์คุณภาพอาจเป็นวิธีการหาปริมาณความจำเป็นของการล้างข้อมูลสำหรับการรวบรวมข้อมูล ตลอดจนความสำเร็จของกระบวนการล้างข้อมูลในการรวบรวมข้อมูล
คุณสามารถใช้เกณฑ์คุณภาพภายในการปรับให้เหมาะสมของการล้างข้อมูลโดยระบุลำดับความสำคัญสำหรับข้อกำหนดแต่ละข้อ ซึ่งจะส่งผลต่อการดำเนินการของวิธีการล้างข้อมูลที่ส่งผลต่อกฎเฉพาะ

ความถูกต้อง
จุดที่ข้อมูลสอดคล้องกับกฎหรือข้อจำกัดทางธุรกิจที่กำหนดไว้
- ข้อจำกัดประเภทข้อมูล: ค่าในคอลัมน์เฉพาะต้องเป็นประเภทข้อมูลเฉพาะ เช่น บูลีน ตัวเลข วันที่ ฯลฯ
- ข้อจำกัดของช่วง: โดยทั่วไป ตัวเลขหรือวันที่ควรอยู่ภายในช่วงที่กำหนด
- ข้อจำกัดบังคับ : คอลัมน์เฉพาะไม่สามารถเว้นว่างได้
- ข้อจำกัดเฉพาะ: ฟิลด์ หรือการผสมผสานของพื้นที่ ต้องมีความโดดเด่นในชุดข้อมูล
- ข้อจำกัดชุดสมาชิก : นิกายของคอลัมน์เล็ดลอดออกมาจากชุดของค่าที่ไม่ต่อเนื่อง เช่น ค่า enum ตัวอย่างเช่น เพศอาจเป็นชาย หญิง หรืออื่น ๆ
- ข้อจำกัดของ Foreign-key : เช่นเดียวกับในระบบฐานข้อมูลเชิงสัมพันธ์ คอลัมน์ foreign key ควรมีอยู่ในคีย์หลักที่อ้างอิง
- รูปแบบนิพจน์ทั่วไป: ฟิลด์ข้อความควรเป็นไปตามการออกแบบเฉพาะ ตัวอย่างเช่น หมายเลขโทรศัพท์ต้องเป็นไปตามโปรไฟล์เฉพาะ (xxx) xxx-xxx
- การตรวจสอบความถูกต้องของข้อมูลข้ามสนาม: การตั้งค่าเฉพาะที่ครอบคลุมในฟิลด์ต่างๆ จะต้องถือไว้ เช่น วันที่ผู้ป่วยออกจากโรงพยาบาลจะต้องไม่อยู่ก่อนเวลาที่เข้ารับการรักษา
ความแม่นยำ
ระดับที่ข้อมูลใกล้เคียงกับค่าจริง แม้ว่าการสรุปค่าฟิลด์ที่ถูกต้องที่เป็นไปได้ทั้งหมดจะอนุญาตให้ตรวจพบค่าที่ไม่ถูกต้องได้ง่าย แต่ก็ไม่ได้หมายความว่าค่าเหล่านั้นถูกต้อง
อาจไม่มีที่อยู่ที่ ถูกต้อง อา สีตาของคนพูดสีฟ้าอาจจะถูกแต่ไม่ถูกต้อง สิ่งหนึ่งที่ต้องไม่ลืมคือความแตกต่างระหว่างความถูกต้องและความแม่นยำ
การบอกว่าคุณอาศัยอยู่บนโลกใบนี้นั้นเหมาะสม แต่ไม่แม่น. ที่ไหนบนโลกใบนี้? สมมติว่าคุณอาศัยอยู่ตามที่อยู่หนึ่งๆ จะแม่นยำกว่า
ความสมบูรณ์
จุดที่ข้อมูลที่จำเป็นทั้งหมดเป็นที่รู้จักและหลอมรวม
ข้อมูลจะหายไปจากสาเหตุต่างๆ เราสามารถบรรเทาปัญหานี้ได้โดยสอบถามแหล่งที่มา
เป็นไปได้ว่า คุณจะได้รับคำตอบที่ต่างไปจากเดิมหรืออาจเป็นเรื่องยากที่จะค้นหาอีกครั้ง
ความสม่ำเสมอ
ระดับที่ข้อมูลไม่มีข้อผิดพลาด ภายในชุดข้อมูลที่ตรงกันหรือในชุดข้อมูลที่คล้ายกันหลายชุด
ความไม่สอดคล้องกันเกิดขึ้นเมื่อค่าสองค่าในชุดข้อมูลขัดแย้งกัน
ที่ถูกต้อง อายุ 10 ขวบอาจไม่ตรงกับสถานภาพสมรสก็ว่าหย่าแล้ว การบันทึกลูกค้าในตารางที่แตกต่างกันสองตารางโดยมีที่อยู่แยกกันสองแห่งคือความไม่สอดคล้องกัน
อันไหนจริง?
ความสม่ำเสมอ
ระดับที่ข้อมูลที่ระบุใช้หน่วยเดียวกันของเกจ
น้ำหนักเป็นปอนด์หรือกิโลกรัม วันที่ในรูปแบบสหรัฐอเมริกาหรือรูปแบบยุโรป และสกุลเงินในบางครั้งเป็น USD หรือ YEN
