Veri Temizleme Nedir?

Yayınlanan: 2021-11-18

İşletmeler, müşterilerini anlamak ve artan yatırım getirisi için stratejik kararlar almak söz konusu olduğunda verilerin önemini uzun zaman önce fark etmişti.

Bununla birlikte, özelleştirilmiş ürün ve çözümler getirme çabasında, veri kalitesiyle ilgili önemli gerçekler bir kenara bırakılır ve bu da yanlış analitik çıkarımlara ve maliyetli iş kararlarına yol açar.

Gartner, "Düşük veri kalitesinin kuruluşlar üzerindeki ortalama finansal etkisi yılda 9,7 milyon dolar" diyor. Doğru veri giriş noktaları, etkin veri birleştirme, veri standardizasyonu ve veri temizleme yöntemleri sağlayarak veri kalitesini artırabilirsiniz.

Veri temizleme ve zenginleştirme tekniklerinin pratik uygulaması, özel araçlar (örümcekler, botlar ve komut dosyaları) ve manuel süreçler geliştirerek iş açısından kritik verilerin oluşturulmasına, doğrulanmasına, güncellenmesine, iyileştirilmesine ve iyileştirilmesine yardımcı olabilir.

İşte kötü verilerin bazı etkileri:

  • Ovum Research, düşük veri kalitesinin işletmelere gelirlerinin en az %30'una mal olduğunu bildiriyor.
  • Yanlış satış verileri, satış görevlilerini ölü potansiyel müşterilerle zaman kaybetmeye iter. Yanlış veriler, işletmeyi çarpık stratejilere yönlendirebilir.
  • MarketingSherpa, her yıl verilerin %25-30'unun bozulduğunu belirtir. Kötü veriler, müşteri demografisi ve satın alma davranışları hakkında çarpıtılmış bilgiler verebilir ve bu da pazarlamacılar için fırsatların kaçırılmasına yol açabilir.
  • Eksik iletişim, müşteriler için büyük bir sonuçtur. Kötü veriler, müşterilerle yanlış iletişime, aralarında bir memnuniyetsizlik duygusuna ve hatta sosyal medyada olumsuz markalaşmaya katkıda bulunabilir.

Veri temizleme nedir?

Veri temizleme veya veri temizleme, bir kayıt kümesinden, tablodan veya veritabanından alınan düşük veya hatalı kayıtları tespit etme ve düzeltme yöntemidir. Verilerin parça parça, yanlış, kesin olmayan veya ilgisiz kısımlarının tespit edilmesi ve ardından kirli veya kaba verilerin değiştirilmesi, değiştirilmesi veya kaldırılması anlamına gelir.

Veri temizleme, veri karıştırma çözümleriyle etkileşimli olarak veya komut dosyası oluşturma yoluyla toplu işleme olarak yürütülebilir. Temizledikten sonra, bir veri seti sistemdeki diğer benzer veri setleriyle uyumlu olmalıdır.

Tespit edilen veya kaldırılan tutarsızlıklar, başlangıçta kullanıcı girişinin yanlışlığından, iletim veya depolamadaki bozulmadan veya aynı varlıkların farklı mağazalardaki farklı veri sözlüğü tanımlarından kaynaklanmış olabilir.

Veri temizleme, veri doğrulamadan farklıdır, çünkü doğrulama neredeyse değişmez bir şekilde verilerin sistemden girişte hariç tutulduğu ve veri setleri yerine giriş anında elde edildiği anlamına gelir.

Gerçek veri temizleme prosedürü, tipografik hataların kaldırılmasını veya bilinen bir nesne listesine kıyasla değerlerin doğrulanması ve düzeltilmesini içerebilir. Doğrulama, katı (geçerli bir posta kodu olmayan herhangi bir adresin reddedilmesi gibi) veya belirsiz (bir ölçüde mevcut, bilinen hesaplarla eşleşen kayıtların düzeltilmesi gibi) olabilir.

Bazı veri temizleme araçları, kimliği doğrulanmış bir veri seti ile çapraz kontrol yaparak verileri temizleyecektir. Tipik bir veri temizleme uygulaması, verilerin ilgili bilgiler eklenerek tamamlandığı veri geliştirmedir - örneğin, o adresle ilişkili herhangi bir telefon numarasıyla konumların eklenmesi.

Veri temizleme, aynı zamanda, "değişken dosya biçimleri, adlandırma ve sütunlar" verilerini bir araya getirme ve bunları tek bir birleşik veri kümesine dönüştürme işlemi olan verilerin senkronizasyonunu (veya normalleştirilmesini) de kapsayabilir; basit bir örnek, kısaltmaların genişletilmesidir.

Veriler nasıl temizlenir?

Temiz veriler, önemli araştırma ve içgörülerin temelidir. Bu nedenle, veri bilimi yöneticileri zamanlarının %80'ini veri temizleme ve normalleştirmeye harcarlar. Veri Temizleme çeşitli yaklaşımları takip eder.

Veri denetimi

Anormallikleri ve çelişkileri tespit etmek için istatistiksel ve veri tabanı yöntemlerini kullanarak verileri denetleyin: bu, sonunda özelliklerin özelliklerini ve yerelliklerini gösterir.

Çeşitli araçlar (JavaScript veya Visual Basic gibi standart bir kodlamayı taklit eden bir dilbilgisi kullanarak) çeşitli türlerdeki kontrolleri varsaymanıza ve ardından bu kısıtlamaların ihlali için verileri inceleyen kod oluşturmanıza olanak tanır.

Aşağıdaki süreci "iş akışı belirtimi" ve "iş akışı yürütme" bölümünde açıkladım. Üst düzey temizleme araçlarına erişimi olmayan kullanıcılar için, MS Access veya File Maker Pro gibi Mikrobilgisayar veritabanı yönetim sistemleri, bu tür yetkileri, birçok durumda hafif veya hiç programlama gerektirmeden etkileşimli olarak, limit bazında elde etmenize izin verecektir. vakalar.

İş akışı belirtimi

Anormalliklerin tespiti ve kaldırılması için bir iş akışına sahip olun. Verileri denetleme prosedüründen sonra başlar ve yüksek kaliteli verilerin nihai ürününün elde edilmesinde çok önemlidir. Uygun bir iş akışı oluşturmak, verilerdeki anormalliklerin ve hataların nedenlerinin yakından izlenmesini gerektirir.

İş akışı yürütme

Bu aşamada, gereksinimi tamamlandıktan ve doğruluğu onaylandıktan sonra iş akışını yürütün.

İş akışının uygulanması, bir veri temizleme sürecinin yürütülmesi hesaplama açısından maliyetli olabileceğinden, kaçınılmaz olarak bir ödünleşim oluşturan çok büyük veri kümelerinde bile iyi organize edilmelidir.

İşlem sonrası ve kontrol

Temizleme iş akışını tamamladıktan sonra, doğruluğu doğrulamak için sonuçları inceleyin. Mümkünse, iş akışının yürütülmesinden sonra kalan yanlış verileri manuel olarak ayarlayın.

Sonuç, verileri otomatik işleme yoluyla daha fazla temizlemek için ek bir iş akışı gereksinimine izin vermek için verileri yeniden denetlediğiniz veri temizleme prosedüründe yeni bir sıradır.

veri temizleme

Daha kaliteli bir kaynak verinin “Veri Kalite Kültürü” ile ilgisi vardır ve her kuruluş bunu işletme kuruluşunun en üstünde başlatmalıdır.

Bu sadece giriş ekranlarında güvenli doğrulama kontrolleri yürütmekle ilgili değildir, çünkü bu kontroller ne kadar dikkatli olursa olsun, genellikle kullanıcılar tarafından atlanabilirler.

Veri kalitesini artırmak isteyen kuruluşlar için dokuz adımlık bir kılavuz var:

  • Bir veri kalitesi kültürü için üst düzey bir güvence beyan edin
  • Politika oluşturma düzeyinde prosedür yeniden yapılandırmasını teşvik edin
  • Veri girişi ayarını ilerletmek için hamur harcayın
  • Uygulama entegrasyonunu geliştirmek için para harcayın
  • Süreçlerin işleyişini değiştirmek için para ayırın
  • Uçtan uca ekip duyarlılığını onaylayın
  • Bölümler arası işbirliğini teşvik edin
  • Veri kalitesi üstünlüğünü herkese açık olarak ortaya çıkarın
  • Veri kalitesini durmaksızın ölçün ve geliştirin

Diğerleri şunlardan oluşur:

Ayrıştırma

sözdizimi hatalarının tanınması için. Ayrıştırıcı, izin verilen veri belirtimi dahilinde bir veri dizisinin kabul edilebilir olup olmadığını seçer. Bir ayrıştırıcının sözdizimleri ve dillerle uğraşmasına benzer.

Veri dönüşümü

Veri dönüştürme, verilerin verilen formattan uygun uygulama tarafından beklenen düzenlemeye çizilmesini sağlar. Minimum ve maksimum değerleri takip etmek için sayısal değerleri standartlaştırmanın yanı sıra değer dönüşümlerini veya çeviri prosedürlerini içerir.

Yinelenen eleme

Yinelenen algılama, verilerin aynı varlığın kopyalarına sahip olup olmadığını tanımlamak için bir algoritmaya ihtiyaç duyar. Genellikle veriler, daha hızlı tanımlama için aynı girişleri yakınlaştıracak bir anahtarla düzenlenir.

istatistiksel yöntemler

Bir uzman, ortalama, standart sapma, aralık veya kümeleme prosedürlerinin değerlerini kullanarak verileri inceleyerek, beklenmeyen ve dolayısıyla yanlış olan değerleri bulabilir.

Gerçek değer bilinmediğinden bu tür verilerin düzeltilmesi dik olsa da, değerleri ortalama veya başka bir istatistiksel değere ayarlayarak bunu çözebilirsiniz.

İstatistiksel yöntemlerin diğer bir kullanımı, genellikle kapsamlı veri artırma algoritmaları ile elde edilen bir veya daha fazla olası değerle değiştirilebilen kayıp değerleri ele almak zorundadır.

Veri hijyeni veya Veri kalitesi

Verilerin etkin ve verimli bir şekilde işlenebilir ve yorumlanabilir olması için bir dizi kalite kriterini karşılaması gerekir. Bu kalite kriterlerini karşılayan verilerin yüksek kalitede olduğu söylenir. Genel olarak, bir dizi kalite kriteri üzerinden birleştirilmiş bir değer, veri kalitesidir.

İçinde belirtilen kalite kriterlerinden başlayarak, kapsamlı veri temizliğinden etkilenen standartlar dizisini tanımlıyor ve mevcut bir veri toplama için her biri için puanların nasıl değerlendirileceğini tanımlıyoruz.

Bir veri toplamanın kalitesini ölçmek için kalite kriterlerinin her birine ilişkin derecelendirmeleri değerlendirin.

Kalite kriterleri için puanların değerlendirilmesini kullanmak, veri toplama için veri temizleme gerekliliğinin yanı sıra bir veri toplama üzerinde gerçekleştirilen bir veri temizleme işleminin başarısını ölçmenin bir yolu olabilir.

Belirli kuralları etkileyen veri temizleme yöntemlerinin yürütülmesini etkileyen gereksinimlerin her biri için öncelikler belirleyerek veri temizleme optimizasyonu içinde kalite kriterlerini kullanabilirsiniz.

veri hijyeni

Geçerlilik

Verilerin tanımlanmış iş kurallarına veya kısıtlamalarına uyduğu nokta.

  • Veri Türü Kısıtlamaları: belirli bir sütundaki değerler, örneğin boole, sayısal, tarih vb. gibi belirli bir veri türünde olmalıdır.
  • Aralık Kısıtlamaları: genellikle sayılar veya tarihler belirli bir aralıkta olmalıdır.
  • Zorunlu Kısıtlamalar : belirli sütunlar boş bırakılamaz.
  • Benzersiz Kısıtlamalar: Bir alan veya alanların karışımı, bir veri kümesinde ayırt edici olmalıdır.
  • Küme-Üyelik kısıtlamaları : bir sütunun değerleri, bir dizi ayrık değerden, örneğin, enum değerleri. Örneğin, cinsiyet erkek, kadın veya diğerleri olabilir.
  • Yabancı anahtar kısıtlamaları : ilişkisel veritabanı sistemlerinde olduğu gibi, başvurulan birincil anahtarda bir yabancı anahtar sütunu bulunmalıdır.
  • Normal ifade kalıpları: Metin alanları belirli bir tasarımı izlemelidir. Örneğin, telefon numaralarının belirli bir profile (xxx) xxx-xxx uyması gerekir.
  • Alanlar arası doğrulama: Çok sayıda alana yayılan belirli ayarların olması gerekir, örneğin bir hastanın hastaneden çıkış tarihi, kabul zamanından önce olamaz.

Kesinlik

Verilerin gerçek değerlere yakın olma derecesi. Tüm olası geçerli alan değerlerinin ana hatlarını çizmek, geçersiz değerlerin kolayca tespit edilmesini sağlarken, bu onların doğru oldukları anlamına gelmez.

Geçerli bir sokak adresi mevcut olmayabilir. A   kişinin göz rengi, diyelim ki mavi, doğru olabilir ama doğru değil. Unutulmaması gereken bir diğer şey de doğruluk ve kesinlik arasındaki farktır.

Dünya gezegeninde yaşadığınızı söylemek doğrudur. Ancak kesin değil. Gezegenin neresinde? Belirli bir sokak adresinde yaşadığınızı varsaymak daha doğrudur.

eksiksizlik

Gerekli tüm verilerin bilindiği ve özümsendiği nokta.

Veriler çeşitli nedenlerle eksik olacaktır. Kaynağı sorgulayarak bu sorunu azaltabiliriz.

Olasılıklar, ya farklı bir cevap alacaksınız ya da tekrar tespit etmekte zorlanacaksınız.

Tutarlılık

Eşleşen veri kümesi içinde veya birkaç benzer veri kümesi arasında verilerin başarısız olma derecesi.

Tutarsızlık, veri kümesindeki iki değer birbiriyle çeliştiğinde ortaya çıkar.

Geçerli   Yaş, diyelim 10, medeni durumla eşleşmeyebilir, diyelim ki boşanmış. Bir müşteriyi iki ayrı adresle iki farklı tabloya kaydetmek bir tutarsızlıktır.

Hangisi doğru?

tekdüzelik

Belirtilen verilerin, göstergenin aynı birimini kullanma derecesi.

Pound veya kilo cinsinden ağırlık, ABD formatında veya Avrupa formatında bir tarih ve bazen USD veya YEN cinsinden para birimi.