데이터 정리란 무엇입니까?

게시 됨: 2021-11-18

오래전부터 기업은 고객을 이해하고 ROI 증대를 위한 전략적 결정을 내릴 때 데이터의 중요성을 인식했습니다.

그러나 맞춤형 제품 및 솔루션을 제공하기 위한 경쟁에서 데이터 품질에 대한 중요한 사실이 무시되고 잘못된 분석 추론과 비용이 많이 드는 비즈니스 결정으로 이어집니다.

Gartner는 "낮은 데이터 품질이 조직에 미치는 평균 재정적 영향은 연간 970만 달러입니다."라고 말합니다. 정확한 데이터 진입점, 효과적인 데이터 통합, 데이터 표준화 및 데이터 정리 방법을 보장하여 데이터 품질을 향상시킬 수 있습니다.

데이터 정리 및 강화 기술을 실제로 적용하면 맞춤형 도구(스파이더, 봇, 스크립트) 및 수동 프로세스를 개발하여 비즈니스 크리티컬 데이터를 생성, 검증, 업데이트, 향상 및 향상하는 데 도움이 될 수 있습니다.

다음은 잘못된 데이터의 몇 가지 의미입니다.

Ovum Research에 따르면 데이터 품질이 좋지 않으면 기업이 수익의 30% 이상을 지출해야 합니다.
잘못된 판매 데이터로 인해 영업 사원은 죽은 리드에 시간을 낭비하게 됩니다. 부정확한 데이터는 비즈니스를 편향된 전략으로 이끌 수 있습니다.
MarketingSherpa는 매년 데이터의 25-30%가 손상된다고 말합니다. 잘못된 데이터는 고객 인구 통계 및 구매 행동에 대한 왜곡된 정보를 제공하여 마케터에게 기회를 놓칠 수 있습니다.
의사 소통 부재는 고객에게 엄청난 방해 요소입니다. 잘못된 데이터는 고객과의 잘못된 의사 소통, 고객의 불만, 심지어 소셜 미디어의 부정적인 브랜딩의 원인이 될 수 있습니다.

데이터 정리란?

데이터 정리 또는 데이터 정리는 레코드 집합, 테이블 또는 데이터베이스에서 퇴보하거나 부정확한 레코드를 찾아 수정하는 방법입니다. 데이터의 단편적이고 부정확하거나 부정확하거나 관련이 없는 부분을 감지한 다음 더럽거나 거친 데이터를 대체, 수정 또는 제거하는 것을 말합니다.

데이터 정리는 데이터 랭글링 솔루션과 대화식으로 실행하거나 스크립팅에 의한 일괄 처리로 실행할 수 있습니다. 삭제 후 데이터 세트는 시스템의 다른 유사한 데이터 세트와 일관성이 있어야 합니다.

감지 또는 제거된 불일치는 처음에 사용자 입력의 부정확성, 전송 또는 저장의 왜곡 또는 서로 다른 저장소에 있는 동일한 엔티티의 서로 다른 데이터 사전 정의로 인해 발생할 수 있습니다.

데이터 정리는 데이터가 데이터 집합이 아니라 입력 시 시스템에서 제외되고 입력 시 달성된다는 점에서 거의 변함없이 유효성 검사가 데이터 인증과 다릅니다.

데이터 정리의 실제 절차는 인쇄상의 오류를 제거하거나 알려진 객체 목록과 비교하여 값을 인증하고 수정하는 것을 포함할 수 있습니다. 유효성 검사는 엄격하거나(예: 유효한 우편 번호가 없는 주소 거부) 모호할 수 있습니다(예: 기존의 알려진 계정과 일치하는 기록 수정).

일부 데이터 정리 도구는 인증된 데이터 세트를 교차 확인하여 데이터를 정리합니다. 일반적인 데이터 정리 방식은 데이터 향상으로, 관련 정보를 추가하여 데이터를 완성합니다.

데이터 정리에는 "가변 파일 형식, 명명법 및 열"의 데이터를 모아 하나의 응집력 있는 데이터 세트로 변경하는 프로세스인 데이터의 동기화(또는 정규화)도 포함될 수 있습니다. 간단한 예는 두문자어의 확장입니다.

데이터를 정리하는 방법?

클린 데이터는 중요한 연구와 통찰력의 기초입니다. 따라서 데이터 과학 임원은 데이터 정리 및 정규화에 시간의 80%를 보냅니다. 데이터 정리는 다양한 접근 방식을 따릅니다.

데이터 감사

통계 및 데이터베이스 방법을 사용하여 데이터를 감사하여 이상과 모순을 감지합니다. 이는 결국 특성과 지역의 특성을 나타냅니다.

여러 도구를 사용하면 다양한 종류의 검사(JavaScript 또는 Visual Basic과 같은 표준 인코딩을 모방하는 문법 사용)를 가정한 다음 이러한 제약 조건 위반에 대해 데이터를 검사하는 코드를 생성할 수 있습니다.

아래의 "워크플로 사양"과 "워크플로 실행"에서 프로세스를 설명했습니다. 고급 정리 도구에 액세스할 수 없는 사용자의 경우 MS Access 또는 File Maker Pro와 같은 마이크로컴퓨터 데이터베이스 관리 시스템을 통해 제한적으로 이러한 인증을 얻을 수 있습니다. 사례.

워크플로 사양

이상 탐지 및 제거를 위한 워크플로가 있습니다. 데이터 감사 절차 이후에 시작되며 고품질 데이터의 최종 제품을 달성하는 데 중요합니다. 적절한 워크플로를 만들려면 데이터의 이상 및 오류 원인을 면밀히 모니터링해야 합니다.

워크플로 실행

이 단계에서는 요구 사항이 완료되고 정확성이 확인된 후 워크플로를 실행합니다.

워크플로의 적용은 방대한 데이터 세트에 대해서도 잘 구성되어야 합니다. 데이터 정리 프로세스를 수행하는 데 계산 비용이 많이 들 수 있기 때문에 불가피하게 상충 관계가 발생합니다.

후처리 및 제어

클렌징 워크플로를 완료한 후 결과를 확인하여 정확성을 확인합니다. 가능한 경우 워크플로 실행 후 잘못된 데이터를 수동으로 조정합니다.

그 결과 데이터를 다시 감사하여 자동 처리를 통해 데이터를 정리하기 위한 추가 워크플로의 요구 사항을 허용하는 데이터 정리 절차의 새로운 시퀀스입니다.

더 나은 품질의 소스 데이터는 "데이터 품질 문화"와 관련이 있으며 모든 조직은 비즈니스 조직의 최상위에서 이를 시작해야 합니다.

입력 화면에서 보안 유효성 검사를 실행하는 것만이 문제가 아닙니다. 이러한 검사가 아무리 조심스럽더라도 사용자가 여전히 무시할 수 있기 때문입니다.

데이터 품질을 개선하고자 하는 시설을 위한 9단계 가이드가 있습니다.

데이터 품질 문화에 대한 높은 수준의 보증 선언
정책 결정 수준에서 절차 재설계 추진
데이터 입력 설정을 진행하기 위해 돈을 쓰세요
애플리케이션 통합을 개발하는 데 돈을 쓰십시오.
프로세스가 작동하는 방식을 변경하는 데 돈을 투자하십시오.
엔드 투 엔드 팀 응답성 보증
부서 간 협업을 장려
데이터 품질 우수성을 공개적으로 공개
데이터 품질의 끊임없는 측정 및 향상

기타 구성:

파싱

구문 오류 인식을 위해. 파서는 데이터 문자열이 허용된 데이터 사양 내에서 허용되는지 여부를 선택합니다. 구문 분석기가 구문과 언어를 사용하는 방식과 유사합니다.

데이터 변환

데이터 변환을 통해 주어진 형식의 데이터를 적절한 응용 프로그램에서 예상하는 배열로 플로팅할 수 있습니다. 최소값과 최대값을 따르도록 숫자 값을 표준화할 뿐만 아니라 값 변환 또는 변환 절차를 통합합니다.

중복 제거

중복 감지에는 데이터에 동일한 엔터티의 중복 항목이 있는지 정의하는 알고리즘이 필요합니다. 일반적으로 데이터는 더 빠른 식별을 위해 동일한 항목을 더 가깝게 가져오는 키로 정렬됩니다.

통계적 방법

평균, 표준 편차, 범위 또는 클러스터링 절차의 값을 사용하여 데이터를 검사함으로써 전문가는 예상치 못한 잘못된 값을 찾을 수 있습니다.

이러한 데이터의 수정은 실제 액면가를 모르기 때문에 가파르게 되지만 값을 평균값이나 기타 통계값으로 설정하여 해결할 수 있습니다.

통계적 방법의 또 다른 용도는 하나 이상의 가능한 값으로 대체될 수 있는 손실된 액면가를 처리해야 하며, 이는 일반적으로 광범위한 데이터 증대 알고리즘에 의해 획득됩니다.

데이터 위생 또는 데이터 품질

효과적이고 효율적으로 처리하고 해석할 수 있는 데이터는 일련의 품질 기준을 충족해야 합니다. 이러한 품질 기준을 충족하는 데이터를 고품질이라고 합니다. 일반적으로 일련의 품질 기준에 대해 집계된 값은 데이터 품질입니다.

에 지정된 품질 기준을 시작으로 포괄적인 데이터 정리의 영향을 받는 일련의 표준을 설명하고 기존 데이터 수집에 대해 각 표준에 대한 점수를 평가하는 방법을 정의합니다.

데이터 수집의 품질을 측정하기 위해 각 품질 기준에 대한 등급을 평가합니다.

품질 기준에 대한 점수 평가를 사용하는 것은 데이터 수집을 위한 데이터 정리의 필요성과 데이터 수집에 대해 수행된 데이터 정리 프로세스의 성공을 수량화하는 방법이 될 수 있습니다.

각 요구 사항에 대한 우선 순위를 지정하여 데이터 정리 최적화 내에서 품질 기준을 사용할 수 있으며, 이는 차례로 특정 규칙에 영향을 미치는 데이터 정리 방법의 실행에 영향을 줍니다.

타당성

데이터가 정의된 비즈니스 규칙 또는 제약 조건에 맞는 지점입니다.

데이터 유형 제약: 특정 열의 값은 부울, 숫자, 날짜 등과 같은 특정 데이터 유형이어야 합니다.
범위 제약: 일반적으로 숫자 또는 날짜는 특정 범위 내에 있어야 합니다.
필수 제약 조건 : 특정 열은 비워둘 수 없습니다.
Unique Constraints: 필드 또는 영역의 혼합은 데이터 세트 전체에서 고유해야 합니다.
Set-Membership 제약 : 열의 명칭은 열거형 값과 같은 개별 값 집합에서 나옵니다. 예를 들어, 성별은 남성, 여성 또는 기타일 수 있습니다.
외래 키 제약 조건 : 관계형 데이터베이스 시스템과 마찬가지로 외래 키 열은 참조되는 기본 키에 있어야 합니다.
정규식 패턴: 텍스트 필드는 특정 디자인을 따라야 합니다. 예를 들어 전화번호는 특정 프로필(xxx) xxx-xxx를 준수해야 합니다.
교차 필드 검증: 여러 필드에 걸쳐 있는 특정 설정이 유지되어야 합니다. 예를 들어, 환자의 퇴원 날짜는 입원 시간 이전일 수 없습니다.

정확성

데이터가 실제 값에 가까운 정도입니다. 가능한 모든 유효한 필드 값을 요약하면 잘못된 값을 쉽게 발견할 수 있지만 이것이 정확하다는 의미는 아닙니다.

유효한 주소가 존재하지 않을 수 있습니다. ㅏ 사람의 눈 색깔, 예를 들어 파란색은 정확할 수 있지만 정확하지는 않습니다. 잊지 말아야 할 또 하나의 사실은 정확성과 정확성의 차이입니다.

지구에 살고 있다는 말이 옳습니다. 그러나 정확하지 않습니다. 지구 어디? 특정 주소에 산다고 가정하는 것이 더 정확합니다.

완전성

필요한 모든 데이터가 알려지고 동화되는 지점.

다양한 원인으로 데이터가 누락됩니다. 소스에 질문을 하면 이 문제를 완화할 수 있습니다.

다른 답변을 받거나 다시 확인하기가 어려울 수 있습니다.

일관성

일치하는 데이터 세트 내에서 또는 여러 유사한 데이터 세트에서 데이터가 실패하지 않는 정도입니다.

데이터 세트의 두 값이 서로 논쟁할 때 불일치가 발생합니다.

유효한 나이, 예를 들어 10, 이혼 여부와 같은 결혼 상태와 일치하지 않을 수 있습니다. 두 개의 개별 주소가 있는 두 개의 다른 테이블에 고객을 기록하는 것은 일관성이 없습니다.

어느 것이 사실입니까?

일률

지정된 데이터가 게이지의 동일한 단위를 활용하는 정도입니다.

파운드 또는 킬로 단위의 무게, 미국 형식 또는 유럽 형식의 날짜, 때로는 USD 또는 YEN의 통화.