[이론] 데이터 결측값 종류와 처리 방법
데이터 분석에서 결측치는 데이터가 정의되지 않는 것을 의미한다. 일반적으로는 0, 비어있음을 의미한다고 하나 엄밀히 말하면 아직 모르는 값이라고 할 수 있다. 결측치를 처리하는 가장 간단한 방법은 임의로 제거하거나, 대체하는 것이다. 임의로 제거하는 경우 사용 가능한 데이터가 감소하고, 임의로 대체하는 경우 데이터의 편향이 발생하여 분석 결과의 신뢰성이 저하될 수 있다. 결측치에 대한 데이터에 기반한 방법으로 처리하는 것이 가장 적절하다.
결측 데이터 종류
⓵ 완전 무작위 결측(MCAR: Missing Completely At Random)
→ 어떤 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
→ 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 모집단에서의 단순 무작위 표본추출을 통해 처리가 가능함
⓶ 무작위 결측(MAR: Missing At Random)
→ 변수 상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우
⓷ 비 무작위 결측(NMAR: Not Missing At Random)
→ 어떤 변수의 결측 데이터가 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의하는 즉, 결측변숫값이 결측여부(이유)와 관련이 있는 경우
결측값 처리 방법
단순 대치법(Simple Imputation)
→ MCAR, MAR의 경우 주로 사용됨
- 평균 대치법(Mean Imputation)
- 주어진 데이터의 평균으로 결측치를 대치하여 사용
- 평균에 의한 대치는 효율성의 향상 측면에서 장점이 있으나 통계량의 표준오차가 과소 추정되는 단점이 있음
- 모델 대치법
- 의사결정나무, 회귀분석 등 간단한 모델에 의한 예측치로 결측치를 대치하는 방법
- 단순확률 대치법(Single Stochastic Imputation)
- 확률추출에 의해서 전체 데이터 중 무작위로 대치하는 방법
- 최근접 대치법(Nearest-Neighbor Imputation)
- 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대체
이론적으로 위와 같은 결측값 처리 방법이 있지만, 결측치는 결측치 그대로 두거나 임의의 값(Special Value)으로 대치하여 결측값 자체에 의미를 부여하여 분석하려는 것이 요즘 트렌드인 것 같다.