Data Science/Preprocessing
-
[이론] 데이터 결측값 종류와 처리 방법Data Science/Preprocessing 2023. 9. 29. 14:06
데이터 분석에서 결측치는 데이터가 정의되지 않는 것을 의미한다. 일반적으로는 0, 비어있음을 의미한다고 하나 엄밀히 말하면 아직 모르는 값이라고 할 수 있다. 결측치를 처리하는 가장 간단한 방법은 임의로 제거하거나, 대체하는 것이다. 임의로 제거하는 경우 사용 가능한 데이터가 감소하고, 임의로 대체하는 경우 데이터의 편향이 발생하여 분석 결과의 신뢰성이 저하될 수 있다. 결측치에 대한 데이터에 기반한 방법으로 처리하는 것이 가장 적절하다. 결측 데이터 종류 ⓵ 완전 무작위 결측(MCAR: Missing Completely At Random) → 어떤 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우 → 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 모집단..