Data Science
-
[이론] 데이터 결측값 종류와 처리 방법Data Science/Preprocessing 2023. 9. 29. 14:06
데이터 분석에서 결측치는 데이터가 정의되지 않는 것을 의미한다. 일반적으로는 0, 비어있음을 의미한다고 하나 엄밀히 말하면 아직 모르는 값이라고 할 수 있다. 결측치를 처리하는 가장 간단한 방법은 임의로 제거하거나, 대체하는 것이다. 임의로 제거하는 경우 사용 가능한 데이터가 감소하고, 임의로 대체하는 경우 데이터의 편향이 발생하여 분석 결과의 신뢰성이 저하될 수 있다. 결측치에 대한 데이터에 기반한 방법으로 처리하는 것이 가장 적절하다. 결측 데이터 종류 ⓵ 완전 무작위 결측(MCAR: Missing Completely At Random) → 어떤 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우 → 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 모집단..
-
Ridge / LASSO RegressionData Science/Modeling 2021. 10. 4. 16:36
Ridge와 LASSO Regression에 대한 자세한 설명은 다른 블로그에 잘 나와있으니 간단하게만 다룰 예정입니다. 대신, Ridge는 왜 가중치가 0이 되지 않고 LASSO는 0이 되는지 수식적으로 이해가 가지 않았는데, 이와 관련하여 개인적으로 이해가 수월했던 글이 있어 정리하고자 합니다. Ridge Regression Ridge Regression은 가중치의 제곱합을 최소화하는 것을 추가적인 제약 조건(L2-norm)으로 하는 선형 회귀 모델입니다. 패널티항인 $\lambda \sum_{i=1}^{n} \beta_i^2$이 추가됩니다. 이는 모델을 데이터에 맞추는 것뿐만 아니라 모델의 가중치가 가능한 한 작게 유지되도록 노력합니다. 패널티항은 학습하는 동안에만 추가되고, 테스트 셋에 대한 성능..