통계
다중공선성 (multicollinearity)
NowChan
2021. 12. 18. 16:31
다중공선성이란 입력 변수들 간의 상관 정도가 높은 상태를 말한다.
$$Y=w_0+w_1X_1+w_2X_2+...+w_nX_n$$
상관 정도가 높은(피어슨 상관계수로 1에 가까운) 변수가 X_1 ≃ X_2라면, 아래와 같이 나타낼 수 있고, Y가 다르게 가정된다.
$$Y\ \backsimeq \ w_0+\left(w_1+w_2\right)X_1+w_3X_3+...+w_nX_n$$
그렇게 되면, 변수의 중요성을 설명할 때 올바른 설명을 하지 못하게 된다. 다중 공선성이 높은 변수를 몇 개 제거 후 분석하면 된다.