다중공선성이란 입력 변수들 간의 상관 정도가 높은 상태를 말한다.
$$Y=w_0+w_1X_1+w_2X_2+...+w_nX_n$$
상관 정도가 높은(피어슨 상관계수로 1에 가까운) 변수가 X_1 ≃ X_2라면, 아래와 같이 나타낼 수 있고, Y가 다르게 가정된다.
$$Y\ \backsimeq \ w_0+\left(w_1+w_2\right)X_1+w_3X_3+...+w_nX_n$$
그렇게 되면, 변수의 중요성을 설명할 때 올바른 설명을 하지 못하게 된다. 다중 공선성이 높은 변수를 몇 개 제거 후 분석하면 된다.
'통계' 카테고리의 다른 글
LDA fisher analysis (0) | 2022.01.01 |
---|---|
RMSprop, Adam 알고리즘 해설 (0) | 2021.12.26 |