피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석


다음 사례(Freedman, 2007에 제시된 결과의 연장)는 약간 어처구니 없긴 하지만 중요한 요점을 보여주고 있다. 연구 목적이 둘레로부터 사각형 면적을 예측하는 모형을 찾기 위함이라고 해보자.


그림 45.9는 둘레가 더 큰 사각형이 면적도 더 큰 경향을 보이고, 두 개의 이상값(outlier)이 있다. 그림 45.10은  남아 있는 점들("이상값"을 제외한 후) 가능한 모형에 적합시킨 결과다. 직선 모형(그림 45.10, 왼쪽)이 적절한 듯하지만, S자 모형(그림 45.10, 오른쪽)이 데이터를 더 잘 적합시킨다.





그림 45.11은 사각형을 더 늘려 데이터를 추가한 결과다. 이제 두 이상값은 실제로 그다지 비정상이 아닌 것처럼 보인다. 그림 45.11의 오른쪽은 임시로 두 종류의 사각형을 열린 동그라미와 채운 동그라미로 구분하고 각각 다른 모형으로 적합시킨 결과다.


위의 과정이 실제 과학처럼 보이지만 그렇지는 않다. 같은 둘레를 갖는 두 사각형은 모양에 따라 매우 다른 면적을 가질 수 있다. 둘레로부터 사각형 면적을 예측하는 일은 가능하지 않다. 면적은 높이와 너비(또는 둘레와 높이 및 너비 중 하나, 둘레와 높이/너비의 비)로부터 산출된다. 사각형의 모양을 결정하는 중요한 변수(높이, 너비 또는 두 값의 비)가 분석에는 빠졌다. 이러한 데이터를 이해하기 위해서는 환상적인 통계 분석이 아니라 결측 변수를 확인하는 단순한 생각이 필요했다. 종속과 독립 변수 모두에 영향을 주는 결측 변수를 잠복 변수(lurking variable)라고 부른다.

Posted by cyberdoc
: