피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석
피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석
다음 사례(Freedman, 2007에 제시된 결과의 연장)는 약간 어처구니 없긴 하지만 중요한 요점을 보여주고 있다. 연구 목적이 둘레로부터 사각형 면적을 예측하는 모형을 찾기 위함이라고 해보자.
그림 45.9는 둘레가 더 큰 사각형이 면적도 더 큰 경향을 보이고, 두 개의 이상값(outlier)이 있다. 그림 45.10은 남아 있는 점들("이상값"을 제외한 후) 가능한 모형에 적합시킨 결과다. 직선 모형(그림 45.10, 왼쪽)이 적절한 듯하지만, S자 모형(그림 45.10, 오른쪽)이 데이터를 더 잘 적합시킨다.
그림 45.11은 사각형을 더 늘려 데이터를 추가한 결과다. 이제 두 이상값은 실제로 그다지 비정상이 아닌 것처럼 보인다. 그림 45.11의 오른쪽은 임시로 두 종류의 사각형을 열린 동그라미와 채운 동그라미로 구분하고 각각 다른 모형으로 적합시킨 결과다.
위의 과정이 실제 과학처럼 보이지만 그렇지는 않다. 같은 둘레를 갖는 두 사각형은 모양에 따라 매우 다른 면적을 가질 수 있다. 둘레로부터 사각형 면적을 예측하는 일은 가능하지 않다. 면적은 높이와 너비(또는 둘레와 높이 및 너비 중 하나, 둘레와 높이/너비의 비)로부터 산출된다. 사각형의 모양을 결정하는 중요한 변수(높이, 너비 또는 두 값의 비)가 분석에는 빠졌다. 이러한 데이터를 이해하기 위해서는 환상적인 통계 분석이 아니라 결측 변수를 확인하는 단순한 생각이 필요했다. 종속과 독립 변수 모두에 영향을 주는 결측 변수를 잠복 변수(lurking variable)라고 부른다.