피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

통계 연습 2014. 6. 22. 15:39 |

피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석

다음 사례(Freedman, 2007에 제시된 결과의 연장)는 약간 어처구니 없긴 하지만 중요한 요점을 보여주고 있다. 연구 목적이 둘레로부터 사각형 면적을 예측하는 모형을 찾기 위함이라고 해보자.

그림 45.9는 둘레가 더 큰 사각형이 면적도 더 큰 경향을 보이고, 두 개의 이상값(outlier)이 있다. 그림 45.10은 남아 있는 점들("이상값"을 제외한 후) 가능한 모형에 적합시킨 결과다. 직선 모형(그림 45.10, 왼쪽)이 적절한 듯하지만, S자 모형(그림 45.10, 오른쪽)이 데이터를 더 잘 적합시킨다.

그림 45.11은 사각형을 더 늘려 데이터를 추가한 결과다. 이제 두 이상값은 실제로 그다지 비정상이 아닌 것처럼 보인다. 그림 45.11의 오른쪽은 임시로 두 종류의 사각형을 열린 동그라미와 채운 동그라미로 구분하고 각각 다른 모형으로 적합시킨 결과다.

위의 과정이 실제 과학처럼 보이지만 그렇지는 않다. 같은 둘레를 갖는 두 사각형은 모양에 따라 매우 다른 면적을 가질 수 있다. 둘레로부터 사각형 면적을 예측하는 일은 가능하지 않다. 면적은 높이와 너비(또는 둘레와 높이 및 너비 중 하나, 둘레와 높이/너비의 비)로부터 산출된다. 사각형의 모양을 결정하는 중요한 변수(높이, 너비 또는 두 값의 비)가 분석에는 빠졌다. 이러한 데이터를 이해하기 위해서는 환상적인 통계 분석이 아니라 결측 변수를 확인하는 단순한 생각이 필요했다. 종속과 독립 변수 모두에 영향을 주는 결측 변수를 잠복 변수(lurking variable)라고 부른다.

저작자표시

'통계 연습' 카테고리의 다른 글

피해야 할 통계의 덫 #12: 위양성 결과가 얼마나 흔한지 깨닫지 못함 (0)	2014.06.27
피해야 할 통계의 덫 #10: 데이터를 집단으로 합쳐서 중요한 발견 놓치기 (0)	2014.06.20
피해야 할 통계의 덫 #9: 통계적으로 뚜렷한 차이가 있는 결과와 없는 결과를 비교하기 (0)	2014.06.18
피해야 할 통계의 덫 #8: 변이나 비정상값에 대해 묻지 않고 평균에만 집중하기 (0)	2014.06.13
피해야 할 통계의 덫 #7: 집단 단위로만 수집한 데이터로 개인에 대하여 결론 내리기 (0)	2014.06.13

Posted by cyberdoc

Notice

Category

Tags

Recent Posts

Recent Comments

Recent Trackbacks

Archives

Links

피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석

'통계 연습' 카테고리의 다른 글

티스토리툴바