피해야 할 통계의 덫 #10: 데이터를 집단으로 합쳐서 중요한 발견 놓치기


대학원에 지원한 남학생 중 44.3%가 입학 허가를 얻지만 여학생은 34.6%만 얻는다(표 45.3을 보라; Bickel, Hammel, & O'Connell, 1975). 성비는 1.28이고 95% 신뢰구간은 1.22부터 1.34였다. P 값은 0.0001 미만이었다.


 

 합격

불합격 

 합격 백분율

 남학생

3,738

4,704

44.3

 여학생

1,494

2,827

34.6

표 45.3. 1973년 버클리 대학원 과정 합격. 합친(pooled) 데이터.


일견 보기에 데이터는 성차별의 증거를 제시해주는 것처럼 보이지만, 대학원 과정마다 고유의 합격 결정을 내려온 여러 대학원으로부터 데이터를 합쳐서 합격률을 계산했기 때문이다.

위의 데이터가 성차별을 입증하는 것처럼 보이지만, 실제로 이 데이터는 매우 오도하고 있다. 문제는 많은 대학원으로부터 얻은 결과를 합친 데이터라는 점이다. 만일 학생들이 여러 대학원 과정에 지원했고 합격 결정을 한 곳에서 내렸다면 말이 된다. 그러나 대학원 입학은 그와 같은 방식으로 이뤄지지 않았다. 학생들은 지원할 과정을 선택하고, 과정마다 독자적인 합격 결정이 내려졌다. 그러므로 과정마다 개별적으로 데이터를 분석하는 일은 필수다. 연구진이 이와 같이 분석했을 때, 남학생과 여학생의 합격률이 거의 같음을 발견했다. 85개 과정 중 75개에서 통계적으로 뚜렷한 차이가 없었다(표 45.4를 보라). 네 개의 과정에서 통계적으로 뚜렷한 차이가 있었고, 여학생이 덜 합격하는 경향이 있었다. 여섯 개의 과정에서 통계적으로 뚜렷한 차이가 있었고, 여학생이 더 합격하는 경향이 있었다. 전체적으로 저자는 성차별의 증거를 발견하지 못했다. 그래서 무슨 일이 일어나게 됐는가? 왜 합친 데이터는 성차별을 시사했을까?


차별의 증거가 있는가?

과정 개수 

입학 결정에서 통계적으로 뚜렷한 차이가 없음

75 

남학생 선호(P<0.05)

여학생 선호(P<0.05) 

전체 과정 개수

85 

표 45.4. 1973년 버클리 대학원 과정 합격, 과정별


일부 대학원 과정은 지원자 합격률이 높았고 다른 과정은 낮았다. 여학생 합격률이 가장 높은 두 대학원 과정은 지원자의 34%와 24%에 지나지 않았지만, 남학생 합격률이 가장 높은 두 대학원 과정은 지원자의 62%와 63%나 됐다(Freedman, 2007). 여학생 비율이 낮은 이유는 전체적으로 단순했다. 여학생이 남학생보다 좀더 선택적인 과정에 지원하는 경향이 있기 때문이었다.


이는 심슨의 역설(Simpson's paradox)의 고전적 사례다. 합친 데이터를 분석하면 오도된 결과를 얻을 수 있다.


같은 문제가 일부 의학 연구에서 일어나곤 한다. 만약 신약이 암을 더 잘 치료하는지 검정하기 위해 모든 종류의 암환자를 합쳐셔 분석하는 경우를 생각해보자. 암은 서로 다른 약물에 반응하는 여러 질환군이다. 모든 진단을 한 연구에 결합시키면 실망스럽고 결정적이지 않은 결과를 얻게 된다. 대부분의 많은 의학적 상태(아마 패혈증 쇽, 유방암, 자폐증이 포함된다)는 실제로 분명한 장애의 조합이다. 개별 질환을 식별하는 법을 알아낼 때까지, 치료법에 대한 여러 연구는 애매할 수도 있다.


Bickel, P. J., Hammel, E. A., & O'Connell, J. W. (1975). Sex bias in graduate admissions. Data from Berkeley. Science, 187, 398-404.

Freedman, D. (1983). A note on screening regression equations. American Statistician, 37, 152-155.

Posted by cyberdoc
: