피해야 할 통계의 덫 #9: 통계적으로 뚜렷한 차이가 있는 결과와 없는 결과를 비교하기


그림 45.8과 비슷한 그림을 과학 학술지에서 많이 보게 된다. 야생형과 돌연변이 동물에서 반응을 비교하였다. 논문에서 결과는 다음과 같이 요약될 수 있다. "야생형 쥐에서 흡수량의 약물 유발 증가는 통계적으로 뚜렷한 차이가 없었지만(not statistically significant, P=0.068), 돌연변이 쥐에서 증가는 통계적으로 뚜렷한 차이가 있었다(statistically significant, P=0.004)." (옮긴이 주: significant를 '유의한'으로 옮기면 중요한 결과라는 의미가 탈색되어 '뚜렷한' 또는 '뚜렷한 차이가 있는'으로 옮겼다.)



위와 같은 서술에서 어떤 결론을 이끌어낼 수 있을까? 언뜻 보기에 야생형 쥐와 비교하여 돌연변이 쥐에서 약물 자극 흡수 사이에 통계적으로 뚜렷한 차이가 있음이 분명한 결론인 듯하다. 그러나 이는 잘못된 결론이다(Nieuwenhuis, Forstmann, & Wagenmakers, 2011). Gelman과 Stern (2006)이 요약한 바에 따르면, "'뚜렷한 차이가 있는' 결과와 '뚜렷한 차이가 없는' 결과끼리 차이 그 자체는 통계적으로 뚜렷한 차이가 없다."


만약 두 군의 전후 차이끼리도 차이가 있는지 결론을 내리기를 원한다면, 정확한 질문을 검정하도록 설계된 통계적 기법을 이용할 필요가 있다. 두 군 동물에서 자극 전 흡수량이 매우 비슷했으므로, 야생형 동물에서 자극 후 흡수량은 돌연변이 동물에서 자극 후 흡수량을 짝짓지 않은 t 검정을 이용하여 직접 비교할 수 있다. 두 군의 평균 차이는 18.7이었고, 95% 신뢰구간은 -1.8부터 39.1이었다(P=0.064). (이 책이 다루는 범위를 넘어서는) 좀더 근사한 접근은 이원 분산분석(two-way ANOVA)을 이용해 상호작용이 없다는 귀무가설을 검정하는 P값을 산출하는 것이다. (이때 귀무가설은 야생형과 돌연변이 동물에서 자극 전과 자극 후의 차이가 같다가 된다.) 결론은 같았다. 돌연변이와 야생형 동물에서 약물 자극 전달장치 흡수량의 차이는 통계적으로 뚜렷한 차이가 없었다.


한 쪽의 P값이 0.04이고 다른 한 쪽의 P값이 0.06이었을 때, 적용하는 일은 그리 사소한 주제가 아니다. Bland와 Altman (2011)는 시뮬레이션을 수행하여 한 군에서 통계적으로 뚜렷한 차이가 있는 변화와 다른 한 군에서 통계적으로 뚜렷한 차이가 없는 변화의 차이에 대해 누군가 내린 결론에 의해 얼마나 쉽게 잘못된 길로 들어서는지를 보였다. 시뮬레이션에서 두 인구집단에서 실제 평균 증가의 차이는 없었다. 그러나 38%의 시뮬레이션에서는 한 군에서는 통계적으로 뚜렷한 증가가 있었지만 다른 군에서는 없었다고 나왔다.


Bland, J. M. J., & Altman, D. G. D. (2011). Comparisons against baseline within randomized groups are often used and can be highly misleading. Trials, 12, 264.

Gelman, A., & Stern, H. (2006). The difference between "significant" and "not significant" is not itself statistically significant. American Statistician, 60, 328-331.

Nieuwenhuis, S., Forstmann, B. U., & Wagenmakers, E. J. (2011). Erroneous analyses of interaction in neuroscience: A problem of significance. Nature Neuroscience, 14, 1105-1107.

Posted by cyberdoc
:


피해야 할 통계의 덫 #8: 변이나 비정상값에 대해 묻지 않고 평균에만 집중하기


"수학 성적이 여학생에서 차이가 없다고, 연구 결과 밝혀졌다,"고 뉴욕 타임스 지가 몇 해 전 보도했다(Lewin, 2008). 꼭 그렇지는 않다(Briggs, 2008a). 연구는 남학생과 여학생에서 수학 성적 평균은 본질적으로 차이가 없다는 결과 외에도, 변이는 차이가 있음을 보였다(Hyde 등, 2008). 남학생 성적의 변이가 더 컸고, 상위 1%에는 여학생보다 남학생이 두 배나 많았다. 이 데이터를 충분히 이해하려면, 단지 평균만이 아닌 더 많은 값을 고려해야만 한다. Kane과 Mertz (2012)는 많은 나라에서 얻은 데이터셋을 이용하여 이 맥락의 연구를 계속했고 남학생의 수학 성적이 여학생보다 보편적으로 변이가 더 크지는 않다는 사실을 보였다.


또다른 사례가 있다. 스티븐 제이 굴드는 1870년부터 1970년까지 프로 야구의 변화가 궁금했다(Gould, 1997). 평균 타율이 (약 2할 6푼으로) 일정함에도, 왜 1941년 이후로 4할 타율 타자가 없는가? 평균을 살펴보는 것만으로 충분하지 않다. 굴드는 타율의 표준편차가 (거의 50%까지) 꽤나 떨어졌음을 발견했고, 연구 기간의 전반기 50년 동안 특히 많이 떨어졌다. 굴드는 선수, 코치, 심판, 시설 등이 모두 좀더 일관되기 때문에 변이가 줄어들게 됐다고 결론내렸다. 평균은 변하지 않았고 표준편차는 초기보다 좀더 작아졌기 때문에, 4할이 넘는 타율은 이제 믿을 수 없을 정도로 드물다. 굴드는 변이(표준편차)의 변화를 조사하기 전까지 야구에서 변화를 이해할 수 없었다.


생물학이나 임상 연구에서 변이는 종종 (실험 오류라기보다) 실제 생물학적 다양성을 반영한다. 이러한 다양성에 감사하라! 평균 비교에 매혹되면 안된다. 변이와 극단값에 주목하라. 노벨상은 평균으로부터 꽤 떨어진 값을 가진 개인들의 연구에 수여돼 왔다.


Briggs, W. M. (2008a). On the difference between mathematical ability between boys and girls. William M. Briggs (blog), July 25. Accessed June 21, 2009, from wmbriggs.com/blog/?p=163/.

Gould, S. J. (1997). Full house: The spread of excellence from Plato to Darwin. New York: Three Rivers Press. ISBN=0609801406 (스티븐 제이 굴드, 이명희 옮김, 『풀하우스』, 사이언스북스, 2002년)

Hyde, J. S., Lindberg, S. M., Linn, M. C., Ellis, A. B., & Williams, C. C. (2008). Diversity. Gender similarities characterize math performance. Science, 321, 494-495.

Lewin, T. (2008). Math scores show no gap for girls, study finds. New York Times, July 25. Accessed July 26, 2008, at www.nytimes.com/2008/07/25/education/25math.html.

Kane, J. M., & Mertz, J. E. (2012). Debunking myths about gender and mathematics performance. Notices of the AMS, 59, 10-21.

Posted by cyberdoc
:


피해야 할 통계의 덫 #7: 집단 단위로만 수집한 데이터로 개인에 대하여 결론 내리기


그림 45.6은 2011년 소득 중위수와 2012년 미국 대통령 선거 당시 공화당 후보였던 롬니에게 투표한 사람의 비율의 관련성을 보여준다(이 사례는 Statwing, 2012에서 따왔다). 그래프에는 각 주마다 하나씩 50개의 점이 있다. 관련성은 놀라울 정도다. 소득이 높은 주일수록, 롬니에게 투표한 사람의 비율이 더 적은 경향이었다.



소득이 높은 사람일수록 롬니에게 덜 투표했을 가능성이 있다는 뜻일까? 아니다! 그림 45.6에 나온 데이터로는 주 단위 결론만 내릴 수 있을 뿐이다. 만일 개인 단위 결론을 얻기 원한다면, 개인으로부터 얻은 데이터를 분석해야만 한다. 그림 45.7은 여론조사를 통해 얻은 개인의 결과를 보여준다. 소득과 지지 사이 강한 관련성이 있지만, 주 단위 데이터와 달리 반대 방향이다. 평균 소득이 높은 주들이 롬니를 덜 지지하는 경향이 있었음에도, 소득이 높은 사람일수록 롬니를 더 많이 지지했다.



무엇이 이런 불일치를 설명하는가? 주마다 많은 차이가 있다. 주별 데이터의 상관성은 해당 주에 사는 개인에 대하여 말해주지 못한다(Gelman & Feller, 2012). 집단 간 관련성을 이용하여 개인에 대해 잘못된 추론을 내리는 일을 생태학적 오류(ecological fallacy)라고 부른다. 또다른 예제로 이 장의 앞부분에 언급한 노벨상과 초콜릿에 대한 데이터가 있다. ('피해야 할 통계의 덫 #4: 데이터가 상관성만 보여줄 때 인과성으로 결론내리기' 참조)


Gelman, A., & Feller, A. (2012) Red versus blue in a new light. New York Times, September 12. Accessed January 2013 at campaignstops.blogs.nytimes.com/2012/11/12/red-versus-blue-in-a-new-light/.

Statwing. (2012). The ecological fallacy. Statwing (blog), December 20. Accessed February 8, 2013, at blog.statwing.com/the-ecological-fallacy/.


옮긴이 주:

생태학적 오류를 논할 때 관련 전공자는 Subramanian SV 등이 국제역학회지 2009년에 발표한 "로빈슨의 재발견: 개인주의적 및 생태학적 오류의 위험" 논문에 실린 '그림 5. 역학 연구의 위상학'을 꼭 알고 있어야 한다.




Posted by cyberdoc
: