피해야 할 통계의 덫 #9: 통계적으로 뚜렷한 차이가 있는 결과와 없는 결과를 비교하기


그림 45.8과 비슷한 그림을 과학 학술지에서 많이 보게 된다. 야생형과 돌연변이 동물에서 반응을 비교하였다. 논문에서 결과는 다음과 같이 요약될 수 있다. "야생형 쥐에서 흡수량의 약물 유발 증가는 통계적으로 뚜렷한 차이가 없었지만(not statistically significant, P=0.068), 돌연변이 쥐에서 증가는 통계적으로 뚜렷한 차이가 있었다(statistically significant, P=0.004)." (옮긴이 주: significant를 '유의한'으로 옮기면 중요한 결과라는 의미가 탈색되어 '뚜렷한' 또는 '뚜렷한 차이가 있는'으로 옮겼다.)



위와 같은 서술에서 어떤 결론을 이끌어낼 수 있을까? 언뜻 보기에 야생형 쥐와 비교하여 돌연변이 쥐에서 약물 자극 흡수 사이에 통계적으로 뚜렷한 차이가 있음이 분명한 결론인 듯하다. 그러나 이는 잘못된 결론이다(Nieuwenhuis, Forstmann, & Wagenmakers, 2011). Gelman과 Stern (2006)이 요약한 바에 따르면, "'뚜렷한 차이가 있는' 결과와 '뚜렷한 차이가 없는' 결과끼리 차이 그 자체는 통계적으로 뚜렷한 차이가 없다."


만약 두 군의 전후 차이끼리도 차이가 있는지 결론을 내리기를 원한다면, 정확한 질문을 검정하도록 설계된 통계적 기법을 이용할 필요가 있다. 두 군 동물에서 자극 전 흡수량이 매우 비슷했으므로, 야생형 동물에서 자극 후 흡수량은 돌연변이 동물에서 자극 후 흡수량을 짝짓지 않은 t 검정을 이용하여 직접 비교할 수 있다. 두 군의 평균 차이는 18.7이었고, 95% 신뢰구간은 -1.8부터 39.1이었다(P=0.064). (이 책이 다루는 범위를 넘어서는) 좀더 근사한 접근은 이원 분산분석(two-way ANOVA)을 이용해 상호작용이 없다는 귀무가설을 검정하는 P값을 산출하는 것이다. (이때 귀무가설은 야생형과 돌연변이 동물에서 자극 전과 자극 후의 차이가 같다가 된다.) 결론은 같았다. 돌연변이와 야생형 동물에서 약물 자극 전달장치 흡수량의 차이는 통계적으로 뚜렷한 차이가 없었다.


한 쪽의 P값이 0.04이고 다른 한 쪽의 P값이 0.06이었을 때, 적용하는 일은 그리 사소한 주제가 아니다. Bland와 Altman (2011)는 시뮬레이션을 수행하여 한 군에서 통계적으로 뚜렷한 차이가 있는 변화와 다른 한 군에서 통계적으로 뚜렷한 차이가 없는 변화의 차이에 대해 누군가 내린 결론에 의해 얼마나 쉽게 잘못된 길로 들어서는지를 보였다. 시뮬레이션에서 두 인구집단에서 실제 평균 증가의 차이는 없었다. 그러나 38%의 시뮬레이션에서는 한 군에서는 통계적으로 뚜렷한 증가가 있었지만 다른 군에서는 없었다고 나왔다.


Bland, J. M. J., & Altman, D. G. D. (2011). Comparisons against baseline within randomized groups are often used and can be highly misleading. Trials, 12, 264.

Gelman, A., & Stern, H. (2006). The difference between "significant" and "not significant" is not itself statistically significant. American Statistician, 60, 328-331.

Nieuwenhuis, S., Forstmann, B. U., & Wagenmakers, E. J. (2011). Erroneous analyses of interaction in neuroscience: A problem of significance. Nature Neuroscience, 14, 1105-1107.

Posted by cyberdoc
: