피해야 할 통계의 덫 #3: 계획 없이 분석하기 - "p-해킹"


데이터를 분석하다보면 많은 결정이 필요하게 된다. 표본수는 얼마나 커야 하는가? 어떤 통계적 검정을 이용해야 하는가? 이상값을 어떻게 처리할 것인가? 데이터를 먼저 변환해야 하는가? 외부 대조값을 위해 데이터를 정규화시켜야 하는가? 교란 변수의 차이를 통제하기 위해 다변수 회귀를 수행해야 하는가? 이와 같은 모든 결정(아마도 더 많은)은 실험을 설계할 당시에 내려져야만 한다.


만일 데이터를 본 직후 분석 결정을 내린다면, 연구자가 원하는 결과를 얻기 위한 분석을 골라내 선택할 위험이 있고, 따라서 연구자는 속게 된다. 우리는 이미 26장(표본수 선정)에서 임시 변통으로 표본수를 선택하는 문제를, 23장(어디나 있는 다중 비교)에서 p-해킹이라는 바보짓을 논의했다.

Gotzsche (2006)는 p-해킹(그렇게 부르지는 않았지만)의 증거를 제시했다. 그는 학술지에 발표된 p 값의 실제 분포를 표로 만들어 "다른 범위에서 생길 p 값의 숫자에 근거해 기대되는 경우보다 .05 바로 아래 p 값이 훨씬 흔하다"는 사실을 밝혔다. Masicampo와 Lalande (2012)도 비슷한 결과를 얻었다(그림 45.2를 보라). 이와 같이 .05 바로 아래 p 값이 과다하게 많은 데는 p-해킹도 원인이지만 이외에도 임시변통 표본수 선택(26장 참조)이나 출판 바이어스(43장 메타 분석 참조) 때문일 수도 있다.

그림 45.2. 논문에 발표된 p 값 중 너무 많은 값이 .05보다 약간 작다.

Masicampo와 Lalande (2012)는 심리학 분야에서 수준 높고 동료 심사를 수행하는 세 학술지에서 p 값을 수집하여 분포표를 만들었다. 그림을 보면 0.05보다 약간 작은 값에 p 값이 "특이하게 흔함"을 알 수 있다. 이 그림은 친절하게도 Masicampo가 저자에게 보내준 3,627편의 논문 목록으로 만들어진 것이고, Wasserman (2012)이 발표한 그래프와 일치한다.


Goetzsche, P. C. (2006). Believability of relative risks and odds ratios in abstracts: Cross sectional study. BMJ (Clinical Research Ed.), 333, 231-234.

Masicampo, E. J., & Lalande, D. R. (2012) A peculiar prevalence of p values just below .05. Quarterly Journal of Experimental Psychology, August 2. dii: 10.1080/17470218.2012.711335.

Wasserman, L. (2012). P values gone wild and multi scale madness. Normal Deviate, August 16. Accessed December 10, 2012, at http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/.


Posted by cyberdoc
: