피해야 할 통계의 덫 #2: 데이터가 제안하는 가설 검정하기


논점이 집중된 질문에 답하도록 연구를 설계할 때, 결과는 대개 수월하게 해석된다. 하지만 일부 연구는 많은 대상자 집단에서 많은 변수가 있는 데이터를 분석하기도 하고, 연구를 시작할 당시 실제 가설이 없기도 한다. 그러한 연구는 탐색적 데이터 분석(exploratory data analysis)의 한 부분으로 가설을 생성하는 하나의 유용한 방식이 될 수 있다. 그러나 새로운 데이터는 가설을 세워 검정할 필요가 있다.


어떤 과학자가 데이터를 많은 방식으로(많은 변수와 많은 세부 집단을 포함하게 되는) 분석할 때, 기이한 관련성을 발견할 때, 그리고 나서 결과를 출판하여 데이터 수집을 시작하기 전에 가설을 세운 것처럼 보이게 만들 때 덫에 빠지게 된다. 23장(어디나 있는 다중 비교 The Ubiquity of Multiple Comparisons)에 이미 언급했듯이, Kerr (1998)는 결과를 안 다음 가설 세우기(Hypothesizing After the Results are Known)를 줄여 HARK라는 약자를 만들어냈다. Kriegeskorte 등(2009)은 이를 '두번 찍기(double dippling)'라고 불렀다.


얼마나 많은 가설을 실제로 검정했는지 정확하게 알지 못한다면 그와 같은 연구에서 얻어진 결과를 평가하기란 불가능하다. 결과가 논문으로 출판된 경우 단 하나의 가설을 검정한 것처럼 오해하게 될 것이다. XKCD 만평은 이러한 접근이 얼마나 바보짓인지 꼬집고 있다(그림 45.1).


그림 45.1 HARKing으로 인한 엉터리 결론(출처: xkcd.com)


또한 사실대로 하나의 가설을 검정하지 않은 연구를 조심해야 한다. 일부 연구자들은 자신들이 세운 가설이 매우 강력하다고 믿어서(그리고 가설을 매우 모호하게 서술했을 지도 모르고) 어떤 데이터가 가설을 기각하도록 결론내릴 것이라고는 상상조차 하지 못한다. 데이터가 무엇을 보여주건 간에, 연구진은 가설이 옳다는 결론을 내릴 방법을 찾게 될 것이다. 그러한 가설은 "경험(empirical)이라기보다 흡혈귀(vampirical)에 가까워서, 근거만으로 퇴치할 수도 없다"(Gelman & Weakliem, 2009; Freese, 2008).


----------

Freese, J. (2008). The problem of predictive promiscuity in deductive applications of evolutionary reasoning to intergenerational transfers: Three cautionary tales. In Intergenerational caregiving, ed. A. Booth, A. C. Crouter, S. M. Bianchi, & J. A. Seltzer. Urban Institute Press. ISBN-978-0877667476.

Gelman, A., & Weakliem, D. (2009) Of beauty, sex and power: Statistical challenges in estimating small effects. American Scientist, 97, 310-311.

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196-217.

Kriegeskorte, N., Simmons, W. K., Bellgowan, P. S. F., & Baker, C. I. (2009). Circular analysis in systems neuroscience: The dangers of double dipping. Nature Neuroscience, 12, 535-540.

Posted by cyberdoc
: