피해야 할 통계의 덫 #3: 계획 없이 분석하기 - "p-해킹"


데이터를 분석하다보면 많은 결정이 필요하게 된다. 표본수는 얼마나 커야 하는가? 어떤 통계적 검정을 이용해야 하는가? 이상값을 어떻게 처리할 것인가? 데이터를 먼저 변환해야 하는가? 외부 대조값을 위해 데이터를 정규화시켜야 하는가? 교란 변수의 차이를 통제하기 위해 다변수 회귀를 수행해야 하는가? 이와 같은 모든 결정(아마도 더 많은)은 실험을 설계할 당시에 내려져야만 한다.


만일 데이터를 본 직후 분석 결정을 내린다면, 연구자가 원하는 결과를 얻기 위한 분석을 골라내 선택할 위험이 있고, 따라서 연구자는 속게 된다. 우리는 이미 26장(표본수 선정)에서 임시 변통으로 표본수를 선택하는 문제를, 23장(어디나 있는 다중 비교)에서 p-해킹이라는 바보짓을 논의했다.

Gotzsche (2006)는 p-해킹(그렇게 부르지는 않았지만)의 증거를 제시했다. 그는 학술지에 발표된 p 값의 실제 분포를 표로 만들어 "다른 범위에서 생길 p 값의 숫자에 근거해 기대되는 경우보다 .05 바로 아래 p 값이 훨씬 흔하다"는 사실을 밝혔다. Masicampo와 Lalande (2012)도 비슷한 결과를 얻었다(그림 45.2를 보라). 이와 같이 .05 바로 아래 p 값이 과다하게 많은 데는 p-해킹도 원인이지만 이외에도 임시변통 표본수 선택(26장 참조)이나 출판 바이어스(43장 메타 분석 참조) 때문일 수도 있다.

그림 45.2. 논문에 발표된 p 값 중 너무 많은 값이 .05보다 약간 작다.

Masicampo와 Lalande (2012)는 심리학 분야에서 수준 높고 동료 심사를 수행하는 세 학술지에서 p 값을 수집하여 분포표를 만들었다. 그림을 보면 0.05보다 약간 작은 값에 p 값이 "특이하게 흔함"을 알 수 있다. 이 그림은 친절하게도 Masicampo가 저자에게 보내준 3,627편의 논문 목록으로 만들어진 것이고, Wasserman (2012)이 발표한 그래프와 일치한다.


Goetzsche, P. C. (2006). Believability of relative risks and odds ratios in abstracts: Cross sectional study. BMJ (Clinical Research Ed.), 333, 231-234.

Masicampo, E. J., & Lalande, D. R. (2012) A peculiar prevalence of p values just below .05. Quarterly Journal of Experimental Psychology, August 2. dii: 10.1080/17470218.2012.711335.

Wasserman, L. (2012). P values gone wild and multi scale madness. Normal Deviate, August 16. Accessed December 10, 2012, at http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/.


Posted by cyberdoc
:


피해야 할 통계의 덫 #2: 데이터가 제안하는 가설 검정하기


논점이 집중된 질문에 답하도록 연구를 설계할 때, 결과는 대개 수월하게 해석된다. 하지만 일부 연구는 많은 대상자 집단에서 많은 변수가 있는 데이터를 분석하기도 하고, 연구를 시작할 당시 실제 가설이 없기도 한다. 그러한 연구는 탐색적 데이터 분석(exploratory data analysis)의 한 부분으로 가설을 생성하는 하나의 유용한 방식이 될 수 있다. 그러나 새로운 데이터는 가설을 세워 검정할 필요가 있다.


어떤 과학자가 데이터를 많은 방식으로(많은 변수와 많은 세부 집단을 포함하게 되는) 분석할 때, 기이한 관련성을 발견할 때, 그리고 나서 결과를 출판하여 데이터 수집을 시작하기 전에 가설을 세운 것처럼 보이게 만들 때 덫에 빠지게 된다. 23장(어디나 있는 다중 비교 The Ubiquity of Multiple Comparisons)에 이미 언급했듯이, Kerr (1998)는 결과를 안 다음 가설 세우기(Hypothesizing After the Results are Known)를 줄여 HARK라는 약자를 만들어냈다. Kriegeskorte 등(2009)은 이를 '두번 찍기(double dippling)'라고 불렀다.


얼마나 많은 가설을 실제로 검정했는지 정확하게 알지 못한다면 그와 같은 연구에서 얻어진 결과를 평가하기란 불가능하다. 결과가 논문으로 출판된 경우 단 하나의 가설을 검정한 것처럼 오해하게 될 것이다. XKCD 만평은 이러한 접근이 얼마나 바보짓인지 꼬집고 있다(그림 45.1).


그림 45.1 HARKing으로 인한 엉터리 결론(출처: xkcd.com)


또한 사실대로 하나의 가설을 검정하지 않은 연구를 조심해야 한다. 일부 연구자들은 자신들이 세운 가설이 매우 강력하다고 믿어서(그리고 가설을 매우 모호하게 서술했을 지도 모르고) 어떤 데이터가 가설을 기각하도록 결론내릴 것이라고는 상상조차 하지 못한다. 데이터가 무엇을 보여주건 간에, 연구진은 가설이 옳다는 결론을 내릴 방법을 찾게 될 것이다. 그러한 가설은 "경험(empirical)이라기보다 흡혈귀(vampirical)에 가까워서, 근거만으로 퇴치할 수도 없다"(Gelman & Weakliem, 2009; Freese, 2008).


----------

Freese, J. (2008). The problem of predictive promiscuity in deductive applications of evolutionary reasoning to intergenerational transfers: Three cautionary tales. In Intergenerational caregiving, ed. A. Booth, A. C. Crouter, S. M. Bianchi, & J. A. Seltzer. Urban Institute Press. ISBN-978-0877667476.

Gelman, A., & Weakliem, D. (2009) Of beauty, sex and power: Statistical challenges in estimating small effects. American Scientist, 97, 310-311.

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196-217.

Kriegeskorte, N., Simmons, W. K., Bellgowan, P. S. F., & Baker, C. I. (2009). Circular analysis in systems neuroscience: The dangers of double dipping. Nature Neuroscience, 12, 535-540.

Posted by cyberdoc
:


하비 모툴스키가 쓴 <직관으로 배우는 생물통계학: 통계적 사고에 대한 비수학적 안내서>는 수학이나 통계학을 전공하지 않은 연구자가 공부하게 좋은 교과서로 올초 3판까지 나왔다. 45장에 '피해야 할 통계의 덫'이라는 제목으로 열두 가지를 언급해두었다. 시간이 나는대로 하나씩 모두 옮겨두려고 한다.


덫 #1: 효과 크기보다 P 값과 통계적 유의성에 집중하기


P 값과 통계적 유의성에 대한 결론이 유용할 수도 있지만, P 값과 함께 제시된 여러 별표보다 통계에는 더욱 중요한 것들이 있다. 차이 또는 연관성의 크기를 뜻하는 효과 크기에 집중해야 한다. 차이 또는 연관성이나 상관성(효과)이 관심을 가질만큼 충분히 큰가? 효과가 신뢰구간으로 평가했을 때 충분한 정밀도로 결정됐는가? 표본수가 엄청나게 많다면, 작은 효과도 통계적으로 유의하지만 무의미할 지도 모른다. 표본수가 작다면, 충분한 정밀도로 효과를 결정하지 못하여 어떤 유용한 결론을 내리지 못할 수도 있다.


Gelman (2013)은 통계적 유용성이라는 문구에 정신이 팔리지 않도록 영리한 접근을 제안하고 있다. Gelman은 표본수가 엄청나게 많은 경우("수천억")를 상상해보자고 제안하고 있다. 이 경우, 결국에는 모든 효과가 통계적으로 유의하게 되지만, 대부분은 사소할 것이고, "통계적 유의성에 대한 결론을 무시하고 대신 실제로 무엇에 관심을 가져야 하는지를 생각할 필요가 있게 될 것이다".


Gelman, A. (2013). Don't let your standard errors drive your research agenda. Statistical Modeling, Causal Inference, and Social Science (blog).


Posted by cyberdoc
: