피해야 할 통계의 덫 #2: 데이터가 제안하는 가설 검정하기


논점이 집중된 질문에 답하도록 연구를 설계할 때, 결과는 대개 수월하게 해석된다. 하지만 일부 연구는 많은 대상자 집단에서 많은 변수가 있는 데이터를 분석하기도 하고, 연구를 시작할 당시 실제 가설이 없기도 한다. 그러한 연구는 탐색적 데이터 분석(exploratory data analysis)의 한 부분으로 가설을 생성하는 하나의 유용한 방식이 될 수 있다. 그러나 새로운 데이터는 가설을 세워 검정할 필요가 있다.


어떤 과학자가 데이터를 많은 방식으로(많은 변수와 많은 세부 집단을 포함하게 되는) 분석할 때, 기이한 관련성을 발견할 때, 그리고 나서 결과를 출판하여 데이터 수집을 시작하기 전에 가설을 세운 것처럼 보이게 만들 때 덫에 빠지게 된다. 23장(어디나 있는 다중 비교 The Ubiquity of Multiple Comparisons)에 이미 언급했듯이, Kerr (1998)는 결과를 안 다음 가설 세우기(Hypothesizing After the Results are Known)를 줄여 HARK라는 약자를 만들어냈다. Kriegeskorte 등(2009)은 이를 '두번 찍기(double dippling)'라고 불렀다.


얼마나 많은 가설을 실제로 검정했는지 정확하게 알지 못한다면 그와 같은 연구에서 얻어진 결과를 평가하기란 불가능하다. 결과가 논문으로 출판된 경우 단 하나의 가설을 검정한 것처럼 오해하게 될 것이다. XKCD 만평은 이러한 접근이 얼마나 바보짓인지 꼬집고 있다(그림 45.1).


그림 45.1 HARKing으로 인한 엉터리 결론(출처: xkcd.com)


또한 사실대로 하나의 가설을 검정하지 않은 연구를 조심해야 한다. 일부 연구자들은 자신들이 세운 가설이 매우 강력하다고 믿어서(그리고 가설을 매우 모호하게 서술했을 지도 모르고) 어떤 데이터가 가설을 기각하도록 결론내릴 것이라고는 상상조차 하지 못한다. 데이터가 무엇을 보여주건 간에, 연구진은 가설이 옳다는 결론을 내릴 방법을 찾게 될 것이다. 그러한 가설은 "경험(empirical)이라기보다 흡혈귀(vampirical)에 가까워서, 근거만으로 퇴치할 수도 없다"(Gelman & Weakliem, 2009; Freese, 2008).


----------

Freese, J. (2008). The problem of predictive promiscuity in deductive applications of evolutionary reasoning to intergenerational transfers: Three cautionary tales. In Intergenerational caregiving, ed. A. Booth, A. C. Crouter, S. M. Bianchi, & J. A. Seltzer. Urban Institute Press. ISBN-978-0877667476.

Gelman, A., & Weakliem, D. (2009) Of beauty, sex and power: Statistical challenges in estimating small effects. American Scientist, 97, 310-311.

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196-217.

Kriegeskorte, N., Simmons, W. K., Bellgowan, P. S. F., & Baker, C. I. (2009). Circular analysis in systems neuroscience: The dangers of double dipping. Nature Neuroscience, 12, 535-540.

Posted by cyberdoc
:


하비 모툴스키가 쓴 <직관으로 배우는 생물통계학: 통계적 사고에 대한 비수학적 안내서>는 수학이나 통계학을 전공하지 않은 연구자가 공부하게 좋은 교과서로 올초 3판까지 나왔다. 45장에 '피해야 할 통계의 덫'이라는 제목으로 열두 가지를 언급해두었다. 시간이 나는대로 하나씩 모두 옮겨두려고 한다.


덫 #1: 효과 크기보다 P 값과 통계적 유의성에 집중하기


P 값과 통계적 유의성에 대한 결론이 유용할 수도 있지만, P 값과 함께 제시된 여러 별표보다 통계에는 더욱 중요한 것들이 있다. 차이 또는 연관성의 크기를 뜻하는 효과 크기에 집중해야 한다. 차이 또는 연관성이나 상관성(효과)이 관심을 가질만큼 충분히 큰가? 효과가 신뢰구간으로 평가했을 때 충분한 정밀도로 결정됐는가? 표본수가 엄청나게 많다면, 작은 효과도 통계적으로 유의하지만 무의미할 지도 모른다. 표본수가 작다면, 충분한 정밀도로 효과를 결정하지 못하여 어떤 유용한 결론을 내리지 못할 수도 있다.


Gelman (2013)은 통계적 유용성이라는 문구에 정신이 팔리지 않도록 영리한 접근을 제안하고 있다. Gelman은 표본수가 엄청나게 많은 경우("수천억")를 상상해보자고 제안하고 있다. 이 경우, 결국에는 모든 효과가 통계적으로 유의하게 되지만, 대부분은 사소할 것이고, "통계적 유의성에 대한 결론을 무시하고 대신 실제로 무엇에 관심을 가져야 하는지를 생각할 필요가 있게 될 것이다".


Gelman, A. (2013). Don't let your standard errors drive your research agenda. Statistical Modeling, Causal Inference, and Social Science (blog).


Posted by cyberdoc
:

“통계적 생각은 언젠가 반드시 읽고 쓰는 능력과 마찬가지로 유효한 시민권에 필수적인 것이 될 것이다.” 웰스가 한 말이다. (『숫자에 속아 위험한 선택을 하는 사람들』, 271쪽)


통계의 중요성을 강조하기 위해 자주 인용되는 문장이지만 정확한 인용은 아니다. 허버트 조지 웰스의 1903년작 『만들어지고 있는 인류 Mankind in the making』에 수학적 분석이 중요하다는 표현이 들어간 문장이 실려있지만 통계학에 관한 언급은 없다. 이 문장이 유명해진 계기는 따로 있다. 저명한 통계학자이며 미국 통계학회장을 지낸 사무엘 윌크스( Samuel S. Wilks: http://goo.gl/0pyp4t )가 1950년 110차 미국 통계학회 연례 회의 연설에서 웰스를 빌어 미래의 시민은 통계적 사고가 읽고 쓰는 능력만큼이나 중요하게 될 것이라는 표현을 남겨 널리 퍼지게 됐다. 웰스의 표현이 바뀌어 온 과정은 텍사스 대학의 제임스 탱커드 주니어가 쓴 「통계학에 대한H. G. 웰스의 언급: 정확한 질문」이라는 소논문에 상세히 나와 있다. ( 출처: http://goo.gl/eYYDxM )


위와 같은 내용을 『숫자에 속아 위험한 선택을 하는 사람들』 옮긴이 주에 남긴 적이 있다. 『지금 생각이 답이다』 후주를 보니 논란의 결정판이 아래와 같이 나와 있으므로 기억을 위해 옮겨 둔다. 허버트 조지 웰스의 1938년 작 『세계 두뇌 World Brain』 http://goo.gl/NXMYiz 에 "오늘날은 통계적 방법에 대한 확실한 기초 훈련이 읽기와 쓰기만큼이나 모든 사람들에게 필요한 것이 되고 있다. A certain elementary training in statistical method is becoming as necessary for anyone living in this world of today as reading and writing."가 실려 있으므로 앞으로는 이 문장과 출처를 정확히 인용하면 된다가 결론이다.


PART 2 이 불확실한 세계에서 어떻게 현명한 판단을 내릴까? | 불확실성 다루기


오늘날은 통계적 방법에 대한 확실한 기초 훈련이 읽기와 쓰기만큼이나 모든 사람들에게 필요한 것이 되고 있다. - 허버트 조지 웰스1


1 | 이 짧은 인용문에는 긴 뒷이야기가 있다. 고전적인 책  『새빨간 거짓말, 통계 How to Lie with Statistics』에 "언젠가 통계적 사고는 읽고 쓰는 능력처럼 시민의 소양이 될 날이 올 것이다"라는 묘비명(원문이 epitaph지만 웰스의 묘비명이 아니므로 '예시문' 정도가 적당할 듯하다 - 인용자 주)이 등장한다.  이 인용문은 웰스가 한 말이지만 출처를 밝히지 않았다. 사실 수백 명이 출처를 밝히지 않고 이 인용문을 사용한다. 나는  『숫자에 속아 위험한 선택을 하는 사람들』에서 각주를 달아 출처를 찾을 수 없다고 밝혔다. (웰스는 100권이 넘는 책을 썼고) 다른 사람이 만들어 낸 말인지도 모른다. 나는 많은 편지를 받았는데, 여기에는 웰스의 예측은 수학의 역할에 관한 것이지 통계에 관한 것이 아닌데도 통계학자들은 이를 자신들의 입지를 강화하는 데 이용하고 있다고 주장한 J. W. Tankard (1979)의 논문도 있었다. Tankard는 웰스가 "진정한 수학 훈련"을 촉구했다면서 "계산할 수 있는 능력과 평균, 최솟값, 최댓값으로 생각할 수 있는 능력이 필요하다. 이제는 계산력이 읽고 쓰는 능력과 같기 때문이다"(pp 30-31)라는 그의 말을 인용했다. Tankard는 또 이외에는 특별히 통계에 대해 다룬 부분이 없는 것으로 기억한다는 웰스의 전기 작가 중 한 명인 Lovat Dickson을 인용했다.

내가 그의 주장을 받아들일 준비를 하던 차에 영국의 사서 Geoffrey Hunt에게서 웰스의 World Brain (1938/1994) 한 권이 배달되었다. 그리고 정확히 그 책에 이 문구가 있었다. "오늘날은 통계적 방법에 대한 확실한 기초 훈련이 읽기와 쓰기만큼이나 모든 사람에게 필요한 것이 되고 있다"(p. 141). 이로써 정확한 표현은 아니라도 이 유명한 인용문의 핵심이 확인되었다. (게르트 기거렌처,  『지금 생각이 답이다』, 384쪽)


p.s 웰스의 원문 중 'a certain'을 '확실한'으로 옮긴 대목이 약간 불만이었는데 영어를 전공한 지인께서 '특정한'이라는 뜻에 가깝다고 설명해주었다. 앞으로 "오늘날 일정한 기본 통계 교육은 읽기와 쓰기만큼이나 모든 사람들에게 필요한 항목이 되고 있다." 정도로 옮겨야겠다.

Posted by cyberdoc
:


게르트 기거렌처 선생의 신작 'Risk Savvy'가 『지금 생각이 답이다』라는 제목으로 옮겨져 나왔다. 원서가 나온 지 한 달 여만에 역서가 나왔으니 판권 계약을 미리 맺고 번역 작업도 빨리 진행한 듯하다. 사실 『지금 생각이 답이다』라는 역서 제목은 전작 'Gut Feelings'에 어울리는 제목이긴 하다. 역서가 판매되자마자 주문해서 읽어보기 시작했다. 기거렌처 선생의 의료계에 대한 비판의 강도가 꽤나 세졌음을 알 수 있었다. 번역은 매끄러운 편이라 고유 명사 몇 군데를 빼고 크게 흠잡을 데 없는 편집이라고 생각했던 찰나 인용문 원문을 찾아보기 위해 책 뒤를 펼친 순간 참고문헌 목록이 통째로 빠져 있음을 발견했다. 물론 찾아보기도 없었다. (『숫자에 속아 위험한 선택을 하는 사람들』 작업에서도 찾아보기를 넣지 못한 대목이 가장 아쉬웠다.) 참고문헌 목록을 새로 만들어 파일로 올려두었으니 책을 구입한 분 중 참고문헌에 관심 있는 분들은 내려 받기 바란다. 물론 출판사가 2쇄를 찍을 때 참고문헌 목록을 넣어주는 편이 가장 바람직하다.


게르트 기거렌처-지금 생각이 답이다-2014-참고문헌.pdf


Posted by cyberdoc
: