피해야 할 통계의 덫 #12: 위양성 결과가 얼마나 흔한지 깨닫지 못함


22장에서 귀무가설이 참인데도 우연히 통계적으로 뚜렷한 결과가 일어날 수 있음을 지적했다. 이러한 경우를 1종 오류를 저질렀다고 부른다. 18장에는 다음과 같은 세 가지 값에 기초해 모든 통계적으로 뚜렷한 결과 중 어느 정도가 1종 오류에 해당하는지 계산하는 법을 제시했다.

  • 통계적 유의성, α의 정의. 만약 이 값을 작게 설정한다면(통상적인 0.05 대신 0.001로 설정한다고 해보자), 통계적으로 뚜렷한 결과가 실제로 차이가 있을 가능성은 매우 높다.
  • 검정력. 실험의 검정력이 낮을 때, 통계적으로 뚜렷한 결과가 실제로 차이가 있을 확률은 더 낮다.
  • 과학적 맥락. 두 가지 극단적 사례를 생각해보자. 만약 효과가 실제로 있다는 점을 확실히 알기 위해 일련의 양성 대조 실험을 수행한다면, 이때 하나하나 모두 통계적으로 뚜렷한 결과는 분명히 실제로 차이가 있을 것이다. 여기에는 위양성이 있을 수 없다. 또다른 극단적 사례는 귀무가설이 참이라는 점을 확실히 하기 위해 일련의 음성 대조 실험을 수행했다고 해보자. 이러한 실험에서 모든 통계적으로 뚜렷한 결과는 1종 오류, 위양성임에 틀림 없다. 실제 실험은 이러한 두가지 극단 사이에 놓여 있다. 탄탄한 과학과 이전 데이터에 기초해 집중한 실험으로부터 얻은 통계적으로 뚜렷한 결과는 참일 가능성이 높다. 집중하지 않은 실험으로부터 얻은 통계적으로 뚜렷한 결과는 위양성일 가능성이 높다.

표 45.5는 통계적 중요성의 표준 정의(P<0.05)와 검정력의 표준 목표(80%)를 이용한 시나리오로 과학적 맥락을 가정한 경우 실험의 6%에서 실제로 차이(또는 효과)가 있었고 다른 94%에서는 귀무가설이 실제로 참이었다.


 

통계적으로 뚜렷한: 귀무가설 기각

통계적으로 뚜렷하지 않은: 귀무가설 기각 못함 

전체 

실제 효과 없음(귀무가설이 참)

47 

893 

940 

실제 효과 있음

48 

12 

60 

전체

95 

905 

1,000

표 45.5. 80% 검정력, 5% 유의 수준, 사전 확률 6%로 1,000번 비교 실험한 결과


표에 나와 있는 숫자는 쉽게 계산할 수 있다. 1,000번의 실험 중 (가정에 따른) 실제 효과는 60번으로 6%다. 60번의 실험 중 48번에서 통계적으로 뚜렷한 효과를 탐지하여 검정력은 80%다. 다른 94%의 실험에서는 귀무가설이 참이다. 통계적 중요성의 표준 정의에 의하면, 무작위 표본추출로 47번(5%)의 실험에서 통계적으로 뚜렷한 결론을 얻게 된다. 다시 말해, 이 시나리오에 따르면 통계적으로 뚜렷한 결과의 47/(47+48) = 50%가 위양성이 된다.


많은 실험이 80% 검정력 미만으로 설계되고, 실제 효과의 사전 확률은 6% 미만일 수 있다. 즉, 결과가 위양성이 가능성이 50%보다 큰 상황에서도 통계적으로 뚜렷한 차이가 있다고 보고할 수 있다.


Ioannidis (2005)는 이미 발표된 통계적으로 뚜렷한 연구 결과가 거의 대부분 잘못됐다고 주장했고 발표된 결과가 잘못됐을 가능성을 높이는 요인을 열거했다(표 45.6을 보라). 경험적 연구로 이 요점을 확증했다. 두 제약회사가 발표된 전임상 결과를 재현하기 위해 체계적인 노력을 기울여 표로 만들었고 발표된 발견의 극히 일부분만 재현할 수 있었음을 밝혀냈다(Prinz, Schlange, & Asadullah, 2011; Begley & Ellis, 2012)


 요인

설명 

작은 표본 크기

표본이 작은 연구는 큰 연구보다 검정력이 떨어진다. 검정력이 낮은 연구에서 얻은 통계적으로 뚜렷한 결과는 검정력이 큰 연구에서 얻은 결과보다 잘못됐을 가능성이 크다.

보고된 효과가 작다

큰 효과보다 작은 효과를 탐지하려면 연구는 검정력이 떨어진다. 검정력이 낮은 연구에서 얻은 통계적으로 뚜렷한 결과는 검정력이 큰 연구에서 얻은 결과보다 잘못됐을 가능성이 크다. 

많은 비교; 통계적으로 뚜렷한 비교 결과만 보고

23장에서 다중 비교가 얼마나 쉽게 사람을 바보로 만드는지 설명했다.

계획 없이 유동적으로 데이터 분석

데이터를 수집하기 전에 분석 계획을 깐깐하게 세워두지 않고, 데이터를 유동적으로 분석한 연구는 문제를 일으킨다. 23장에 이미 이 문제를 경고했다.

금전적 동기로 비뚤어진 연구자

만약 연구자가 통계적으로 뚜렷한 결과에 대해 금전적 동기가 있다면, 데이터로부터 통계적으로 뚜렷한 결론을 이끌어내기 위해 더 노력하게 될 것이다.

자기 의견만 고집하는 비뚤어진 연구자

결과가 어떻게 나와야 하는지에 대해 강한 의견을 가진 연구자는 "옳은 방식"으로 가는 결과를 수용하고 출판하며 "잘못된 방식"으로 가는 데이터를 재분석하거나 무시하는 경향이 있을 것이다.

경쟁이 치열한 분야

경쟁이 치열한 분야가 있을 때, 연구자는 통계적으로 뚜렷한 결과를 발표하기 위해 서두르고 모든 필요한 대조군을 돌리는데 시간을 덜 쓰는 경향이 있다. 

표 45.6. 통계적으로 뚜렷하다고 발표된 결과가 참이 아닌 것으로 판명될 가능성을 높이는 요인들(Ioannidis, 2005를 보고 영감을 받아 만들었다.)


Begley, C. G. C., & Ellis, L. M. L. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483, 531-533.

Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine, 2, e124.

Prinz, F. F., Schlange, T. T., & Asadullah, K. K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10, 712.

Posted by cyberdoc
:


피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석


다음 사례(Freedman, 2007에 제시된 결과의 연장)는 약간 어처구니 없긴 하지만 중요한 요점을 보여주고 있다. 연구 목적이 둘레로부터 사각형 면적을 예측하는 모형을 찾기 위함이라고 해보자.


그림 45.9는 둘레가 더 큰 사각형이 면적도 더 큰 경향을 보이고, 두 개의 이상값(outlier)이 있다. 그림 45.10은  남아 있는 점들("이상값"을 제외한 후) 가능한 모형에 적합시킨 결과다. 직선 모형(그림 45.10, 왼쪽)이 적절한 듯하지만, S자 모형(그림 45.10, 오른쪽)이 데이터를 더 잘 적합시킨다.





그림 45.11은 사각형을 더 늘려 데이터를 추가한 결과다. 이제 두 이상값은 실제로 그다지 비정상이 아닌 것처럼 보인다. 그림 45.11의 오른쪽은 임시로 두 종류의 사각형을 열린 동그라미와 채운 동그라미로 구분하고 각각 다른 모형으로 적합시킨 결과다.


위의 과정이 실제 과학처럼 보이지만 그렇지는 않다. 같은 둘레를 갖는 두 사각형은 모양에 따라 매우 다른 면적을 가질 수 있다. 둘레로부터 사각형 면적을 예측하는 일은 가능하지 않다. 면적은 높이와 너비(또는 둘레와 높이 및 너비 중 하나, 둘레와 높이/너비의 비)로부터 산출된다. 사각형의 모양을 결정하는 중요한 변수(높이, 너비 또는 두 값의 비)가 분석에는 빠졌다. 이러한 데이터를 이해하기 위해서는 환상적인 통계 분석이 아니라 결측 변수를 확인하는 단순한 생각이 필요했다. 종속과 독립 변수 모두에 영향을 주는 결측 변수를 잠복 변수(lurking variable)라고 부른다.

Posted by cyberdoc
:


피해야 할 통계의 덫 #10: 데이터를 집단으로 합쳐서 중요한 발견 놓치기


대학원에 지원한 남학생 중 44.3%가 입학 허가를 얻지만 여학생은 34.6%만 얻는다(표 45.3을 보라; Bickel, Hammel, & O'Connell, 1975). 성비는 1.28이고 95% 신뢰구간은 1.22부터 1.34였다. P 값은 0.0001 미만이었다.


 

 합격

불합격 

 합격 백분율

 남학생

3,738

4,704

44.3

 여학생

1,494

2,827

34.6

표 45.3. 1973년 버클리 대학원 과정 합격. 합친(pooled) 데이터.


일견 보기에 데이터는 성차별의 증거를 제시해주는 것처럼 보이지만, 대학원 과정마다 고유의 합격 결정을 내려온 여러 대학원으로부터 데이터를 합쳐서 합격률을 계산했기 때문이다.

위의 데이터가 성차별을 입증하는 것처럼 보이지만, 실제로 이 데이터는 매우 오도하고 있다. 문제는 많은 대학원으로부터 얻은 결과를 합친 데이터라는 점이다. 만일 학생들이 여러 대학원 과정에 지원했고 합격 결정을 한 곳에서 내렸다면 말이 된다. 그러나 대학원 입학은 그와 같은 방식으로 이뤄지지 않았다. 학생들은 지원할 과정을 선택하고, 과정마다 독자적인 합격 결정이 내려졌다. 그러므로 과정마다 개별적으로 데이터를 분석하는 일은 필수다. 연구진이 이와 같이 분석했을 때, 남학생과 여학생의 합격률이 거의 같음을 발견했다. 85개 과정 중 75개에서 통계적으로 뚜렷한 차이가 없었다(표 45.4를 보라). 네 개의 과정에서 통계적으로 뚜렷한 차이가 있었고, 여학생이 덜 합격하는 경향이 있었다. 여섯 개의 과정에서 통계적으로 뚜렷한 차이가 있었고, 여학생이 더 합격하는 경향이 있었다. 전체적으로 저자는 성차별의 증거를 발견하지 못했다. 그래서 무슨 일이 일어나게 됐는가? 왜 합친 데이터는 성차별을 시사했을까?


차별의 증거가 있는가?

과정 개수 

입학 결정에서 통계적으로 뚜렷한 차이가 없음

75 

남학생 선호(P<0.05)

여학생 선호(P<0.05) 

전체 과정 개수

85 

표 45.4. 1973년 버클리 대학원 과정 합격, 과정별


일부 대학원 과정은 지원자 합격률이 높았고 다른 과정은 낮았다. 여학생 합격률이 가장 높은 두 대학원 과정은 지원자의 34%와 24%에 지나지 않았지만, 남학생 합격률이 가장 높은 두 대학원 과정은 지원자의 62%와 63%나 됐다(Freedman, 2007). 여학생 비율이 낮은 이유는 전체적으로 단순했다. 여학생이 남학생보다 좀더 선택적인 과정에 지원하는 경향이 있기 때문이었다.


이는 심슨의 역설(Simpson's paradox)의 고전적 사례다. 합친 데이터를 분석하면 오도된 결과를 얻을 수 있다.


같은 문제가 일부 의학 연구에서 일어나곤 한다. 만약 신약이 암을 더 잘 치료하는지 검정하기 위해 모든 종류의 암환자를 합쳐셔 분석하는 경우를 생각해보자. 암은 서로 다른 약물에 반응하는 여러 질환군이다. 모든 진단을 한 연구에 결합시키면 실망스럽고 결정적이지 않은 결과를 얻게 된다. 대부분의 많은 의학적 상태(아마 패혈증 쇽, 유방암, 자폐증이 포함된다)는 실제로 분명한 장애의 조합이다. 개별 질환을 식별하는 법을 알아낼 때까지, 치료법에 대한 여러 연구는 애매할 수도 있다.


Bickel, P. J., Hammel, E. A., & O'Connell, J. W. (1975). Sex bias in graduate admissions. Data from Berkeley. Science, 187, 398-404.

Freedman, D. (1983). A note on screening regression equations. American Statistician, 37, 152-155.

Posted by cyberdoc
:


피해야 할 통계의 덫 #9: 통계적으로 뚜렷한 차이가 있는 결과와 없는 결과를 비교하기


그림 45.8과 비슷한 그림을 과학 학술지에서 많이 보게 된다. 야생형과 돌연변이 동물에서 반응을 비교하였다. 논문에서 결과는 다음과 같이 요약될 수 있다. "야생형 쥐에서 흡수량의 약물 유발 증가는 통계적으로 뚜렷한 차이가 없었지만(not statistically significant, P=0.068), 돌연변이 쥐에서 증가는 통계적으로 뚜렷한 차이가 있었다(statistically significant, P=0.004)." (옮긴이 주: significant를 '유의한'으로 옮기면 중요한 결과라는 의미가 탈색되어 '뚜렷한' 또는 '뚜렷한 차이가 있는'으로 옮겼다.)



위와 같은 서술에서 어떤 결론을 이끌어낼 수 있을까? 언뜻 보기에 야생형 쥐와 비교하여 돌연변이 쥐에서 약물 자극 흡수 사이에 통계적으로 뚜렷한 차이가 있음이 분명한 결론인 듯하다. 그러나 이는 잘못된 결론이다(Nieuwenhuis, Forstmann, & Wagenmakers, 2011). Gelman과 Stern (2006)이 요약한 바에 따르면, "'뚜렷한 차이가 있는' 결과와 '뚜렷한 차이가 없는' 결과끼리 차이 그 자체는 통계적으로 뚜렷한 차이가 없다."


만약 두 군의 전후 차이끼리도 차이가 있는지 결론을 내리기를 원한다면, 정확한 질문을 검정하도록 설계된 통계적 기법을 이용할 필요가 있다. 두 군 동물에서 자극 전 흡수량이 매우 비슷했으므로, 야생형 동물에서 자극 후 흡수량은 돌연변이 동물에서 자극 후 흡수량을 짝짓지 않은 t 검정을 이용하여 직접 비교할 수 있다. 두 군의 평균 차이는 18.7이었고, 95% 신뢰구간은 -1.8부터 39.1이었다(P=0.064). (이 책이 다루는 범위를 넘어서는) 좀더 근사한 접근은 이원 분산분석(two-way ANOVA)을 이용해 상호작용이 없다는 귀무가설을 검정하는 P값을 산출하는 것이다. (이때 귀무가설은 야생형과 돌연변이 동물에서 자극 전과 자극 후의 차이가 같다가 된다.) 결론은 같았다. 돌연변이와 야생형 동물에서 약물 자극 전달장치 흡수량의 차이는 통계적으로 뚜렷한 차이가 없었다.


한 쪽의 P값이 0.04이고 다른 한 쪽의 P값이 0.06이었을 때, 적용하는 일은 그리 사소한 주제가 아니다. Bland와 Altman (2011)는 시뮬레이션을 수행하여 한 군에서 통계적으로 뚜렷한 차이가 있는 변화와 다른 한 군에서 통계적으로 뚜렷한 차이가 없는 변화의 차이에 대해 누군가 내린 결론에 의해 얼마나 쉽게 잘못된 길로 들어서는지를 보였다. 시뮬레이션에서 두 인구집단에서 실제 평균 증가의 차이는 없었다. 그러나 38%의 시뮬레이션에서는 한 군에서는 통계적으로 뚜렷한 증가가 있었지만 다른 군에서는 없었다고 나왔다.


Bland, J. M. J., & Altman, D. G. D. (2011). Comparisons against baseline within randomized groups are often used and can be highly misleading. Trials, 12, 264.

Gelman, A., & Stern, H. (2006). The difference between "significant" and "not significant" is not itself statistically significant. American Statistician, 60, 328-331.

Nieuwenhuis, S., Forstmann, B. U., & Wagenmakers, E. J. (2011). Erroneous analyses of interaction in neuroscience: A problem of significance. Nature Neuroscience, 14, 1105-1107.

Posted by cyberdoc
:


피해야 할 통계의 덫 #8: 변이나 비정상값에 대해 묻지 않고 평균에만 집중하기


"수학 성적이 여학생에서 차이가 없다고, 연구 결과 밝혀졌다,"고 뉴욕 타임스 지가 몇 해 전 보도했다(Lewin, 2008). 꼭 그렇지는 않다(Briggs, 2008a). 연구는 남학생과 여학생에서 수학 성적 평균은 본질적으로 차이가 없다는 결과 외에도, 변이는 차이가 있음을 보였다(Hyde 등, 2008). 남학생 성적의 변이가 더 컸고, 상위 1%에는 여학생보다 남학생이 두 배나 많았다. 이 데이터를 충분히 이해하려면, 단지 평균만이 아닌 더 많은 값을 고려해야만 한다. Kane과 Mertz (2012)는 많은 나라에서 얻은 데이터셋을 이용하여 이 맥락의 연구를 계속했고 남학생의 수학 성적이 여학생보다 보편적으로 변이가 더 크지는 않다는 사실을 보였다.


또다른 사례가 있다. 스티븐 제이 굴드는 1870년부터 1970년까지 프로 야구의 변화가 궁금했다(Gould, 1997). 평균 타율이 (약 2할 6푼으로) 일정함에도, 왜 1941년 이후로 4할 타율 타자가 없는가? 평균을 살펴보는 것만으로 충분하지 않다. 굴드는 타율의 표준편차가 (거의 50%까지) 꽤나 떨어졌음을 발견했고, 연구 기간의 전반기 50년 동안 특히 많이 떨어졌다. 굴드는 선수, 코치, 심판, 시설 등이 모두 좀더 일관되기 때문에 변이가 줄어들게 됐다고 결론내렸다. 평균은 변하지 않았고 표준편차는 초기보다 좀더 작아졌기 때문에, 4할이 넘는 타율은 이제 믿을 수 없을 정도로 드물다. 굴드는 변이(표준편차)의 변화를 조사하기 전까지 야구에서 변화를 이해할 수 없었다.


생물학이나 임상 연구에서 변이는 종종 (실험 오류라기보다) 실제 생물학적 다양성을 반영한다. 이러한 다양성에 감사하라! 평균 비교에 매혹되면 안된다. 변이와 극단값에 주목하라. 노벨상은 평균으로부터 꽤 떨어진 값을 가진 개인들의 연구에 수여돼 왔다.


Briggs, W. M. (2008a). On the difference between mathematical ability between boys and girls. William M. Briggs (blog), July 25. Accessed June 21, 2009, from wmbriggs.com/blog/?p=163/.

Gould, S. J. (1997). Full house: The spread of excellence from Plato to Darwin. New York: Three Rivers Press. ISBN=0609801406 (스티븐 제이 굴드, 이명희 옮김, 『풀하우스』, 사이언스북스, 2002년)

Hyde, J. S., Lindberg, S. M., Linn, M. C., Ellis, A. B., & Williams, C. C. (2008). Diversity. Gender similarities characterize math performance. Science, 321, 494-495.

Lewin, T. (2008). Math scores show no gap for girls, study finds. New York Times, July 25. Accessed July 26, 2008, at www.nytimes.com/2008/07/25/education/25math.html.

Kane, J. M., & Mertz, J. E. (2012). Debunking myths about gender and mathematics performance. Notices of the AMS, 59, 10-21.

Posted by cyberdoc
:


피해야 할 통계의 덫 #7: 집단 단위로만 수집한 데이터로 개인에 대하여 결론 내리기


그림 45.6은 2011년 소득 중위수와 2012년 미국 대통령 선거 당시 공화당 후보였던 롬니에게 투표한 사람의 비율의 관련성을 보여준다(이 사례는 Statwing, 2012에서 따왔다). 그래프에는 각 주마다 하나씩 50개의 점이 있다. 관련성은 놀라울 정도다. 소득이 높은 주일수록, 롬니에게 투표한 사람의 비율이 더 적은 경향이었다.



소득이 높은 사람일수록 롬니에게 덜 투표했을 가능성이 있다는 뜻일까? 아니다! 그림 45.6에 나온 데이터로는 주 단위 결론만 내릴 수 있을 뿐이다. 만일 개인 단위 결론을 얻기 원한다면, 개인으로부터 얻은 데이터를 분석해야만 한다. 그림 45.7은 여론조사를 통해 얻은 개인의 결과를 보여준다. 소득과 지지 사이 강한 관련성이 있지만, 주 단위 데이터와 달리 반대 방향이다. 평균 소득이 높은 주들이 롬니를 덜 지지하는 경향이 있었음에도, 소득이 높은 사람일수록 롬니를 더 많이 지지했다.



무엇이 이런 불일치를 설명하는가? 주마다 많은 차이가 있다. 주별 데이터의 상관성은 해당 주에 사는 개인에 대하여 말해주지 못한다(Gelman & Feller, 2012). 집단 간 관련성을 이용하여 개인에 대해 잘못된 추론을 내리는 일을 생태학적 오류(ecological fallacy)라고 부른다. 또다른 예제로 이 장의 앞부분에 언급한 노벨상과 초콜릿에 대한 데이터가 있다. ('피해야 할 통계의 덫 #4: 데이터가 상관성만 보여줄 때 인과성으로 결론내리기' 참조)


Gelman, A., & Feller, A. (2012) Red versus blue in a new light. New York Times, September 12. Accessed January 2013 at campaignstops.blogs.nytimes.com/2012/11/12/red-versus-blue-in-a-new-light/.

Statwing. (2012). The ecological fallacy. Statwing (blog), December 20. Accessed February 8, 2013, at blog.statwing.com/the-ecological-fallacy/.


옮긴이 주:

생태학적 오류를 논할 때 관련 전공자는 Subramanian SV 등이 국제역학회지 2009년에 발표한 "로빈슨의 재발견: 개인주의적 및 생태학적 오류의 위험" 논문에 실린 '그림 5. 역학 연구의 위상학'을 꼭 알고 있어야 한다.




Posted by cyberdoc
:



피해야 할 통계의 덫 #6: 관찰 연구로 얻은 데이터를 과대해석하기


Munger 등(2013)은 비타민 D(25-히드록시비타민, 줄여서 25(OH)D) 부족이 1형 당뇨병의 소인인지를 알아보고자 했다. 연구진은 당뇨병을 앓고 있는 사람과 여러 면에서 비슷하지만 당뇨병을 앓고 있지 않은 사람을 구분하여 질병 발생 이전에 채취한 혈액 표본에서 혈중 비타민 D 농도를 측정해 비교했다. 연구진은 혈중 평균 25(OH)D 농도가 100 nmol/L보다 높은 사람들이 75 nmol/L보다 낮은 사람들에 비해 당뇨병이 발생할 위험이 더 낮다는 점을 발견했다. 위험비는 0.56이었고, 95% 신뢰구간은 0.35부터 0.90까지였다(P=0.03).


얼마나 흥미로운 데이터인가! 이런 발견은 비타민 D 보충제 복용이 당뇨를 예방하게 된다는 점을 뜻하는가? 아니다. 낮은 비타민 D 농도와 당뇨 발생의 연관성은 많은 방식으로 설명될 수 있다. 햇빛 노출이 비타민 D 농도를 높인다. 아마 햇빛 노출은 또한 다른 호르몬(아직까지 확인되지 않은)을 생성시켜 당뇨 위험을 낮출 지 모른다. 아마 햇빛에 더 많이 노출된(그 결과 비타민 D 농도가 더 높은)사람들은 또한 운동을 더 많이 할 지도 모르고, 운동이 당뇨를 예방하는데 도움이 됐을 지도 모른다. 아마 비타민 D 농도가 더 높은 사람들은 강화 우유를 더 많이 마셔서, 우유에 든 칼슘이 당뇨를 예방하는데 도움이 됐을 지도 모른다. 비타민 D 섭취가 당뇨병을 예방하는지 확실하게 알아보는 유일한 방법은 비타민 D 보충제를 복용한 사람과 그렇지 않은 사람으로 나눠 비교하는 실험을 수행하는 방법밖에 없다.

위의 사례에서 실제 교훈은 관찰 데이터로 내린 결론에 대하여 회의적이어야 한다는 점이다. 관찰 연구가 실험 연구에 비해 수행하기 더 쉽다고 할 지라도, 실험으로 얻은 데이터가 좀더 결정적이다. 관찰 연구로는 교란 변수를 처리하기가 어렵고, 원인과 결과를 설득력 있게 풀어내기가 거의 불가능하다. 대부분의 실험과 비교하여, 관찰 연구는 종종 좀더 복잡한 분석을 필요로 하고 덜 확실한 결과를 얻는다.


이와 같은 점을 강조하기 위해, Spector와 Vesell (2006a)는 관찰 연구에서 제시된 가설이 임상 시험으로 검증했을 때 타당하지 않다고 판명된 다섯 가지 연구 사례를 고찰했다(표 45.2를 보라).


표 45.2. 관찰 연구에서 제시된 가설이 실험에 의해 사실이 아닌 것으로 입증된 다섯 가지 연구 사례

개입 

발생 

관찰 연구 

실험 

폐경 후 호르몬 대체 요법 

심혈관 질환 

감소 

증가 

대용량 비타민 E

심혈관 질환

감소 

변화 없음 

저지방 식이 

심혈관 질환과 암 

감소

변화 없음 

칼슘 보충

골절과 암 

감소 

변화 없음 

호모시스틴 감소 비타민

심혈관 질환 

감소 

변화 없음 

Spector와 Vesell (2006a)를 이용. "심혈관 질환"은 심근 경색증, 돌연사, 뇌졸중을 포함.


Munger KL, Levin LL, Massa J, Horst R, Orban T, Ascherio A., (2013) Preclinical serum 25-hydroxyvitamin D levels and risk of type 1 diabetes in a cohort of US military personnel. American Journal of Epidemiology, 177(5):411-419.

Spector R, & Vesell ES., (2006a) The heart of drug discovery and development: rational target selection. Pharmacology, 77(2):85-92.

Posted by cyberdoc
:


피해야 할 통계의 덫 #5: 대리 결과를 측정한 연구를 과대 해석하기


생존 여부와 같이 중요한 결과를 측정하는 일은 시간과 돈이 많이 들게 된다. 실무에서는 대리(proxy 또는 surrogate) 변수를 측정하는 일이 더 흔하다. 그러나, 대리 변수를 개선시키는 어떤 개입이 더 중요한 변수를 개선시키지 못할 수도 있다.


15장(P 값 소개하기)에서 이미 사례를 제시했다. 여러 해 동안, 심근경색증(심장 발작)을 앓은 사람들은 항부정맥 약물을 처방 받았다. 이 약물은 기외 심박동(조기 심실 수축)을 예방하여 부정맥으로 인한 돌연사 발생률을 줄여준다고 여겨졌다. 논리는 분명했다. 심전도 상 이상 결과(기외 박동)는 돌연사와 관련이 있다고 알려졌고, 항부정맥 약물은 기외 박동의 숫자를 줄여준다고 알려졌다. 그러므로 항부정맥 약물의 투여가 생명을 연장시킬 것이라는 주장은 이치에 맞았다. 미국 식품의약품안전청이 이러한 목적으로 약물 사용을 허가했을 때 증거는 충분할 정도로 강력했다. 그러나 항부정맥 약물이 돌연사를 줄일 것이라는 가설을 직접 검정한 무작위 연구는 정확히 반대의 결과를 보였다. 두 가지 특정 항부정맥 약물을 투여한 환자는 (대리 변수인 기외 박동은 줄었지만) 더 많이 사망했다(CAST 연구진, 1989). Fisher와 VanBelle (1993)은 이 시험의 배경과 결과를 요약해 책으로 냈다.


또다른 사례로 HDL 수치를 높이는 약물을 이용해 심장 발작을 예방하려는 시도가 있다. HDL("좋은 콜레스테롤") 수치가 낮으면 죽상동맥경화와 심장병 위험이 높다. 화이자 사는 HDL을 높이는 약물인 토르세트라핍(torcetrapib)을 개발한 이후 심장병을 예방할 것이라는 큰 희망을 품었다. Barter 등(2007)은 심혈관질환 위험이 높은 수천 명의 환자에게 약물을 투여했다. LDL("나쁜 콜레스테롤")은 25% 줄었고 "좋은"(HDL) 콜레스테롤은 72% 늘었다. 신뢰구간은 좁았고, P 값은 매우 작았다(<0.001). 목표가 콜레스테롤 수치를 개선시키는 일이었다면, 약물은 엄청난 성공이었다. 하지만 불행하게도 토르세트라핍 치료군에서 심장 발작 환자수 역시 21% 늘었고 사망자 수도 58% 늘었다.


실제 교훈은 명백했다. 검사실 검사 결과를 개선시키는 치료가 건강이나 생존을 개선시키지 못할 수도 있다(표 45.1을 보라). Svennson (2013)은 추가로 14개 사례를 목록으로 만들었다.


표 45.1. 대리 변수를 이용한 결과로 부정확한 결론을 내릴 수 있다.

 치료

대리 변수

중요 결과 

 항 부정맥 약물 2종

  • 더 적은 조기 심장 박동
  • 결론: 좋은 치료
  • 더 많은 사망
  • 결론: 치명적인 치료 

 토르세트라핍

  • HDL("좋은" 콜레스테롤) 증가
  • LDL("나쁜" 콜레스테롤) 감소
  • 결론: 좋은 치료
  • 더 많은 사망
  • 더 많은 심장 발작
  • 결론: 치명적인 치료 


Barter, P. J., Caulfield, M., Eriksson, M., Grundy, S. M., Kastelein, J. J., Komajda, M., Lopez-Sendon, J., Mosca, L., et al. (2007) Effects of torcetrapib in patients at high risk for coronary events. New England Journal of Medicine, 357, 2109-2122.

Cardiac Arrhythmia Suppression Trial (CAST) Investigators. (1989). Preliminary report: Effect of encainide and flecainide on mortality in a randomized trial of arrhythmia suppression after myocardial infarction. New England Journal of Medicine, 3212, 406-412.

Fisher, L. D, & Van Belle, G. (1993). Biostatistics, A methodology for the health sciences. New York: Wiley Interscience. ISBN=0-471-58465-7.

Svensson, S., Menkes, D. B. & Lexchin, J.  (2013). Surrogate outcomes in clinical trials: a cautionary tale. JAMA Internal Medicine, 173, 611-612.


Posted by cyberdoc
:



피해야 할 통계의 덫 #4: 데이터가 상관성만 보여줄 때 인과성으로 결론내리기


Messerli (2012)는 어떤 나라들이 다른 나라들보다 노벨상 수상자를 더 많이 배출하는 이유가 궁금했고, 그 질문에 답하기 위해 그림 45.3와 같이 데이터를 그래프로 그렸다. Y 축은 나라 별로 전체 노벨상 수상자 수를 나타낸다. X 축은 (사용 가능한 데이터에 따라 나라 별로 연도 별로 조금 다르지만) 최근 연도 초콜릿 소비량을 나타낸다. X와 Y 축 모두 그 나라의 현재 인구로 표준화 시킨 값이다. 상관계수 r=0.79가 나와 상관성은 놀라울 정도로 강했다. 실제로는 아무 상관성이 없다는 영가설을 검정한 P 값은 0.0001 미만으로 미미했다. (옮긴이 주: 이 사례에 대해서는 [새얼뉴스레터 72호] 노벨상을 타려면 초콜릿을 많이 먹어야 한다? 포스팅에서 논평한 바 있다.)


그림 45.3. 나라별 평균 초콜릿 섭취량과 그 나라의 노벨상 수상자 숫자의 상관성


물론 이 데이터로 초콜릿을 먹으면 노벨상을 수상하는데 도움이 된다고 입증할 수는 없다. 마찬가지로 초콜릿 수입이 늘어난다고 그 나라에 살고 있는 사람이 노벨상을 수상하게 될 숫자가 늘어나지도 않을 것이다.


두 변수가 상관성 또는 연관성이 있을 때, 두 변수 중 한 변수의 변화가 다른 변수의 변화에 원인이 될 가능성은 있다. 그러나 두 변수는 둘다 영향을 받을 제3의 변수와 관련되어 있을 수도 있다. 그래프에 나타난 나라 사이에는 많은 변수가 다르고, 일부 변수는 아마도 초콜릿 섭취와 노벨상 수상자 수 모두와 상관성이 있다.


이와 같은 요점은 종종 "상관성이 인과성을 함축하지(imply) 못한다"로 요약되지만, 상관성이 인과성을 입증하지(prove) 못한다고 말하는 편이 정확하다.


개별 데이터 점이 서로 다른 연도를 대표할 때, 엉터리 상관성을 발견하기는 더 쉬워진다. 예를 들어, 그림 45.4는 전세계 해적의 총 숫자와 지구 평균 온도라는 하나의 지표가 강한 음의 상관성이 있음을 보여주고 있다. 그러나 상관성(해적들은 썅관성 carrrrelation이라고 부를 지도 모른다)이 인과성을 입증해주지 못한다. 해적이 줄어들어서 지구 온난화가 일어나지도 않았고 지구 온난화가 해적의 숫자를 줄였을 것 같지는 않다. 이 그래프는 그저 온도와 해적의 숫자가 시간에 따라 변해왔음을 보여주고 있을 뿐이다. 시간이라는 변수가 다른 두 변수로 인해 교란됐다(confounded)고 부른다.


그림 45.4. 전세계 해적 숫자와 세계 평균 온도의 상관성.

Henderson (2005)를 바탕으로 글쓴이가 그린 그림을 옮긴이가 다시 그림.


그림 45.5의 만평은 상관성이 인과성을 입증해주지 못한다는 점을 충분히 납득시켜주고 있다.




그림 45.5 상관성이 인과성을 함축하지는 않는다.

출처: 위: xkcd.com http://xkcd.com/552/, 아래: DILBERT http://dilbert.com/strips/comic/2011-11-28/


Henderson, B. (2005). Open letter to Kansas School Board. Church of the Flying Spaghetti Monster. Accessed December 8, 2012 at http://www.venganza.org/about/open-letter/.

Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal of Medicine, 367, 1562-1564.

Posted by cyberdoc
:


피해야 할 통계의 덫 #3: 계획 없이 분석하기 - "p-해킹"


데이터를 분석하다보면 많은 결정이 필요하게 된다. 표본수는 얼마나 커야 하는가? 어떤 통계적 검정을 이용해야 하는가? 이상값을 어떻게 처리할 것인가? 데이터를 먼저 변환해야 하는가? 외부 대조값을 위해 데이터를 정규화시켜야 하는가? 교란 변수의 차이를 통제하기 위해 다변수 회귀를 수행해야 하는가? 이와 같은 모든 결정(아마도 더 많은)은 실험을 설계할 당시에 내려져야만 한다.


만일 데이터를 본 직후 분석 결정을 내린다면, 연구자가 원하는 결과를 얻기 위한 분석을 골라내 선택할 위험이 있고, 따라서 연구자는 속게 된다. 우리는 이미 26장(표본수 선정)에서 임시 변통으로 표본수를 선택하는 문제를, 23장(어디나 있는 다중 비교)에서 p-해킹이라는 바보짓을 논의했다.

Gotzsche (2006)는 p-해킹(그렇게 부르지는 않았지만)의 증거를 제시했다. 그는 학술지에 발표된 p 값의 실제 분포를 표로 만들어 "다른 범위에서 생길 p 값의 숫자에 근거해 기대되는 경우보다 .05 바로 아래 p 값이 훨씬 흔하다"는 사실을 밝혔다. Masicampo와 Lalande (2012)도 비슷한 결과를 얻었다(그림 45.2를 보라). 이와 같이 .05 바로 아래 p 값이 과다하게 많은 데는 p-해킹도 원인이지만 이외에도 임시변통 표본수 선택(26장 참조)이나 출판 바이어스(43장 메타 분석 참조) 때문일 수도 있다.

그림 45.2. 논문에 발표된 p 값 중 너무 많은 값이 .05보다 약간 작다.

Masicampo와 Lalande (2012)는 심리학 분야에서 수준 높고 동료 심사를 수행하는 세 학술지에서 p 값을 수집하여 분포표를 만들었다. 그림을 보면 0.05보다 약간 작은 값에 p 값이 "특이하게 흔함"을 알 수 있다. 이 그림은 친절하게도 Masicampo가 저자에게 보내준 3,627편의 논문 목록으로 만들어진 것이고, Wasserman (2012)이 발표한 그래프와 일치한다.


Goetzsche, P. C. (2006). Believability of relative risks and odds ratios in abstracts: Cross sectional study. BMJ (Clinical Research Ed.), 333, 231-234.

Masicampo, E. J., & Lalande, D. R. (2012) A peculiar prevalence of p values just below .05. Quarterly Journal of Experimental Psychology, August 2. dii: 10.1080/17470218.2012.711335.

Wasserman, L. (2012). P values gone wild and multi scale madness. Normal Deviate, August 16. Accessed December 10, 2012, at http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/.


Posted by cyberdoc
: