피해야 할 통계의 덫 #12: 위양성 결과가 얼마나 흔한지 깨닫지 못함


22장에서 귀무가설이 참인데도 우연히 통계적으로 뚜렷한 결과가 일어날 수 있음을 지적했다. 이러한 경우를 1종 오류를 저질렀다고 부른다. 18장에는 다음과 같은 세 가지 값에 기초해 모든 통계적으로 뚜렷한 결과 중 어느 정도가 1종 오류에 해당하는지 계산하는 법을 제시했다.

  • 통계적 유의성, α의 정의. 만약 이 값을 작게 설정한다면(통상적인 0.05 대신 0.001로 설정한다고 해보자), 통계적으로 뚜렷한 결과가 실제로 차이가 있을 가능성은 매우 높다.
  • 검정력. 실험의 검정력이 낮을 때, 통계적으로 뚜렷한 결과가 실제로 차이가 있을 확률은 더 낮다.
  • 과학적 맥락. 두 가지 극단적 사례를 생각해보자. 만약 효과가 실제로 있다는 점을 확실히 알기 위해 일련의 양성 대조 실험을 수행한다면, 이때 하나하나 모두 통계적으로 뚜렷한 결과는 분명히 실제로 차이가 있을 것이다. 여기에는 위양성이 있을 수 없다. 또다른 극단적 사례는 귀무가설이 참이라는 점을 확실히 하기 위해 일련의 음성 대조 실험을 수행했다고 해보자. 이러한 실험에서 모든 통계적으로 뚜렷한 결과는 1종 오류, 위양성임에 틀림 없다. 실제 실험은 이러한 두가지 극단 사이에 놓여 있다. 탄탄한 과학과 이전 데이터에 기초해 집중한 실험으로부터 얻은 통계적으로 뚜렷한 결과는 참일 가능성이 높다. 집중하지 않은 실험으로부터 얻은 통계적으로 뚜렷한 결과는 위양성일 가능성이 높다.

표 45.5는 통계적 중요성의 표준 정의(P<0.05)와 검정력의 표준 목표(80%)를 이용한 시나리오로 과학적 맥락을 가정한 경우 실험의 6%에서 실제로 차이(또는 효과)가 있었고 다른 94%에서는 귀무가설이 실제로 참이었다.


 

통계적으로 뚜렷한: 귀무가설 기각

통계적으로 뚜렷하지 않은: 귀무가설 기각 못함 

전체 

실제 효과 없음(귀무가설이 참)

47 

893 

940 

실제 효과 있음

48 

12 

60 

전체

95 

905 

1,000

표 45.5. 80% 검정력, 5% 유의 수준, 사전 확률 6%로 1,000번 비교 실험한 결과


표에 나와 있는 숫자는 쉽게 계산할 수 있다. 1,000번의 실험 중 (가정에 따른) 실제 효과는 60번으로 6%다. 60번의 실험 중 48번에서 통계적으로 뚜렷한 효과를 탐지하여 검정력은 80%다. 다른 94%의 실험에서는 귀무가설이 참이다. 통계적 중요성의 표준 정의에 의하면, 무작위 표본추출로 47번(5%)의 실험에서 통계적으로 뚜렷한 결론을 얻게 된다. 다시 말해, 이 시나리오에 따르면 통계적으로 뚜렷한 결과의 47/(47+48) = 50%가 위양성이 된다.


많은 실험이 80% 검정력 미만으로 설계되고, 실제 효과의 사전 확률은 6% 미만일 수 있다. 즉, 결과가 위양성이 가능성이 50%보다 큰 상황에서도 통계적으로 뚜렷한 차이가 있다고 보고할 수 있다.


Ioannidis (2005)는 이미 발표된 통계적으로 뚜렷한 연구 결과가 거의 대부분 잘못됐다고 주장했고 발표된 결과가 잘못됐을 가능성을 높이는 요인을 열거했다(표 45.6을 보라). 경험적 연구로 이 요점을 확증했다. 두 제약회사가 발표된 전임상 결과를 재현하기 위해 체계적인 노력을 기울여 표로 만들었고 발표된 발견의 극히 일부분만 재현할 수 있었음을 밝혀냈다(Prinz, Schlange, & Asadullah, 2011; Begley & Ellis, 2012)


 요인

설명 

작은 표본 크기

표본이 작은 연구는 큰 연구보다 검정력이 떨어진다. 검정력이 낮은 연구에서 얻은 통계적으로 뚜렷한 결과는 검정력이 큰 연구에서 얻은 결과보다 잘못됐을 가능성이 크다.

보고된 효과가 작다

큰 효과보다 작은 효과를 탐지하려면 연구는 검정력이 떨어진다. 검정력이 낮은 연구에서 얻은 통계적으로 뚜렷한 결과는 검정력이 큰 연구에서 얻은 결과보다 잘못됐을 가능성이 크다. 

많은 비교; 통계적으로 뚜렷한 비교 결과만 보고

23장에서 다중 비교가 얼마나 쉽게 사람을 바보로 만드는지 설명했다.

계획 없이 유동적으로 데이터 분석

데이터를 수집하기 전에 분석 계획을 깐깐하게 세워두지 않고, 데이터를 유동적으로 분석한 연구는 문제를 일으킨다. 23장에 이미 이 문제를 경고했다.

금전적 동기로 비뚤어진 연구자

만약 연구자가 통계적으로 뚜렷한 결과에 대해 금전적 동기가 있다면, 데이터로부터 통계적으로 뚜렷한 결론을 이끌어내기 위해 더 노력하게 될 것이다.

자기 의견만 고집하는 비뚤어진 연구자

결과가 어떻게 나와야 하는지에 대해 강한 의견을 가진 연구자는 "옳은 방식"으로 가는 결과를 수용하고 출판하며 "잘못된 방식"으로 가는 데이터를 재분석하거나 무시하는 경향이 있을 것이다.

경쟁이 치열한 분야

경쟁이 치열한 분야가 있을 때, 연구자는 통계적으로 뚜렷한 결과를 발표하기 위해 서두르고 모든 필요한 대조군을 돌리는데 시간을 덜 쓰는 경향이 있다. 

표 45.6. 통계적으로 뚜렷하다고 발표된 결과가 참이 아닌 것으로 판명될 가능성을 높이는 요인들(Ioannidis, 2005를 보고 영감을 받아 만들었다.)


Begley, C. G. C., & Ellis, L. M. L. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483, 531-533.

Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine, 2, e124.

Prinz, F. F., Schlange, T. T., & Asadullah, K. K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10, 712.

Posted by cyberdoc
: