피해야 할 통계의 덫 #12: 위양성 결과가 얼마나 흔한지 깨닫지 못함


22장에서 귀무가설이 참인데도 우연히 통계적으로 뚜렷한 결과가 일어날 수 있음을 지적했다. 이러한 경우를 1종 오류를 저질렀다고 부른다. 18장에는 다음과 같은 세 가지 값에 기초해 모든 통계적으로 뚜렷한 결과 중 어느 정도가 1종 오류에 해당하는지 계산하는 법을 제시했다.

  • 통계적 유의성, α의 정의. 만약 이 값을 작게 설정한다면(통상적인 0.05 대신 0.001로 설정한다고 해보자), 통계적으로 뚜렷한 결과가 실제로 차이가 있을 가능성은 매우 높다.
  • 검정력. 실험의 검정력이 낮을 때, 통계적으로 뚜렷한 결과가 실제로 차이가 있을 확률은 더 낮다.
  • 과학적 맥락. 두 가지 극단적 사례를 생각해보자. 만약 효과가 실제로 있다는 점을 확실히 알기 위해 일련의 양성 대조 실험을 수행한다면, 이때 하나하나 모두 통계적으로 뚜렷한 결과는 분명히 실제로 차이가 있을 것이다. 여기에는 위양성이 있을 수 없다. 또다른 극단적 사례는 귀무가설이 참이라는 점을 확실히 하기 위해 일련의 음성 대조 실험을 수행했다고 해보자. 이러한 실험에서 모든 통계적으로 뚜렷한 결과는 1종 오류, 위양성임에 틀림 없다. 실제 실험은 이러한 두가지 극단 사이에 놓여 있다. 탄탄한 과학과 이전 데이터에 기초해 집중한 실험으로부터 얻은 통계적으로 뚜렷한 결과는 참일 가능성이 높다. 집중하지 않은 실험으로부터 얻은 통계적으로 뚜렷한 결과는 위양성일 가능성이 높다.

표 45.5는 통계적 중요성의 표준 정의(P<0.05)와 검정력의 표준 목표(80%)를 이용한 시나리오로 과학적 맥락을 가정한 경우 실험의 6%에서 실제로 차이(또는 효과)가 있었고 다른 94%에서는 귀무가설이 실제로 참이었다.


 

통계적으로 뚜렷한: 귀무가설 기각

통계적으로 뚜렷하지 않은: 귀무가설 기각 못함 

전체 

실제 효과 없음(귀무가설이 참)

47 

893 

940 

실제 효과 있음

48 

12 

60 

전체

95 

905 

1,000

표 45.5. 80% 검정력, 5% 유의 수준, 사전 확률 6%로 1,000번 비교 실험한 결과


표에 나와 있는 숫자는 쉽게 계산할 수 있다. 1,000번의 실험 중 (가정에 따른) 실제 효과는 60번으로 6%다. 60번의 실험 중 48번에서 통계적으로 뚜렷한 효과를 탐지하여 검정력은 80%다. 다른 94%의 실험에서는 귀무가설이 참이다. 통계적 중요성의 표준 정의에 의하면, 무작위 표본추출로 47번(5%)의 실험에서 통계적으로 뚜렷한 결론을 얻게 된다. 다시 말해, 이 시나리오에 따르면 통계적으로 뚜렷한 결과의 47/(47+48) = 50%가 위양성이 된다.


많은 실험이 80% 검정력 미만으로 설계되고, 실제 효과의 사전 확률은 6% 미만일 수 있다. 즉, 결과가 위양성이 가능성이 50%보다 큰 상황에서도 통계적으로 뚜렷한 차이가 있다고 보고할 수 있다.


Ioannidis (2005)는 이미 발표된 통계적으로 뚜렷한 연구 결과가 거의 대부분 잘못됐다고 주장했고 발표된 결과가 잘못됐을 가능성을 높이는 요인을 열거했다(표 45.6을 보라). 경험적 연구로 이 요점을 확증했다. 두 제약회사가 발표된 전임상 결과를 재현하기 위해 체계적인 노력을 기울여 표로 만들었고 발표된 발견의 극히 일부분만 재현할 수 있었음을 밝혀냈다(Prinz, Schlange, & Asadullah, 2011; Begley & Ellis, 2012)


 요인

설명 

작은 표본 크기

표본이 작은 연구는 큰 연구보다 검정력이 떨어진다. 검정력이 낮은 연구에서 얻은 통계적으로 뚜렷한 결과는 검정력이 큰 연구에서 얻은 결과보다 잘못됐을 가능성이 크다.

보고된 효과가 작다

큰 효과보다 작은 효과를 탐지하려면 연구는 검정력이 떨어진다. 검정력이 낮은 연구에서 얻은 통계적으로 뚜렷한 결과는 검정력이 큰 연구에서 얻은 결과보다 잘못됐을 가능성이 크다. 

많은 비교; 통계적으로 뚜렷한 비교 결과만 보고

23장에서 다중 비교가 얼마나 쉽게 사람을 바보로 만드는지 설명했다.

계획 없이 유동적으로 데이터 분석

데이터를 수집하기 전에 분석 계획을 깐깐하게 세워두지 않고, 데이터를 유동적으로 분석한 연구는 문제를 일으킨다. 23장에 이미 이 문제를 경고했다.

금전적 동기로 비뚤어진 연구자

만약 연구자가 통계적으로 뚜렷한 결과에 대해 금전적 동기가 있다면, 데이터로부터 통계적으로 뚜렷한 결론을 이끌어내기 위해 더 노력하게 될 것이다.

자기 의견만 고집하는 비뚤어진 연구자

결과가 어떻게 나와야 하는지에 대해 강한 의견을 가진 연구자는 "옳은 방식"으로 가는 결과를 수용하고 출판하며 "잘못된 방식"으로 가는 데이터를 재분석하거나 무시하는 경향이 있을 것이다.

경쟁이 치열한 분야

경쟁이 치열한 분야가 있을 때, 연구자는 통계적으로 뚜렷한 결과를 발표하기 위해 서두르고 모든 필요한 대조군을 돌리는데 시간을 덜 쓰는 경향이 있다. 

표 45.6. 통계적으로 뚜렷하다고 발표된 결과가 참이 아닌 것으로 판명될 가능성을 높이는 요인들(Ioannidis, 2005를 보고 영감을 받아 만들었다.)


Begley, C. G. C., & Ellis, L. M. L. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483, 531-533.

Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine, 2, e124.

Prinz, F. F., Schlange, T. T., & Asadullah, K. K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10, 712.

Posted by 사이버독 cyberdoc

댓글을 달아 주세요


피해야 할 통계의 덫 #11: 변수를 누락시킨 결과로 타당하지 않게 된 다중 회귀 분석


다음 사례(Freedman, 2007에 제시된 결과의 연장)는 약간 어처구니 없긴 하지만 중요한 요점을 보여주고 있다. 연구 목적이 둘레로부터 사각형 면적을 예측하는 모형을 찾기 위함이라고 해보자.


그림 45.9는 둘레가 더 큰 사각형이 면적도 더 큰 경향을 보이고, 두 개의 이상값(outlier)이 있다. 그림 45.10은  남아 있는 점들("이상값"을 제외한 후) 가능한 모형에 적합시킨 결과다. 직선 모형(그림 45.10, 왼쪽)이 적절한 듯하지만, S자 모형(그림 45.10, 오른쪽)이 데이터를 더 잘 적합시킨다.





그림 45.11은 사각형을 더 늘려 데이터를 추가한 결과다. 이제 두 이상값은 실제로 그다지 비정상이 아닌 것처럼 보인다. 그림 45.11의 오른쪽은 임시로 두 종류의 사각형을 열린 동그라미와 채운 동그라미로 구분하고 각각 다른 모형으로 적합시킨 결과다.


위의 과정이 실제 과학처럼 보이지만 그렇지는 않다. 같은 둘레를 갖는 두 사각형은 모양에 따라 매우 다른 면적을 가질 수 있다. 둘레로부터 사각형 면적을 예측하는 일은 가능하지 않다. 면적은 높이와 너비(또는 둘레와 높이 및 너비 중 하나, 둘레와 높이/너비의 비)로부터 산출된다. 사각형의 모양을 결정하는 중요한 변수(높이, 너비 또는 두 값의 비)가 분석에는 빠졌다. 이러한 데이터를 이해하기 위해서는 환상적인 통계 분석이 아니라 결측 변수를 확인하는 단순한 생각이 필요했다. 종속과 독립 변수 모두에 영향을 주는 결측 변수를 잠복 변수(lurking variable)라고 부른다.

Posted by 사이버독 cyberdoc

댓글을 달아 주세요


피해야 할 통계의 덫 #10: 데이터를 집단으로 합쳐서 중요한 발견 놓치기


대학원에 지원한 남학생 중 44.3%가 입학 허가를 얻지만 여학생은 34.6%만 얻는다(표 45.3을 보라; Bickel, Hammel, & O'Connell, 1975). 성비는 1.28이고 95% 신뢰구간은 1.22부터 1.34였다. P 값은 0.0001 미만이었다.


 

 합격

불합격 

 합격 백분율

 남학생

3,738

4,704

44.3

 여학생

1,494

2,827

34.6

표 45.3. 1973년 버클리 대학원 과정 합격. 합친(pooled) 데이터.


일견 보기에 데이터는 성차별의 증거를 제시해주는 것처럼 보이지만, 대학원 과정마다 고유의 합격 결정을 내려온 여러 대학원으로부터 데이터를 합쳐서 합격률을 계산했기 때문이다.

위의 데이터가 성차별을 입증하는 것처럼 보이지만, 실제로 이 데이터는 매우 오도하고 있다. 문제는 많은 대학원으로부터 얻은 결과를 합친 데이터라는 점이다. 만일 학생들이 여러 대학원 과정에 지원했고 합격 결정을 한 곳에서 내렸다면 말이 된다. 그러나 대학원 입학은 그와 같은 방식으로 이뤄지지 않았다. 학생들은 지원할 과정을 선택하고, 과정마다 독자적인 합격 결정이 내려졌다. 그러므로 과정마다 개별적으로 데이터를 분석하는 일은 필수다. 연구진이 이와 같이 분석했을 때, 남학생과 여학생의 합격률이 거의 같음을 발견했다. 85개 과정 중 75개에서 통계적으로 뚜렷한 차이가 없었다(표 45.4를 보라). 네 개의 과정에서 통계적으로 뚜렷한 차이가 있었고, 여학생이 덜 합격하는 경향이 있었다. 여섯 개의 과정에서 통계적으로 뚜렷한 차이가 있었고, 여학생이 더 합격하는 경향이 있었다. 전체적으로 저자는 성차별의 증거를 발견하지 못했다. 그래서 무슨 일이 일어나게 됐는가? 왜 합친 데이터는 성차별을 시사했을까?


차별의 증거가 있는가?

과정 개수 

입학 결정에서 통계적으로 뚜렷한 차이가 없음

75 

남학생 선호(P<0.05)

여학생 선호(P<0.05) 

전체 과정 개수

85 

표 45.4. 1973년 버클리 대학원 과정 합격, 과정별


일부 대학원 과정은 지원자 합격률이 높았고 다른 과정은 낮았다. 여학생 합격률이 가장 높은 두 대학원 과정은 지원자의 34%와 24%에 지나지 않았지만, 남학생 합격률이 가장 높은 두 대학원 과정은 지원자의 62%와 63%나 됐다(Freedman, 2007). 여학생 비율이 낮은 이유는 전체적으로 단순했다. 여학생이 남학생보다 좀더 선택적인 과정에 지원하는 경향이 있기 때문이었다.


이는 심슨의 역설(Simpson's paradox)의 고전적 사례다. 합친 데이터를 분석하면 오도된 결과를 얻을 수 있다.


같은 문제가 일부 의학 연구에서 일어나곤 한다. 만약 신약이 암을 더 잘 치료하는지 검정하기 위해 모든 종류의 암환자를 합쳐셔 분석하는 경우를 생각해보자. 암은 서로 다른 약물에 반응하는 여러 질환군이다. 모든 진단을 한 연구에 결합시키면 실망스럽고 결정적이지 않은 결과를 얻게 된다. 대부분의 많은 의학적 상태(아마 패혈증 쇽, 유방암, 자폐증이 포함된다)는 실제로 분명한 장애의 조합이다. 개별 질환을 식별하는 법을 알아낼 때까지, 치료법에 대한 여러 연구는 애매할 수도 있다.


Bickel, P. J., Hammel, E. A., & O'Connell, J. W. (1975). Sex bias in graduate admissions. Data from Berkeley. Science, 187, 398-404.

Freedman, D. (1983). A note on screening regression equations. American Statistician, 37, 152-155.

Posted by 사이버독 cyberdoc

댓글을 달아 주세요