피해야 할 통계의 덫 #2: 데이터가 제안하는 가설 검정하기


논점이 집중된 질문에 답하도록 연구를 설계할 때, 결과는 대개 수월하게 해석된다. 하지만 일부 연구는 많은 대상자 집단에서 많은 변수가 있는 데이터를 분석하기도 하고, 연구를 시작할 당시 실제 가설이 없기도 한다. 그러한 연구는 탐색적 데이터 분석(exploratory data analysis)의 한 부분으로 가설을 생성하는 하나의 유용한 방식이 될 수 있다. 그러나 새로운 데이터는 가설을 세워 검정할 필요가 있다.


어떤 과학자가 데이터를 많은 방식으로(많은 변수와 많은 세부 집단을 포함하게 되는) 분석할 때, 기이한 관련성을 발견할 때, 그리고 나서 결과를 출판하여 데이터 수집을 시작하기 전에 가설을 세운 것처럼 보이게 만들 때 덫에 빠지게 된다. 23장(어디나 있는 다중 비교 The Ubiquity of Multiple Comparisons)에 이미 언급했듯이, Kerr (1998)는 결과를 안 다음 가설 세우기(Hypothesizing After the Results are Known)를 줄여 HARK라는 약자를 만들어냈다. Kriegeskorte 등(2009)은 이를 '두번 찍기(double dippling)'라고 불렀다.


얼마나 많은 가설을 실제로 검정했는지 정확하게 알지 못한다면 그와 같은 연구에서 얻어진 결과를 평가하기란 불가능하다. 결과가 논문으로 출판된 경우 단 하나의 가설을 검정한 것처럼 오해하게 될 것이다. XKCD 만평은 이러한 접근이 얼마나 바보짓인지 꼬집고 있다(그림 45.1).


그림 45.1 HARKing으로 인한 엉터리 결론(출처: xkcd.com)


또한 사실대로 하나의 가설을 검정하지 않은 연구를 조심해야 한다. 일부 연구자들은 자신들이 세운 가설이 매우 강력하다고 믿어서(그리고 가설을 매우 모호하게 서술했을 지도 모르고) 어떤 데이터가 가설을 기각하도록 결론내릴 것이라고는 상상조차 하지 못한다. 데이터가 무엇을 보여주건 간에, 연구진은 가설이 옳다는 결론을 내릴 방법을 찾게 될 것이다. 그러한 가설은 "경험(empirical)이라기보다 흡혈귀(vampirical)에 가까워서, 근거만으로 퇴치할 수도 없다"(Gelman & Weakliem, 2009; Freese, 2008).


----------

Freese, J. (2008). The problem of predictive promiscuity in deductive applications of evolutionary reasoning to intergenerational transfers: Three cautionary tales. In Intergenerational caregiving, ed. A. Booth, A. C. Crouter, S. M. Bianchi, & J. A. Seltzer. Urban Institute Press. ISBN-978-0877667476.

Gelman, A., & Weakliem, D. (2009) Of beauty, sex and power: Statistical challenges in estimating small effects. American Scientist, 97, 310-311.

Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196-217.

Kriegeskorte, N., Simmons, W. K., Bellgowan, P. S. F., & Baker, C. I. (2009). Circular analysis in systems neuroscience: The dangers of double dipping. Nature Neuroscience, 12, 535-540.

Posted by cyberdoc
:


하비 모툴스키가 쓴 <직관으로 배우는 생물통계학: 통계적 사고에 대한 비수학적 안내서>는 수학이나 통계학을 전공하지 않은 연구자가 공부하게 좋은 교과서로 올초 3판까지 나왔다. 45장에 '피해야 할 통계의 덫'이라는 제목으로 열두 가지를 언급해두었다. 시간이 나는대로 하나씩 모두 옮겨두려고 한다.


덫 #1: 효과 크기보다 P 값과 통계적 유의성에 집중하기


P 값과 통계적 유의성에 대한 결론이 유용할 수도 있지만, P 값과 함께 제시된 여러 별표보다 통계에는 더욱 중요한 것들이 있다. 차이 또는 연관성의 크기를 뜻하는 효과 크기에 집중해야 한다. 차이 또는 연관성이나 상관성(효과)이 관심을 가질만큼 충분히 큰가? 효과가 신뢰구간으로 평가했을 때 충분한 정밀도로 결정됐는가? 표본수가 엄청나게 많다면, 작은 효과도 통계적으로 유의하지만 무의미할 지도 모른다. 표본수가 작다면, 충분한 정밀도로 효과를 결정하지 못하여 어떤 유용한 결론을 내리지 못할 수도 있다.


Gelman (2013)은 통계적 유용성이라는 문구에 정신이 팔리지 않도록 영리한 접근을 제안하고 있다. Gelman은 표본수가 엄청나게 많은 경우("수천억")를 상상해보자고 제안하고 있다. 이 경우, 결국에는 모든 효과가 통계적으로 유의하게 되지만, 대부분은 사소할 것이고, "통계적 유의성에 대한 결론을 무시하고 대신 실제로 무엇에 관심을 가져야 하는지를 생각할 필요가 있게 될 것이다".


Gelman, A. (2013). Don't let your standard errors drive your research agenda. Statistical Modeling, Causal Inference, and Social Science (blog).


Posted by cyberdoc
:

50세 여성이 유방촬영술을 받은 결과 양성이었다. 이 여성이 실제 유방암을 갖고 있을 확률(양성 예측도)은 얼마나 되는가? 단, 유방암 유병률은 1%이고, 유방촬영술의 민감도는 90%이며 특이도는 91%라고 하자. 가장 올바른 답은?

A. 이 여성이 유방암을 갖고 있을 확률은 약 81%다.

B. 유방촬영술 양성인 여성 10명 중 약 9명이 유방암이 있다.

C. 유방촬영술 양성인 여성 10명 중 약 1명이 유방암이 있다.

D. 이 여성이 유방암을 갖고 있을 확률은 약 1%이다.

기거렌처 등의 2007년 논문 '의사와 환자가 보건 통계를 이해하도록 돕기' [링크] 에 실린 그림 3은 유방촬영술을 받은 여성이 검사에서 양성이 나왔을 때 실제로 유방암을 갖고 있을 확률(양성 예측도)을 계산한 두 가지 방법이다. 조건부 확률보다 자연 빈도가 훨씬 이해가 쉽다. 이 내용은 같은 저자의 '계산된 위험'(Calculated Risk, 2002)에 설명이 자세하게 나와 있다.


Posted by cyberdoc
:

Stata 써드파티 명령어를 제공하는 업체인 SealedEnvelope에서 만든 reformat 명령어를 이용하면 결과물을 최종 논문 원고에 가깝게 출력할 수 있다. 단, logisitic이나 stcox 등 회귀분석 명령문 앞에 xi: 접두어를 반드시 써줘야 한다.

1. 출처: SealedEnvelope 홈페이지 http://www.sealedenvelope.com/stata/reformat/

2. 명령어를 다운로드하려면 명령어 창에 net from http://www.sealedenvelope.com/ 를 입력한 다음 명령어를 클릭하면 된다. reformat 외에 다른 명령어도 모두 쏠쏠한 기능이 있다.

Posted by cyberdoc
:

<역학> 2010년 호에 실린 '예측 모형의 성능 평가: 전통적 방법과 새로운 방법의 측정 체계' 논문( PDF: http://goo.gl/Z4e9O )의 표 1은 각 지표의 특성을 잘 요약해두었다. 요즘은 NRI와 IDI가 자주 보이는데 웁살라 대학교 임상 연구 센터 홈페이지( http://goo.gl/KRRN9 )에 가면 두 지표를 산출할 수 있는 R 코드, SAS 매크로, Stata 패키지를 구할 수 있다. 생존 분석 예측 모형의 성능 평가는 이와 많이 다르다.

Posted by cyberdoc
:

사용자 작성 명령어인 graphbinary를 이용하면 이분형 결과 변수에 대한 여러 설명 변수의 OR과 95% CI를 그래프 형태로 만들어 보여준다. 연속형 설명 변수는 중앙값으로 구분하여 제시해준다. 산출된 OR은 보정되지 않은(unadjusted) 값이다.

Posted by cyberdoc
:

Roger Newson이 개발한 somersd 명령어를 설치하면 생존 분석 모형의 설명력 지표인 Harrell's c-index와 95% CI 산출이 가능하다. 출처: Newson RB. Comparing the predictive powers of survival models using Harrell’s C or Somers’ D. Stata Journal;2010(3):339-358

stcox 명령문 수행 후 estat concordance 명령문을 입력해도 Harrell's c-index를 얻을 수 있지만 95% CI까지 산출해주지는 않는다. estat concordance, gheller se를 입력하면 Gonen and Heller's K값과 95% CI를 산출해주므로 사용을 권장한다.

Posted by cyberdoc
:

다음 달에 조셉 힐베 옹의 '일반화추정방정식(GEE)' 2판이 십년만에 나온다는 소식이다. 유튜브에 공개된 저자 설명에 따르면 R과 Stata 코드가 대폭 추가됐고, SAS 코드와 데이터도 함께 제공된다.

<차례>

1. 서론

표기 규칙과 약어

일반화 선형 모형에 대한 간략 리뷰

소프트웨어

예제


2. 모형 구축과 추정 방정식

독립 데이터

추정값의 분산 추정

패널 데이터

추정

요약

예제

선택 결과에 대한 R 코드


3. 일반화 추정 방정식

인구집단 평균(PA)과 연구대상자 특정(SS) 모형

GLMs에서 PA-GEE

GLMs에서 SS-GEE

GLMs에서 GEE2

GLMs의 확장으로 GEE

향후 개발과 응용

결측 데이터

적정 모형의 선택

요약

예제

선택 결과에 대한 R 코드


4. 잔차, 진단, 검정

기준 측정

잔차 분석

제거 진단

적합도(PA 모형)

PA-GEE 모형에서 계수 검정

PA-GEE 모형의 MCAR 가정 평가

요약

예제


5. 프로그램과 데이터셋

프로그램

데이터셋


참고문헌

저자 색인

주제 색인



Posted by cyberdoc
:


부동의 범주형 자료분석론 교재인 Categorical Data Analysis Using SAS 3판이 지난 7월 말에 나왔다. 3판 서문에 따르면 새로 추가된 내용은 다음과 같다.


1. 다양한 그래프(모자이크 플롯, 효과 플롯, 오즈비 플롯, 예측 누적 분율 플롯, 회귀 진단 플롯, 일치 플롯)를 이용해 설명했다.

2. 이전 14장 "가중 최소 제곱법을 이용한 반복 측정"을 13장 "가중 최소 제곱법"으로 합쳐 새로 14장 "가중 최소 제곱법" 서술. 이전 16장 "로그 선형 모형"의 자료는 12장 "푸아송 회귀와 관련 로그 선형 모형"으로 이동. 10장 "조건부 로지스틱 회귀"의 자료는 새로 썼고, 8장 "로지스틱 회귀 I: 이분형 반응"과 9장 "로지스틱 회귀 II: 다범주 반응"은 확장됐다. 여기에 이전 16장 "범주화된 시간-사건 데이터"는 13장으로 옮겼다.

3. 발생 밀도 비와 신뢰구간, 분율의 차이에 대한 부가적 신뢰구간, 직접 확률 푸아송 회귀, 여러 표에서 관련성의 방향을 반영하는 차이 측정, 부분 비례 오즈 모형, GEE 분석에서 QIC 통계량의 이용, 교호작용을 표현하는 오즈비, 로지스틱 회귀에서 Firth penalized likelihood 접근 등 많은 기법을 추가했다.

새로 추가된 내용이 늦은 감이 있지만 SAS 이용자에게 여전히 필독서임은 분명하다. Stata와 R 이용자들은 오탈자가 많고 문장이 난삽하지만 최신 내용을 두루 다루고 있는 Joseph Hilbe의 Logistic Regression Models를 추천한다.


Posted by cyberdoc
:


2002년 전공의 월급 중 거금을 털어 아마존에서 처음 구입했던 책이 'Statistics with Stata'였는데, 얼마 전 Stata 버전 12에 맞춰 개정한 8판( http://stata.com/bookstore/statistics-with-stata/ )이 새로 나왔다. 구판과 비교하여 신판에서 변경된 내용을 간략히 정리했다.


1. 구판 '14장 조사 데이터 분석'에서 기본적인 내용만 추려 '4장 조사 데이터'로 옮겼다. 조사 데이터 분석에 대한 상세한 내용이 빠진건 아쉽다.

2. 구판에서 독립되어 있던 '7장 회귀 진단'이 신판 '7장 선형 회귀 분석'으로 합쳐졌다.

3. '7장 선형 회귀 분석'에 교호작용 효과, 분산의 로버스트 추정, 단순 회귀에서 신뢰 밴드 절이 추가됐다.

4. 구판 '8장 곡선 적합'과 '9장 로버스트 회귀'는 신판 '8장 고급 회귀 기법'으로 합쳐졌고, 박스-콕스 회귀, 결측값 다중 대치, 12 버전부터 지원하는 구조 방정식 모형 절이 추가됐다.

5. '9장 로지스틱 회귀'에 주변 또는 조건 효과 플롯과 결측값 다중 대치-로짓 회귀 예제가 추가됐다.

6. '11장 주성분, 요인과 군집 분석'에 주 요인화, 최대 가능도 요인화, 군집 분석 1-2, 회귀에서 요인 점수 사용, 측정과 구조 방정식 모형 절이 추가됐다.

7. '12장 시계열 분석'에 최근 기후 변화 절이 추가됐다.

8. '13장 다수준 및 혼합 효과 모형'에 반복 측정 절이 추가됐다.

9. 14장 프로그래밍 소개에 multicat 명령어 사용이 추가됐다.


의학 보건학 예제가 많지 않고, 조사 데이터 고급 분석이 빠졌지만, Stata 입문자가 한 권만 구입하려고 할 때 여전히 추천 0순위 서적이다.

Posted by cyberdoc
: