피해야 할 통계의 덫 #6: 관찰 연구로 얻은 데이터를 과대해석하기


Munger 등(2013)은 비타민 D(25-히드록시비타민, 줄여서 25(OH)D) 부족이 1형 당뇨병의 소인인지를 알아보고자 했다. 연구진은 당뇨병을 앓고 있는 사람과 여러 면에서 비슷하지만 당뇨병을 앓고 있지 않은 사람을 구분하여 질병 발생 이전에 채취한 혈액 표본에서 혈중 비타민 D 농도를 측정해 비교했다. 연구진은 혈중 평균 25(OH)D 농도가 100 nmol/L보다 높은 사람들이 75 nmol/L보다 낮은 사람들에 비해 당뇨병이 발생할 위험이 더 낮다는 점을 발견했다. 위험비는 0.56이었고, 95% 신뢰구간은 0.35부터 0.90까지였다(P=0.03).


얼마나 흥미로운 데이터인가! 이런 발견은 비타민 D 보충제 복용이 당뇨를 예방하게 된다는 점을 뜻하는가? 아니다. 낮은 비타민 D 농도와 당뇨 발생의 연관성은 많은 방식으로 설명될 수 있다. 햇빛 노출이 비타민 D 농도를 높인다. 아마 햇빛 노출은 또한 다른 호르몬(아직까지 확인되지 않은)을 생성시켜 당뇨 위험을 낮출 지 모른다. 아마 햇빛에 더 많이 노출된(그 결과 비타민 D 농도가 더 높은)사람들은 또한 운동을 더 많이 할 지도 모르고, 운동이 당뇨를 예방하는데 도움이 됐을 지도 모른다. 아마 비타민 D 농도가 더 높은 사람들은 강화 우유를 더 많이 마셔서, 우유에 든 칼슘이 당뇨를 예방하는데 도움이 됐을 지도 모른다. 비타민 D 섭취가 당뇨병을 예방하는지 확실하게 알아보는 유일한 방법은 비타민 D 보충제를 복용한 사람과 그렇지 않은 사람으로 나눠 비교하는 실험을 수행하는 방법밖에 없다.

위의 사례에서 실제 교훈은 관찰 데이터로 내린 결론에 대하여 회의적이어야 한다는 점이다. 관찰 연구가 실험 연구에 비해 수행하기 더 쉽다고 할 지라도, 실험으로 얻은 데이터가 좀더 결정적이다. 관찰 연구로는 교란 변수를 처리하기가 어렵고, 원인과 결과를 설득력 있게 풀어내기가 거의 불가능하다. 대부분의 실험과 비교하여, 관찰 연구는 종종 좀더 복잡한 분석을 필요로 하고 덜 확실한 결과를 얻는다.


이와 같은 점을 강조하기 위해, Spector와 Vesell (2006a)는 관찰 연구에서 제시된 가설이 임상 시험으로 검증했을 때 타당하지 않다고 판명된 다섯 가지 연구 사례를 고찰했다(표 45.2를 보라).


표 45.2. 관찰 연구에서 제시된 가설이 실험에 의해 사실이 아닌 것으로 입증된 다섯 가지 연구 사례

개입 

발생 

관찰 연구 

실험 

폐경 후 호르몬 대체 요법 

심혈관 질환 

감소 

증가 

대용량 비타민 E

심혈관 질환

감소 

변화 없음 

저지방 식이 

심혈관 질환과 암 

감소

변화 없음 

칼슘 보충

골절과 암 

감소 

변화 없음 

호모시스틴 감소 비타민

심혈관 질환 

감소 

변화 없음 

Spector와 Vesell (2006a)를 이용. "심혈관 질환"은 심근 경색증, 돌연사, 뇌졸중을 포함.


Munger KL, Levin LL, Massa J, Horst R, Orban T, Ascherio A., (2013) Preclinical serum 25-hydroxyvitamin D levels and risk of type 1 diabetes in a cohort of US military personnel. American Journal of Epidemiology, 177(5):411-419.

Spector R, & Vesell ES., (2006a) The heart of drug discovery and development: rational target selection. Pharmacology, 77(2):85-92.

Posted by cyberdoc
:


피해야 할 통계의 덫 #5: 대리 결과를 측정한 연구를 과대 해석하기


생존 여부와 같이 중요한 결과를 측정하는 일은 시간과 돈이 많이 들게 된다. 실무에서는 대리(proxy 또는 surrogate) 변수를 측정하는 일이 더 흔하다. 그러나, 대리 변수를 개선시키는 어떤 개입이 더 중요한 변수를 개선시키지 못할 수도 있다.


15장(P 값 소개하기)에서 이미 사례를 제시했다. 여러 해 동안, 심근경색증(심장 발작)을 앓은 사람들은 항부정맥 약물을 처방 받았다. 이 약물은 기외 심박동(조기 심실 수축)을 예방하여 부정맥으로 인한 돌연사 발생률을 줄여준다고 여겨졌다. 논리는 분명했다. 심전도 상 이상 결과(기외 박동)는 돌연사와 관련이 있다고 알려졌고, 항부정맥 약물은 기외 박동의 숫자를 줄여준다고 알려졌다. 그러므로 항부정맥 약물의 투여가 생명을 연장시킬 것이라는 주장은 이치에 맞았다. 미국 식품의약품안전청이 이러한 목적으로 약물 사용을 허가했을 때 증거는 충분할 정도로 강력했다. 그러나 항부정맥 약물이 돌연사를 줄일 것이라는 가설을 직접 검정한 무작위 연구는 정확히 반대의 결과를 보였다. 두 가지 특정 항부정맥 약물을 투여한 환자는 (대리 변수인 기외 박동은 줄었지만) 더 많이 사망했다(CAST 연구진, 1989). Fisher와 VanBelle (1993)은 이 시험의 배경과 결과를 요약해 책으로 냈다.


또다른 사례로 HDL 수치를 높이는 약물을 이용해 심장 발작을 예방하려는 시도가 있다. HDL("좋은 콜레스테롤") 수치가 낮으면 죽상동맥경화와 심장병 위험이 높다. 화이자 사는 HDL을 높이는 약물인 토르세트라핍(torcetrapib)을 개발한 이후 심장병을 예방할 것이라는 큰 희망을 품었다. Barter 등(2007)은 심혈관질환 위험이 높은 수천 명의 환자에게 약물을 투여했다. LDL("나쁜 콜레스테롤")은 25% 줄었고 "좋은"(HDL) 콜레스테롤은 72% 늘었다. 신뢰구간은 좁았고, P 값은 매우 작았다(<0.001). 목표가 콜레스테롤 수치를 개선시키는 일이었다면, 약물은 엄청난 성공이었다. 하지만 불행하게도 토르세트라핍 치료군에서 심장 발작 환자수 역시 21% 늘었고 사망자 수도 58% 늘었다.


실제 교훈은 명백했다. 검사실 검사 결과를 개선시키는 치료가 건강이나 생존을 개선시키지 못할 수도 있다(표 45.1을 보라). Svennson (2013)은 추가로 14개 사례를 목록으로 만들었다.


표 45.1. 대리 변수를 이용한 결과로 부정확한 결론을 내릴 수 있다.

 치료

대리 변수

중요 결과 

 항 부정맥 약물 2종

  • 더 적은 조기 심장 박동
  • 결론: 좋은 치료
  • 더 많은 사망
  • 결론: 치명적인 치료 

 토르세트라핍

  • HDL("좋은" 콜레스테롤) 증가
  • LDL("나쁜" 콜레스테롤) 감소
  • 결론: 좋은 치료
  • 더 많은 사망
  • 더 많은 심장 발작
  • 결론: 치명적인 치료 


Barter, P. J., Caulfield, M., Eriksson, M., Grundy, S. M., Kastelein, J. J., Komajda, M., Lopez-Sendon, J., Mosca, L., et al. (2007) Effects of torcetrapib in patients at high risk for coronary events. New England Journal of Medicine, 357, 2109-2122.

Cardiac Arrhythmia Suppression Trial (CAST) Investigators. (1989). Preliminary report: Effect of encainide and flecainide on mortality in a randomized trial of arrhythmia suppression after myocardial infarction. New England Journal of Medicine, 3212, 406-412.

Fisher, L. D, & Van Belle, G. (1993). Biostatistics, A methodology for the health sciences. New York: Wiley Interscience. ISBN=0-471-58465-7.

Svensson, S., Menkes, D. B. & Lexchin, J.  (2013). Surrogate outcomes in clinical trials: a cautionary tale. JAMA Internal Medicine, 173, 611-612.


Posted by cyberdoc
:



피해야 할 통계의 덫 #4: 데이터가 상관성만 보여줄 때 인과성으로 결론내리기


Messerli (2012)는 어떤 나라들이 다른 나라들보다 노벨상 수상자를 더 많이 배출하는 이유가 궁금했고, 그 질문에 답하기 위해 그림 45.3와 같이 데이터를 그래프로 그렸다. Y 축은 나라 별로 전체 노벨상 수상자 수를 나타낸다. X 축은 (사용 가능한 데이터에 따라 나라 별로 연도 별로 조금 다르지만) 최근 연도 초콜릿 소비량을 나타낸다. X와 Y 축 모두 그 나라의 현재 인구로 표준화 시킨 값이다. 상관계수 r=0.79가 나와 상관성은 놀라울 정도로 강했다. 실제로는 아무 상관성이 없다는 영가설을 검정한 P 값은 0.0001 미만으로 미미했다. (옮긴이 주: 이 사례에 대해서는 [새얼뉴스레터 72호] 노벨상을 타려면 초콜릿을 많이 먹어야 한다? 포스팅에서 논평한 바 있다.)


그림 45.3. 나라별 평균 초콜릿 섭취량과 그 나라의 노벨상 수상자 숫자의 상관성


물론 이 데이터로 초콜릿을 먹으면 노벨상을 수상하는데 도움이 된다고 입증할 수는 없다. 마찬가지로 초콜릿 수입이 늘어난다고 그 나라에 살고 있는 사람이 노벨상을 수상하게 될 숫자가 늘어나지도 않을 것이다.


두 변수가 상관성 또는 연관성이 있을 때, 두 변수 중 한 변수의 변화가 다른 변수의 변화에 원인이 될 가능성은 있다. 그러나 두 변수는 둘다 영향을 받을 제3의 변수와 관련되어 있을 수도 있다. 그래프에 나타난 나라 사이에는 많은 변수가 다르고, 일부 변수는 아마도 초콜릿 섭취와 노벨상 수상자 수 모두와 상관성이 있다.


이와 같은 요점은 종종 "상관성이 인과성을 함축하지(imply) 못한다"로 요약되지만, 상관성이 인과성을 입증하지(prove) 못한다고 말하는 편이 정확하다.


개별 데이터 점이 서로 다른 연도를 대표할 때, 엉터리 상관성을 발견하기는 더 쉬워진다. 예를 들어, 그림 45.4는 전세계 해적의 총 숫자와 지구 평균 온도라는 하나의 지표가 강한 음의 상관성이 있음을 보여주고 있다. 그러나 상관성(해적들은 썅관성 carrrrelation이라고 부를 지도 모른다)이 인과성을 입증해주지 못한다. 해적이 줄어들어서 지구 온난화가 일어나지도 않았고 지구 온난화가 해적의 숫자를 줄였을 것 같지는 않다. 이 그래프는 그저 온도와 해적의 숫자가 시간에 따라 변해왔음을 보여주고 있을 뿐이다. 시간이라는 변수가 다른 두 변수로 인해 교란됐다(confounded)고 부른다.


그림 45.4. 전세계 해적 숫자와 세계 평균 온도의 상관성.

Henderson (2005)를 바탕으로 글쓴이가 그린 그림을 옮긴이가 다시 그림.


그림 45.5의 만평은 상관성이 인과성을 입증해주지 못한다는 점을 충분히 납득시켜주고 있다.




그림 45.5 상관성이 인과성을 함축하지는 않는다.

출처: 위: xkcd.com http://xkcd.com/552/, 아래: DILBERT http://dilbert.com/strips/comic/2011-11-28/


Henderson, B. (2005). Open letter to Kansas School Board. Church of the Flying Spaghetti Monster. Accessed December 8, 2012 at http://www.venganza.org/about/open-letter/.

Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal of Medicine, 367, 1562-1564.

Posted by cyberdoc
: