피해야 할 통계의 덫 #4: 데이터가 상관성만 보여줄 때 인과성으로 결론내리기


Messerli (2012)는 어떤 나라들이 다른 나라들보다 노벨상 수상자를 더 많이 배출하는 이유가 궁금했고, 그 질문에 답하기 위해 그림 45.3와 같이 데이터를 그래프로 그렸다. Y 축은 나라 별로 전체 노벨상 수상자 수를 나타낸다. X 축은 (사용 가능한 데이터에 따라 나라 별로 연도 별로 조금 다르지만) 최근 연도 초콜릿 소비량을 나타낸다. X와 Y 축 모두 그 나라의 현재 인구로 표준화 시킨 값이다. 상관계수 r=0.79가 나와 상관성은 놀라울 정도로 강했다. 실제로는 아무 상관성이 없다는 영가설을 검정한 P 값은 0.0001 미만으로 미미했다. (옮긴이 주: 이 사례에 대해서는 [새얼뉴스레터 72호] 노벨상을 타려면 초콜릿을 많이 먹어야 한다? 포스팅에서 논평한 바 있다.)


그림 45.3. 나라별 평균 초콜릿 섭취량과 그 나라의 노벨상 수상자 숫자의 상관성


물론 이 데이터로 초콜릿을 먹으면 노벨상을 수상하는데 도움이 된다고 입증할 수는 없다. 마찬가지로 초콜릿 수입이 늘어난다고 그 나라에 살고 있는 사람이 노벨상을 수상하게 될 숫자가 늘어나지도 않을 것이다.


두 변수가 상관성 또는 연관성이 있을 때, 두 변수 중 한 변수의 변화가 다른 변수의 변화에 원인이 될 가능성은 있다. 그러나 두 변수는 둘다 영향을 받을 제3의 변수와 관련되어 있을 수도 있다. 그래프에 나타난 나라 사이에는 많은 변수가 다르고, 일부 변수는 아마도 초콜릿 섭취와 노벨상 수상자 수 모두와 상관성이 있다.


이와 같은 요점은 종종 "상관성이 인과성을 함축하지(imply) 못한다"로 요약되지만, 상관성이 인과성을 입증하지(prove) 못한다고 말하는 편이 정확하다.


개별 데이터 점이 서로 다른 연도를 대표할 때, 엉터리 상관성을 발견하기는 더 쉬워진다. 예를 들어, 그림 45.4는 전세계 해적의 총 숫자와 지구 평균 온도라는 하나의 지표가 강한 음의 상관성이 있음을 보여주고 있다. 그러나 상관성(해적들은 썅관성 carrrrelation이라고 부를 지도 모른다)이 인과성을 입증해주지 못한다. 해적이 줄어들어서 지구 온난화가 일어나지도 않았고 지구 온난화가 해적의 숫자를 줄였을 것 같지는 않다. 이 그래프는 그저 온도와 해적의 숫자가 시간에 따라 변해왔음을 보여주고 있을 뿐이다. 시간이라는 변수가 다른 두 변수로 인해 교란됐다(confounded)고 부른다.


그림 45.4. 전세계 해적 숫자와 세계 평균 온도의 상관성.

Henderson (2005)를 바탕으로 글쓴이가 그린 그림을 옮긴이가 다시 그림.


그림 45.5의 만평은 상관성이 인과성을 입증해주지 못한다는 점을 충분히 납득시켜주고 있다.




그림 45.5 상관성이 인과성을 함축하지는 않는다.

출처: 위: xkcd.com http://xkcd.com/552/, 아래: DILBERT http://dilbert.com/strips/comic/2011-11-28/


Henderson, B. (2005). Open letter to Kansas School Board. Church of the Flying Spaghetti Monster. Accessed December 8, 2012 at http://www.venganza.org/about/open-letter/.

Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal of Medicine, 367, 1562-1564.

Posted by cyberdoc
: