피해야 할 통계의 덫 #7: 집단 단위로만 수집한 데이터로 개인에 대하여 결론 내리기


그림 45.6은 2011년 소득 중위수와 2012년 미국 대통령 선거 당시 공화당 후보였던 롬니에게 투표한 사람의 비율의 관련성을 보여준다(이 사례는 Statwing, 2012에서 따왔다). 그래프에는 각 주마다 하나씩 50개의 점이 있다. 관련성은 놀라울 정도다. 소득이 높은 주일수록, 롬니에게 투표한 사람의 비율이 더 적은 경향이었다.



소득이 높은 사람일수록 롬니에게 덜 투표했을 가능성이 있다는 뜻일까? 아니다! 그림 45.6에 나온 데이터로는 주 단위 결론만 내릴 수 있을 뿐이다. 만일 개인 단위 결론을 얻기 원한다면, 개인으로부터 얻은 데이터를 분석해야만 한다. 그림 45.7은 여론조사를 통해 얻은 개인의 결과를 보여준다. 소득과 지지 사이 강한 관련성이 있지만, 주 단위 데이터와 달리 반대 방향이다. 평균 소득이 높은 주들이 롬니를 덜 지지하는 경향이 있었음에도, 소득이 높은 사람일수록 롬니를 더 많이 지지했다.



무엇이 이런 불일치를 설명하는가? 주마다 많은 차이가 있다. 주별 데이터의 상관성은 해당 주에 사는 개인에 대하여 말해주지 못한다(Gelman & Feller, 2012). 집단 간 관련성을 이용하여 개인에 대해 잘못된 추론을 내리는 일을 생태학적 오류(ecological fallacy)라고 부른다. 또다른 예제로 이 장의 앞부분에 언급한 노벨상과 초콜릿에 대한 데이터가 있다. ('피해야 할 통계의 덫 #4: 데이터가 상관성만 보여줄 때 인과성으로 결론내리기' 참조)


Gelman, A., & Feller, A. (2012) Red versus blue in a new light. New York Times, September 12. Accessed January 2013 at campaignstops.blogs.nytimes.com/2012/11/12/red-versus-blue-in-a-new-light/.

Statwing. (2012). The ecological fallacy. Statwing (blog), December 20. Accessed February 8, 2013, at blog.statwing.com/the-ecological-fallacy/.


옮긴이 주:

생태학적 오류를 논할 때 관련 전공자는 Subramanian SV 등이 국제역학회지 2009년에 발표한 "로빈슨의 재발견: 개인주의적 및 생태학적 오류의 위험" 논문에 실린 '그림 5. 역학 연구의 위상학'을 꼭 알고 있어야 한다.




Posted by cyberdoc
: