2017년 2월 15일 자 경향신문 '미래오디세이: '통계적 유의성'을 폐지한다면'은 재현성 위기를 소재로 작성했다. 원제는 '2026년, 통계적 유의성 폐지 원년'으로 써보냈는데 바뀌었다.


미래오디세이: '통계적 유의성'을 폐지한다면

황승식(서울대 보건대학원 교수․과학잡지 에피 편집위원)


온라인 뉴스 매체 ‘복스닷컴’은 지난 달 “2018년에는 사라져야 할 여덟 가지 잘못된 건강․과학 상식”이라는 도발적인 제목의 기사를 게시했다. 도널드 트럼프 미국 대통령 행정부 산하 모든 과학과 보건 연방 기관에서 전방위적으로 벌어지고 있는 반과학적 태도에 대한 비판을 목적으로 매체 과학 데스크가 기획한 기사다. 유권자가 사실에 근거해 투표한다, 중독은 도덕적 실패다, 아편유사제가 만성허리통증 치료에 효과적이다, 플라세보는 쓸모없다, 비만 해결에 운동이 최고다, 동종요법이 효과가 있다, 기후변화는 “토론”이 필요하다, 마지막으로 “통계적 유의성”이 “강한 과학적 증거”를 뜻한다. 이 여덟 가지 상식이 사라져야 할 미신으로 제시되었다.


과학자는 자신의 연구 결과가 간단한 통계적 검정을 통과하면 “통계적 유의성”이 있다고 선언한다. 엄밀하게는 p값으로 정의되는 확률이 0.05 미만이면 통계적으로 유의한 결과를 얻었고 출판할 가치가 있다고 생각한다. 대부분의 과학자가 ‘영가설이 참이라고 가정할 때, 관찰된(또는 더 극단적인) 결과가 일어날 확률’이라는 p값의 정확한 정의를 제대로 설명하지 못한다는 불편한 진실이 숨겨져 있다. 최근 몇 년 간 0.05라는 문턱값으로 얻은 결과가 매우 강한 증거가 아니라는 사실을 고통스럽게 절감하고 있다. 총알을 난사하듯이 통계적 검정을 수행해 요행으로 얻은 하나의 유의한 결과를 보고하는 p해킹도 학계에 만연해있다.


p값이 0.05 미만이면 실험 결과가 우연한 기회로 얻어졌을 확률이 5% 미만이라는 의미가 아니다. 거짓 양성으로 밝혀질 확률이 5% 미만이라는 의미도 아니다. 실제로는 차이가 없는데 실험에서 차이가 있다고 나오는 확률을 거짓 양성률이라고 부른다. 실험의 거짓 양성률은 5%보다 훨씬 높다는 연구 결과를 근거로 문턱값을 0.005 미만으로 낮추자는 주장이 힘을 얻고 있다. 많은 사회과학 연구자는 결과가 재현되지 않는“재현성 위기”를 고통스럽게 인지하고 있다. 


지난 2016년 미국통계학회는 ‘통계적 유의성과 p값에 대한 성명서’를 발표했다.  177년의 역사를 자랑하는 미국통계학회가 통계학의 기본적인 문제에 관해 처음으로 발표한 성명서의 주요 내용은 다음과 같다. p값은 과학적 증거가 얼마나 강력한지를 판단하는 데 흔히 사용하는 척도지만 가설이 참이거나, 결과가 중요한지 여부를 결정할 수 없다. p값을 오용하면 재현되지 않는 연구 결과가 증가하게 된다. 특히 p값이 0.05 미만과 같은 특정 문턱값을 통과했다고 해서 과학적 결론을 이끌어내거나 정책적 결정을 내려서는 안된다는 점을 역설하고 있다.


미국통계학회의 성명서가 학계에 준 충격은 상당히 컸다. 성명서가 20년 전에 발표됐다면 생명공학 연구가 훨씬 발전했으리라는 만시지탄의 감회와, 이번 성명서를 계기로 연구자가 p값에 대한 회의를 품어 다양한 통계분석 방법을 사용하게 되리라는 기대가 많았다. 반면 p값이 옳지 않으니 사용하지 말라는 주장은 자동차 사고의 위험을 없애기 위해 운전을 하지 말라는 억측과 다름없으므로, 통계를 요리책처럼 취급하지 말고 과학으로 가르치고 배워야 한다는 신중한 반응도 있었다.


0.05라는 통계적 유의수준은 확률통계의 역사에서 오랫동안 발전시켜온 개념이다. ‘미국심리학자’ 1982년 5월 호에 실린 해설 논문에 따르면, 현대 통계학의 아버지인 로널드 피셔가 ‘농업부저널’ 1926년 33호에 발표한 논문이 현대적 기원이다. 관행적으로 적용해온 확률오차의 3배가 표준편차의 2배와 같으므로 약 4.56%로 계산되는데, 피셔가 설명하기 쉽게 반올림했을 것이라는 추측이 설득력 있게 나와 있다. 피셔가 욕조 안에서 오른쪽 발가락을 문지르다 5가 좋아 보여 문턱값을 0.05로 결정했다는 설명도 간간히 보이지만 도시 전설에 지나지 않는다. 피셔의 논문과 저서 어디에도 0.05를 기준으로 과학적 결론을 내리라는 문장이 등장하지 않는다. 0.05라는 유의수준을 기계적으로 받아들인 데는 후대의 학문적 관행 탓이 크다.


2026년은 피셔가 현대적 의미의 통계적 유의성 개념을 창안한지 100주년이 되는 해다. 연구자는 통계적으로 유의하다는 구시대적 표현으로 과학적 중요성을 강조해서는 안 된다. 언론인은 통계적으로 유의하다는 연구 결과를 맹목적으로 전달해서는 안 된다. 물어야 할 질문은 통계적으로 유의한가가 아니라 효과크기를 드러내는 실제로 얼마나 차이가 있는가여야 한다. 현대 과학을 근본에서 흔드는 재현성 위기가 2026년에 해소되리라는 생각은 지나치게 낙관적이다. 이미 학계 일각에서 통계적 유의성 개념을 폐지하자는 주장을 다양한 방식으로 실천하고 있다. 2026년을 통계적 유의성 폐지의 원년으로 선언한다면 통계학의 역사 연표에 상징적인 사건으로 기록될 것이다.



Posted by 사이버독 cyberdoc

댓글을 달아 주세요

2017년 12월 21일 자 경향신문 '미래오디세이: 2035년, 평균의 종말'은 스티글러 선생의 책자 1장의 내용을 골자로 일부 내용을 덧붙였다. 후반부 증거기반의학은 친절한 설명을 붙이지 못해 아쉽다. 지난 원고가 분량이 부족하다고 해서 이번 원고는 충분히 써보냈더니 케틀레 선생의 조직가로서의 족적에 대한 문장 일부가 편집됐다.


미래오디세이: 2035년, 평균의 종말

황승식(서울대교수·보건대학원)


통계학의 역사를 연구하는 시카고대 스티븐 스티글러 교수가 지난 해 발간한 「통계학을 떠받치는 일곱 기둥 이야기」는 현대 통계학의 학문적 근간을 자료 집계, 정보 측정, 가능도, 상호 비교, 회귀, 설계, 잔차라는 기둥으로 나누어 서술하고 있다. 첫째 기둥으로 제시하는 자료 집계는 19세기까지는 관측의 결합이라고도 부르던 평균의 계산이다. 초등학생도 계산할 수 있는 간단한 산술 평균이 현대 통계학을 세운 첫째 기둥이라는 지적은 획기적이다. 스티글러 교수는 평균을 계산하기 위해 여러 관측에서 실제 정보를 얻으려면 정보를 버려야 한다는 점에서 혁명적이라는 표현을 쓰기도 했다. 개별 측정값을 무시하고 평균과 같이 하나의 요약값으로 제시하는 방식이 등장한 역사는 얼마나 오래됐을까?


피타고라스학파는 이미 기원전 280년에 세 가지 평균, 즉 산술 평균, 기하 평균, 조화 평균의 존재를 증명했다. 서기 1000년 무렵 철학자 보에티우스가 피타고라스학파의 평균 세 가지를 포함해 평균의 개수를 열 개로 늘렸다. 이때까지 사람들은 평균을 철학적 의미, 선분의 비례, 음악의 음률을 다루었고 자료 요약 목적으로 쓰지는 않았다. 1500년대 초반 야콥 쾨벨이 쓴 측량서 세밀화에는 성인 남성의 발 길이인 피트를 측정하는 모습이 나온다. 사람마다 발 길이가 다르므로 시민 대표 열여섯 명을 모아 한 줄로 세워 16피트를 1로드로 결정했다. 로드를 정하고 열여섯 구획으로 똑같이 나눴으므로 이 구획이 성인 남성 발 길이 열여섯 개의 산술 평균이지만 책에 이 용어가 나오지는 않았다.


1635년 그레셤대 천문학과 헨리 겔리브랜드 교수는 티코 브라헤가 만든 표에 근거해 나침반으로 진북을 찾는 데 필요한 보정값인 자침 편차 계산값 열한 개를 얻었다. 자침 편차 자료를 정리한 결과 표에 최초로 산술 평균이라는 표현이 나온다. 실제로 겔리브랜드가 산술 평균이라고 제시한 값은 최댓값과 최솟값의 평균값이라 엄밀하게는 현대적 의미의 산술 평균과 다르지만 이미 쓰던 방법에 이름을 붙인 업적이 크다. 고대인도 산술 평균을 알았지만 겔리브랜드 이전까지 누구도 저작물에 계산법의 명칭을 기록하지는 않았다. 1660년 무렵 과학자 로버트 보일이 측정을 결합하는 방식의 문제점을 제기했지만, 1660년대 후반에 이르러 산술 평균은 여러 출판물에 등장하고 공식 인정을 받게 됐다.


18세기 들어 평균 개념은 학계에 빠르게 확산됐다. 1755년 토머스 심슨은 메이클스필드 백작에게 보낸 실험 결과를 설명하는 편지에서 평균의 유용성과 오차 곡선의 개념을 역설했다. 1777년 다니엘 베르누이는 다른 이에게 보낸 편지에서 평균 계산이 규범이 됐음을 토로하기도 했다. 1809년 카를 프리드리히 가우스는 자신의 이름을 딴 곡선으로도 유명한 정규 곡선을 유도하는데 평균이 가장 좋은 추정량이라는 가정을 이용했다. 1810년 마침내 피에르 시몽 라플라스는 표본의 평균이 인구집단의 평균을 따라 정규 분포한다는 중심 극한 정리를 창안해 현대 통계학의 중요한 개념을 다졌다.


1830년 네덜란드 왕국에서 독립한 신생 벨기에 왕국은 행정조직은 개편하고 국가 차원의 통계조사를 계획했다. 체계적인 조사 수행을 위해 내무장관 리츠는 자신의 친구 아돌프 케틀레에게 도움을 요청했다. 많은 수를 관찰하고 수집한 다음 특정한 법칙을 찾아내는데 탁월한 재능이 있던 수학자 케틀레는 엄청나게 열정적인 조직가이기도 했다. 1833년 영국을 방문해 통계지부 설치를 도왔고, 1841년 벨기에로 돌아와 통계중앙위원회를 결성했으며, 1853년 최초로 국제통계학회를 조직해 통계 관련 간행물의 통일된 방법과 용어를 개발하기 위한 국제 협조를 호소하기도 했다. 케틀레는 오늘날 비만 측정 지표인 체질량지수를 개발한 사람으로 유명하지만, ‘평균인’이라는 개념을 창안한 업적이 더욱 중요하다. 평균인은 어떤 집단에 속하는 사람들의 신체적 특성뿐만 아니라 자살 성향과 같은 특성까지도 평균을 냈을 때 그 평균값들로 이뤄진 가상의 존재를 말한다. 케틀레는 평균인이 사회의 가장 전형적인 존재로서 사회를 대표할 수 있다고 보았고, 평균인의 이상화가 사회에 대한 예술과 문학의 대표성을 더욱 강화하여 정치가들이 여론에 귀를 기울여 정치를 발전시키리라 믿었다.


케틀레의 평균인 개념은 이후로 많은 비판을 받았다. 1840년대 앙투안 오귀스탱 쿠르노는 평균인이 매우 기괴한 모습이라고 비판하며, 직삼각형을 모아 변마다 평균을 낸다면 삼각형이 모두 닮은꼴이지 않은 한 결과물은 직삼각형이 아니라고 비꼬았다. 1865년 클로드 베르나르는 의학과 생리학에 평균을 쓸 경우 반드시 오류가 생긴다며, 어떤 남성의 소변을 24시간 모두 모아 분석한 평균은 존재하지 않는 소변을 분석한 결과로, 허기질 때 나오는 소변과 소화시킬 때 나오는 소변이 다르다는 점을 간과했다고 비판했다. 케틀레는 이런 비난에 굴하지 않고 집단을 대표하는 전형을 평균인이 잡아내므로 집단의 표본을 비교 분석할 수 있다고 반박했다. 평균인 개념은 자연과학의 방법을 사화과학에 활용하는 이론적 구성이 되었다.


1980년대 후반 등장한 증거기반의학은 개별 환자의 치료 결과가 아니라 무작위 대조 임상시험을 거친 치료 결과를 최고 수준의 증거로 인정하자는 의학계의 운동이다. 주요 언론의 건강 지면을 도배하며 대중의 이목을 끄는 신약 효과 기사가 대부분 무작위 대조 임상시험 결과에 기대고 있다. 신약의 효과 검증은 모집한 대상자를 치료군과 대조군에 무작위 배정하고 치료약과 대조약을 투약한 후 두 군의 평균적인 치료 성과를 통계적으로 비교하는 과정을 거친다. 대상자마다 개별 특성이 모두 다르고 효과 크기도 모두 다르지만 평균 차이가 통계적으로 유의하지 않으면 신약의 효과를 인정받지 못하고 시장에 출시할 수도 없다. 개인별 맞춤형 진단과 치료로 대표되는 정밀의학의 시대에는 개인별 임상시험 수행 결과를 종합하는 이른바 다수 1인(N-of-1) 임상시험이 확산될 전망이다.


평균으로 대표되는 자료 집계는 본질에서 정보 버리기, 즉 조지프 슘페터가 주창한 ‘창조적 파괴’ 활동을 필연적으로 수반하게 된다. 평균을 계산하다보면 궁극적으로 추구하는 목표에 어긋나거나 심지어 훼손시키는 정보를 원칙에 따라 버려야 한다. 어떤 문제에서는 관련 정보를 하나도 잃지 않는 자료 요약인 충분 통계량 개념을 쓸 수 있지만 빅데이터 영역에서는 실현하기 어려운 경우가 많다. 하버드대 토드 로즈 교수는 2016년 발간한 「평균의 종말」이라는 책에서 “분석하고 나서 집계하기”를 제안하기도 했다. 지금의 자료 축적과 분석 방법의 발전 속도를 감안하면 겔리브랜드가 산술 평균이라는 용어를 제안한 지 400주년이 되는 2035년은 통계학 연표에 평균의 종말을 선언하는 연도로 기록될 지도 모르겠다.


참고문헌:

대니얼 R. 헤드릭 (2011), 정보화 혁명의 세계사, 너머북스.

스티븐 스티글러 (2017), 통계학을 떠받치는 일곱기둥 이야기, 프리렉.

조재근 (2017), 통계학, 빅데이터를 잡다, 한국문학사.

Simon Raper (2017 December), The shock of the mean, Significance.

Todd Rose (2016), The End of Average, HarperOne.



Posted by 사이버독 cyberdoc

댓글을 달아 주세요

기존 필진 한 명의 갑작스런 사정으로 준비없이 경향신문 미래오디세이 필진에 합류하게 됐다. 두 달에 한 번 미래에 대한 잡설을 풀어놓는 일은 고역이다. 2017년 10월 26일 자 '미래오디세이: 2054년, 통계맹 퇴치 원년'은 기거렌처 선생의 책자 내용을 가져와 통계맹 퇴치라는 희망섞인 미래에 약간의 불안을 뿌렸다. 초고 분량이 짧다는 연락을 받고 두어 문단을 급히 추가하느라 도입부가 생각보다 길어졌다.


미래오디세이: 2054년, 통계맹 퇴치 원년

황승식(서울대 교수·보건대학원)


때는 2054년, 소르본대학 대강당에서 수세기 동안 인류를 역병처럼 괴롭혀온 지적장애인 통계맹 퇴치를 축하하는 행사가 열렸다. 확률론 등장 400주년, 조지 불의 ‘사고 법칙’ 발간 200주년, 레너드 새비지의 ‘통계학 기초’ 발간 100주년을 동시에 기념하는 연도였다. 이 행사는 유럽연합 의장과 세계보건기구 사무총장이 공동 주최했고, “역사 속으로 사라진 통계맹”이라는 주제로 패널 토론을 진행했으며, 사회는 소르본대학 경제학자 에밀 에쿠 교수가 맡았다. 패널로 섭외된 베를린에서 온 정치경제학자, 베이징에서 온 통계학자, 스탠퍼드에서 온 심리학자, 파리에서 온 과학사학자가 두 시간에 걸쳐 통계맹의 등장과 퇴치에 이르는 역사에 대해 열띤 토론을 벌였다.


정치경제학자가 먼저 2007년 앙겔라 메르켈 총리가 통계적 사고는 점점 복잡해지는 세계에서 필수불가결한 덕목이 되고 있으므로 체계적인 교육 프로그램이 필요함을 지적한 최초의 정치인이라는 사실을 언급하면서 포문을 열었다. 통계학자는 메르켈 총리가 아니라 마오 주석이 일찍이 1940년대에 혁명 동지들에게 숫자 두뇌를 갖춰야 하고 기초 통계를 알아야 함을 강조했지만 문화혁명으로 인해 지체됐다고 반박했다. 심리학자가 즉각 ‘타임머신’을 쓴 현대 SF 소설의 아버지인 허버트 조지 웰스가 이미 20세기 초에 통계적 사고는 시민권의 필수 요소임을 강조했다며 되받아쳤다.


확률론이 등장한 1654년, ‘사고 법칙’이 발간된 1854년, ‘통계학 기초’가 발간된 1954년, 그리고 통계맹이 퇴치된 2054년까지 1754년을 제외하고 예외 없이 통계학에서 중요한 사건이 벌어졌다는 사회자의 지적에, 과학사학자는 1761년에 사망한 토머스 베이즈가 아마도 1754년에 자신의 이름이 붙게 된 유명한 정리를 발견하지 않았겠느냐는 추측을 부연 설명했다. 심리학자가 통계맹이 이름을 얻게 된 해는 1988년으로, 존 앨런 파울로스 뉴욕대 교수가 동명의 베스트셀러를 발간하면서 대중에게 유명해졌다는 사실을 언급하자, 과학사학자는 퓰리처상 수상작인 ‘괴델, 에셔, 바흐’의 저자인 더글러스 호프스태터 인디애나대 교수가 1982년 발표한 문헌을 파울로스 교수가 인용하는 일을 깜빡했다고 날카롭게 지적했다.


미국에서 DNA 검사법이 도입된 지 서른 해가 지난 2016년에야 국제사법연합이 법정에서 확률 대신 자연빈도에 기초한 소통을 의무화시켰고, 2020년에는 세계보건기구(WHO)의 노력으로 모든 의사가 자연빈도를 익혀 검사 결과에 해석에 필요한 조건부확률을 이해하게 됐다. 세계보건기구는 회원국에서 투명한 위험 소통을 목표로 하는 항정신오염법을 통과시켜, 의과대학생이 상대위험도가 아니라 절대위험도로 위험을 표현하는 법을 배우게 됐다. 국제학생평가프로그램(PISA)은 통계적 사고에 기반한 계산맹 평가 문항을 포함시켰고, 15세 학생 95%가 통과한 어떤 국가는 통계맹 퇴치를 공식 선언하기도 했다. 전세계에서 통계맹 퇴치를 위한 교육 훈련에 약 100억불 이상의 예산이 투입됐다는 추정도 발표됐다.


위는 저명한 인지심리학자인 게르트 기거렌처 막스플랑크협회 인지개발연구소장이 2008년에 발표한 『인류의 이성: 인간은 불확실성을 어떻게 대처하는가」라는 책 에필로그에 실린 가상 대담의 일부다. 기거렌처 소장의 희망섞인 기대와 달리 2017년 현재 세계는 왜곡된 정보로 가득한 가짜뉴스로 몸살을 앓고 있다. 현직 미국 대통령은 주요 언론이 365일 24시간 가짜뉴스를 쏟아내고 있다는 표현을 SNS에 여과없이 내보냈고, 전직 한국 대통령을 탄핵시킨 스모킹건인 태블릿피시가 발견된 지 1년이 지났지만 증거 능력을 의심하는 사람은 아직 많다. 대중은 모든 숫자와 통계는 당연히 조작됐다고 믿고 있다. 1천명을 무작위로 뽑아 수행한 여론조사 결과는 겨우 1천명이 어떻게 5천만명을 대표하는 의견이냐는 비난에 무력하다. 백신 음모론에 심취한 어떤 한의사는 ‘약 안쓰고 아이 키우기(안아키)’라는 카페를 만들어 예방접종 거부를 선동하기도 했다. 분노에 찬 어떤 네티즌은 그렇게 큰 아이들이 나중에 ‘약 안쓰고 어르신 모시기(안어모)’를 만들어 봉양해도 되겠느냐는 촌철살인 댓글을 남기기도 했다.


톰 니콜스 미국 해군대학교수는 2017년 발표한 「전문가와 강적들이라는 책에서 전문가는 투명한 소통에 기초한 교육을 수행할 책임이 있고, 대중은 배워서 알아야 할 책임이 있음을 강조하고 있다. 허버트 조지 웰스는 이미 1938년에 발표한 소설 ‘월드 브레인’에 “오늘날 일정한 기본 통계 교육은 읽기와 쓰기만큼이나 모든 사람들에게 필요한 항목이 되고 있다.”는 명문을 남겼다. 전문 지식조차 간단한 키워드만 검색 엔진에 입력하면 셀 수 없이 많은 결과가 쏟아져 나온다. 인터넷 시대 교육은 검색 능력이 아니라, 정보 홍수 속에서 옥석을 가릴 수 있는 능력을 가르쳐야 한다.


변화를 꿈꾸는 과학기술인 네트워크(ESC)는 최근 헌법 개정 태스크포스를 만들어 헌법 내 과학기술이라는 용어 사용과 과학기술 정책에서 국가의 역할에 관한 의견 등을 조사해 과학기술인의 개헌 의견을 알리기 위한.행동을 실천에 옮기고 있다. 교육의 권리와 의무를 천명한 현행 헌법 제31조는 ‘모든 국민은 능력에 따라 균등하게 교육을 받을 권리를 가진다’와, ‘국가는 평생교육을 진흥하여야 한다’와 같은 조항을 담고 있다. 개정 헌법의 교육의 권리와 의무 조항에 민주주의를 위기로 몰아넣는 통계맹 퇴치를 선언적으로라도 포함시키지 않는다면, 2054년은 통계맹 퇴치 원년이 아니라 민주주의 폐기 원년으로 역사에 기록될 지도 모르겠다.


참고문헌:

톰 니콜스 (2017), 전문가와 강적들, 오르마.

Gerd Gigerenzer (2008), Rationality for Mortals, New York: Oxford University Press.





Posted by 사이버독 cyberdoc

댓글을 달아 주세요