[프레시안  books]에 샤론 버치 맥그레인이 쓴 <불멸의 이론>에 대한 서평을 썼다. 저자의 목소리를 좀더 담아내지 못한 점이 아쉽다.


대통령 당선자, 핵발전소 사고 예측…'절대 열쇠'는?

[프레시안 books] 샤론 버치 맥그레인의 <불멸의 이론>

황승식 인하대학교 의학전문대학원 교수



나는 통계학 전공자가 아니다. 의과대학을 졸업하고 인구집단에서 질병의 원인을 찾는 예방의학이라는 분야를 전공했다. 각종 통계적 이론과 기법을 질병 자료에 적용하는 일이 주 업무인 관계로, 대학원 과정에서 통계학 관련 몇 과목을 수강했을 뿐이다. 물론 다른 의사보다 가설검정, 유의수준, p-값, 신뢰구간 등과 같은 현대 통계학 용어와 개념에 익숙한 편이다. 다양한 통계적 기법을 적용하다보니 개발 과정에 대한 역사를 흥미롭게 살펴보게 됐다. 요즘 당연하게 사용되고 있는 가설검정에서 귀무가설 기각과 대립가설 채택이 현대 통계학의 두 거두 네이만과 피셔가 결코 화해할 수 없었던 지점이었다는 사실을 알고 놀라기도 했다.

▲ <불멸의 이론 : 베이즈 정리는 어떻게 250년 동안 불확실한 세상을 지배하였는가>(샤론 버치 맥그레인 지음, 이경식 옮김, 휴먼사이언스 펴냄). ⓒ휴먼사이언스
몇 해 전 가을 학회에서 우리나라 지역별 건강 자료를 분석한 결과를 발표한 직후였다. 어떤 분이 분석 방법에 대해 몇 가지 질문을 했고 답변을 마쳤다. 조심스러운 표정으로 다시 물었다. "혹시 베이지언이세요?" 나는 어떻게 답하면 좋을지 고민하다 자료 분석에 필요해서 쓰는 정도라고 얼버무리듯 답했다. 샤론 버치 맥그레인이 2011년에 쓴 <불멸의 이론: 베이즈 정리는 어떻게 250년 동안 불확실한 세상을 지배하였는가>(한국어판 이경식 옮김, 휴먼사이언스 펴냄, 2013, 이하 <불멸의 이론>)를 읽고 나니 그 질문은 독실한 기독교인의 "혹시 여호와의 증인 신도세요?"와 동급의 질문임을 깨닫게 됐다. <불멸의 이론> 본문 중 1970년대 베이즈론자가 영국에서 가장 중요한 통계학과에 교수로 임용됐을 때, 동료 교수가 "여호와의 증인 신도가 교황으로 선출된 것과 같다"고 논평한 대목도 나온다.

<불멸의 이론>은 250년 전 영국 아마추어 수학자이자 비국교도 목사였던 토머스 베이즈가 발견한 베이즈 정리를 기반으로 한 통계 이론이 겪은 수난과 부활에 대한 약사다. 베이즈 정리는 필요에 따라 찾아 읽던 논문과 참고 서적에서 비교적 간단한 수식의 형태로 망막을 거쳐 갔을 뿐이었다. 베이즈 정리 자체는 매우 단순하다. 최소한의 수식마저 피한다면, 어떤 대상에 대해서 가지고 있던 초기의 믿음을 객관적이고 새로운 정보로 업데이트할 때 개선된 새로운 믿음을 확보할 수 있다고 요약된다. 사실 베이즈 정리는 '우리 주변 세상의 증거에 기초해 과연 신의 존재에 대한 합리적인 결론을 내릴 수 있을까?'라는 종교적 논쟁에서 탄생했다.

1부 '탄생'은 베이즈 정리의 탄생과 최초의 수난을 다룬다. 토머스 베이즈는 자신이 발견한 정리의 가치를 알지 못했다. 오늘날 우리가 알고 있는 내용은 베이즈의 친구이자 편집자였던 리처드 프라이스의 저작을 통해서 간신히 알려지게 됐다. 베이즈 정리는 18세기 가장 위대한 수학자이자 과학자로 손꼽히는 피에르 시몽 라플라스에 의해 재발견됐다. 여러 분야에서 모인 방대한 자료를 처리하기 위해 독자적 방법을 고안했던 라플라스는 이미 수십 년 전에 베이즈가 이미 발견한 정리였다는 사실을 나중에 알게 됐다. 역사적 관습에 따라 베이즈 정리라고 부르지만, 후대 학문에 끼친 영향력을 감안하면 베이즈-프라이스-라플라스 정리라고 불러야 마땅하다. 라플라스 사후 주관적인 믿음의 적용이 비과학적이라고 생각한 여러 학자들에 의해 베이즈 정리는 학계에서 사라졌다. 그러나 실제 생활에서 일어나는 문제 해결에는 여전히 베이즈 정리에 의존하고 있었다.

2부 '전쟁'은 제2차 세계대전 시기 암호 해독 전문가였던 앨런 튜링이 독일 암호 체계 에니그마의 비밀을 베이즈 정리를 이용해 풀어 유보트의 이동경로와 위치를 포착하여 전쟁을 승리로 이끈 과정이 생생하게 서술되어 있다. 구소련의 수학자 안드레이 콜모고로프와 미국의 수학자 클로드 섀넌 역시 연합군의 포격 지점 지정과 음성 암호화 등에 적용해 베이즈 정리의 가치를 입증했다. 제2차 세계대전 종전 직후 시작된 냉전으로 인해 베이즈 정리는 다시 봉인됐다. 전쟁을 승리로 이끈 기법이 적국 진영의 손아귀에 들어가지 않기를 바랐기에 관련 자료 대부분을 기밀 처리했던 것이다. 종전 50년이 지나 겨우 비밀이 해제된 문서도 있고, 아직 해제되지 않은 문서도 많다. 심지어 매카시 광풍이 불던 시기 미국의 한 통계학자는 자기 동료 한 명이 베이즈론자이므로 미국인이지만 미국인이 아니라는 오싹한 농담을 하기도 했다.

3부 '부활'은 금지된 이론인 베이즈 정리가 냉전 시기에 군사적 필요에 의해 부활하게 된 역설을 다룬다. 베이즈 정리는 자료가 많건 적건 거의 모든 종류의 자료를 처리할 수 있었다. 폭격기로 운송하다 유실된 수소폭탄과 미국 및 소련의 잠수함을 찾았고, 핵발전소의 안전성을 평가하거나 리처드 파인만이 우주왕복선 챌린저호의 비극을 예측하는 데에도 이용됐다. 베이즈 정리는 의학 분야에도 적용되어, 제롬 콘필드는 실험을 하지 않고도 기존 증거만으로 흡연이 폐암을 유발하고 높은 콜레스테롤 수치가 심장병을 일으킬 수 있음을 입증했다.

4부 '증명'은 베이즈 정리가 경영학과 의학, 법률, 공학, 공공정책 분야에 적용되는 사례를 다룬다. 로버트 오셔 슐라이파와 하워드 라이파는 베이즈 정리를 응용한 의사 결정 나무 이론을 개발해 기업의 의사 결정을 도왔다. 프레더릭 모스텔러와 데이비드 월리스는 역사적 수수께끼인 <연방주의자 논고> 문장을 베이즈 정리를 이용해 분석한 결과, 각 논고의 실제 저자가 매디슨인지 해밀턴인지 구분할 수 있었다. 존 튜키는 베이즈 정리를 이용해 닉슨과 케네디가 박빙의 승부를 벌인 1960년 미국 대선의 승자를 미리 예측하기도 했다. 노먼 칼 라스무센은 전문가 의견을 설비의 고장률과 결합하여 핵발전소 사고 위험 확률을 예측했다.

5부 '승리'는 20세기 후반 이후 컴퓨터의 발전과 베이즈 정리의 부침을 다룬다. 1980년대가 되면 환경학, 경제학, 보건학, 교육학 등 사회과학 연구자는 끊임없이 컴퓨터에 데이터를 입력했다. 실생활의 데이터는 기본적으로 고려해야 할 변수가 많고 차원이 다양한 복잡한 데이터이므로 빈도론자나 베이즈론자나 분석에 애를 먹었다. 스튜어트 저먼은 컴퓨터를 이용해 몬테카를로 기법을 개량한 깁스 샘플러를 개발했다. 에이드리언 스미스는 적분을 마르코프 사슬로 대체한 몬테 카를로 기법을 개발하여 베이즈 정리가 나온 지 250년 만에 실제 사전 확률을 계산하고 복잡한 사후 확률까지 계산할 수 있게 됐다. 데이비드 스피겔홀터는 복잡한 시뮬레이션을 그래픽 사용자 환경에서 수행할 수 있는 소프트웨어인 벅스(BUGS)를 탄생시켜, 베이즈 기법은 전 세계로 퍼져나갔다. 이제 '정확한'이라는 말은 '시뮬레이션을 거친'으로 통하고, 컴퓨터의 반복 연산이 방정식을 대체하는 시대가 되었다.

저자에 따르면 베이즈 정리는 역사적으로 다섯 차례나 치명적인 타격을 입었다. 맨 처음 이 정리를 발견한 베이즈가 스스로 자신의 이론을 땅에 묻었다. 프라이스가 정리해 발표했지만 학계에서는 외면당했다. 라플라스는 독자적으로 베이즈 정리를 발견해 적용했지만 만년에 빈도론을 선호하게 됐다. 빈도론자는 베이즈 정리를 백안시했다. 마지막으로 군은 기밀이라는 명목으로 베이즈 정리 활용 사례를 철저하게 덮었다. 통계학의 역사에 등장한 걸출한 여러 인물도 자신이 베이즈론자가 아니라고 강변하거나 베이즈 정리에 대한 입장 표명을 미루는 등 모호한 태도를 보였다. 튜키가 1960년 대선 예측에 활용한 베이즈 방법론을 일찍 공개했다면, 2008년 미국 대선 결과를 정확하게 맞춘 네이트 실버의 등장이 앞당겨졌을 지도 모른다.

<불멸의 이론>은 베이즈 정리 등장 이후 250년 동안의 수난과 부활의 역사를 600여 쪽에 빼곡하게 옮겨놓은 책이다. 네이만과 피셔의 대립이나 콘필드와 피셔의 대립 등 현대 통계학의 주요 쟁점에 익숙한 독자가 아니면 이해하기 어려운 대목도 있지만, 단순한 역확률이 실제 생활에 적용되는 사례만 짚어도 충분히 흥미롭게 읽을 수 있다. 데이터 과학자가 빅데이터라는 무기를 들고 나온 최근, 빈도론자와 베이즈론자의 뿌리 깊은 갈등은 잠시 잠복한 듯하다. 데이터 과학자는 표본으로부터 얻은 정보로 모집단을 추정하는 통계학적 추론을 넘어 전체 데이터를 수집해 현상을 설명하고 예측하고자 한다. 표본과 모집단, 원인과 결과, 귀무가설과 대립가설, 사전 확률과 사후 확률 등 통계학이 학문적 체계를 세운 바로 그 지점에서 근본적 질문을 다시 던지고 있다.

<불멸의 이론>은 통계학뿐만 아니라 통계학 지식이 활용된 거의 모든 학문 분야를 다루고 있다. 그런데 얼마 전 나온 이 책의 한국어판은 통계학 전문가의 감수조차 받지 않았다. 통계학 용어와 설명도 정확하지 않은 대목이 많고, 그 외 학문 분야 용어는 오류가 일일이 세기 힘들 정도로 많다. 제롬 콘필드의 업적을 다룬 '8장 질병의 원인을 찾다'를 원문과 대조해보니, 인터넷에 공개되어 있는 의학 용어집조차 참고하지 않은 것이 드러났다. 또한 편집자의 검독을 거쳤다고 믿기 힘든 오탈자가 본문에 자주 등장해 책의 가치를 떨어트린다.

"불멸의 이론은 이제 막 시작했을 뿐이다." <불멸의 이론> 본문 마지막 문장이다. 한국어판을 만든 과정에 아쉬운 부분이 있지만 어떤 종류건 데이터를 다루는 분야 전공자라면 꼭 읽어야 하는 책이다. <불멸의 이론>은 이제 막 번역됐을 뿐이다.

더 읽으면 좋을 책

<통계학의 역사>(스티븐 스티글러 지음, 조재근 옮김, 한길사 펴냄, 2005)

스티븐 스티글러 시카고대학교 교수는 통계학의 역사 분야에서 독보적인 연구자다. 최근 스티글러 교수는 고서를 전문으로 취급하는 런던의 서점 판매 목록에서 지금까지 알려지지 않은 베이즈 논문의 원래 제목을 찾아내 학술지에 보고하기도 했다. <통계학의 역사>는 20세기 이전까지의 통계학사를 700쪽에 걸친 방대한 분량으로 서술하고 있다. 제1부 1827년 이전 천문학과 측지학에서의 수리통계학 발달사에 베이즈의 발견과 라플라스의 업적이 상세히 나와 있다. 저자의 방대한 각주만큼이나 역자의 꼼꼼한 역주를 읽다보면 많은 공부가 된다.



<통계학의 피카소는 누구일까>(데이비드 살즈버그 지음, 박중양 옮김, 자유아카데미 펴냄, 2012)
데이비드 살즈버그는 제약회사에서 닦은 실무 경험이 탄탄한 통계학자다. 여러 대학에서 통계학을 강의하면서 많은 통계학자를 만난 경험을 바탕으로, 20세기 통계학의 주요 인물과 업적을 짧게 소개하고 있다. 13장 제목이 '베이즈 정리에 기반을 둔 이단적 통계학'이다. <불멸의 이론>에 언급된 통계학자 대부분이 등장한다. 20세기 통계학의 발전을 인물 중심으로 살펴보는데 가장 적합한 책이다. <통계학의 역사>와 달리 역자의 목소리를 들을 수 있는 역주가 없고 오탈자가 많은 점은 흠이다.




<빅데이터를 지배하는 통계의 힘>(니시우치 히로무 지음, 신현호 옮김, 비전코리아 펴냄, 2013)

니시우치 히로무는 도쿄대학교 의학부를 졸업하고 생물통계학을 전공한 신진 연구자다. 원서 제목은 "통계학이 최강의 학문이다"로, 과장의 혐의가 짙다. 통계학의 역사와 활용 분야를 대중의 눈높이에 맞게 설명하고 있다. 제6장 통계학의 여섯 가지 활용 분야 마지막 절 제목이 "베이즈파와 빈도론파의 확률을 둘러싼 대립"이다. 스팸메일 분류에 베이즈 정리를 활용한 사례를 들어 설명하고 있다. 빈도론과 베이즈론의 차이를 요약·정리 형태로 이해하고 싶은 독자에게 도움이 된다.

Posted by 사이버독 cyberdoc

댓글을 달아 주세요