옮긴이의 말

증거기반의학의 정신, 철학의 정신

당연해 보이는 것에 대한 의심


번역을 시작하면서 제일 먼저 부딪쳤던 난관은 우리말 제목을 붙이는 일이었다. 이 책은 의학계에서 벌어지고 있는 하나의 지적 운동evidence-based medicine을 철학적으로 분석하는데, 우리는 통상 그 운동을 부르는 우리말 이름부터 재검토해야 할 필요성이 있었기 때문이다. 함께 책을 읽고 우리글로 옮기는 일은 적절한 번역어를 골라내는 데에서 멈출 수 없었다. 그것은 당연하게 여겨졌던 의학 연구의 관행에 의문을 던지고 제기된 논점들을 하나하나씩 점검해가는 과정의 연속이었다. 이 글은 증거기반의학이 제기하는 여러 논점들 가운데 특히 주목할 만한 부분을 소개하는 데 그 목적을 둔다.

고도로 분업화된 오늘날의 학문 세계에서 철학의 역할이 아직 남아 있다면, 그 요체는 널리 받아들여지는 지식이나 개념 체계라고 할지라도 당연한 것으로 간주하지 않고 한 번 더 의심하고 따져 묻는 태도에 있을 것이다. 이러한 비판적 태도는 의학계의 통념에 의문을 제기했던 증거기반의학을 관통한다. 그러한 정신이 어떻게 증거기반의학 방법론에서 적용되는지에 관한 구체적인 내용은 본문을 통해 확인할 수 있다. 따라서 이 글은 조금 더 포괄적인 시각에서 증거기반의학을 둘러싸고 있는 여러 통념을 고찰하려 한다.

우선, ‘증거기반의학’이라는 이름을 확정한 이유에 대해 상세히 논의한다. ‘근거중심의학’, ‘근거기반의학’ 등 여러 이름이 통용되고 있지만 각 이름을 사용해야 할 이유를 체계적으로 정리한 문헌은 드물다. 이 상황을 극복하기 위해 ‘증거기반의학’을 선택한 구체적인 논거를 제시하고자 한다. 그다음, 증거기반의학과 과학이 맺는 관계에 대한 여러 견해를 비판적으로 평가한다. 증거기반의학은 오늘날 의학의 주요 방법론으로 대두했지만 대중에게는 여전히 그 이름조차 생소하며, 동시에 관심 있는 전문가들은 기초과학과 그 방법론이 어떻게 관련될 수 있는지 의심하고 있다. 증거기반의학의 창시자들은 자신들의 운동을 ‘과학적 의학’으로 부르려 했으나 결국 ‘증거기반의학’으로 이름을 바꾸기도 했다. 왜 이런 상황이 벌어졌는지 그 이유를 추적하면서, 증거기반의학과 기초과학의 관계를 성찰하겠다.


1. '증거기반의학'이라는 이름


번역 작업에서 가장 먼저 해결해야 했던 과제는 ‘evidence-based medicine’(주: 번역어를 택한 이유를 밝히는 대목에서는 ‘evidence’, ‘based’, ‘medicine’, ‘evidence- based medicine’, ‘증거기반의학’, ‘non-evidential’을 그대로 노출시켰다.)을 우리말로 옮기는 일이었다. 현재 한국 의학계에서 가장 많이 쓰이는 번역어는 '근거중심의학'(주: 대한의학회가 만들고 정부가 지원하는 임상진료지침 정보센터에서 택하고 있는 표현이 ‘근거중심의학’이다.)인 것 같다. ‘근거중심-’이라는 표현은 다양한 영역의 문헌에서 사용되고 있으며, 관련 전문 서적에서는 ‘근거중심간호’나 ‘근거중심한의치료’ 같은 표현도 사용되고 있다. 그러나 강독 과정에서 우리는 ‘근거중심’은 이 방법론적 운동의 의미를 온전히 드러낼 수 없다는 데 의견을 같이하게 되었다. 우리는 ‘증거기반의학’이라는 이름을 선택했으며, 그 이유를 보여주기 위해 가능한 다른 선택지와 각 대안의 장단점을 체계적으로 검토하겠다.


2. Evidence: 증거인가 근거인가? 


evidence의 번역어로 다음 두 단어를 발견할 수 있다.


①증거. 

②근거.


많은 의료인은 증거보다 근거라는 용어를 선호하고 있다. 한국어 단어 ‘증거’와 ‘근거’가 서로 다른 무게를 지니고 있기 때문이다. 두 단어 모두 주장을 담고 있는 가설·이론·판단을 옹호하기 위해 쓰이는 자료를 뜻한다. ‘증거’는 법률적 효력과 같이 뒤집기 어려운 경우에 쓰인다는 직관이 폭넓게 공유되고 있다. 현재 ‘증거’보다 ‘근거’를 선호하는 이유는 증거기반의학 옹호자들이 의과학이 제시한 연구 결과가 가설을 확실히 뒷받침한다고 주장하지 않으며, 최선의 판단도 원리상 전복될 수 있음을 인정하기 때문이다. 이런 맥락에서 의료계는 ‘증거’보다는 ‘근거’를 번역 용어로 더 많이 쓰고 있다.

우리는 의료계에 통용되는 근거라는 표현에 동의하지 않는다. ‘근거’가 아니라 ‘증거’로 옮겨야 한다. 증거가 불확실하며 언제든지 뒤집힐 수 있다는 지적은 증거기반의학 옹호자들도 받아들일 수 있지만, 앞선 지적이 증거기반의학이 주장하는 새로운 의학의 핵심은 아니다. 어떤 경험 자료가 가설이나 이론을 뒷받침하는 상황을 철학적으로 성찰해보면, 경험에 기반을 둔 주장은 언제든 뒤집힐 수 있으므로 확실하지 않다는 말은 상식에 지나지 않는다. 이를 부정하는 과학자나 의료인은 없다. 증거기반의학 옹호자는 증거의 품질을 평가하는 기준에 주목한다. 즉, 어떤 증거의 품질이 더 좋고 더 나쁜지, 그리고 어떤 자료가 증거가 될 수 있고 될 수 없는지에 대한 구분 기준을 탐구한다.

이런 생각을 그림 1.1에서 확인할 수 있다. 이를 다시 살펴보자.

증거기반의학이 제시하는 위계 구조에 따르면, 무작위 시험과 관찰 연구 설계로 대표되는 비교임상연구를 잘 수행하면 양질의 증거를 얻을 수 있다. 전문가 판단과 메커니즘 추론을 통해서는 품질이 나쁜 증거만 얻을 수도 있다. 전문가 판단은 증거의 자격 자체가 의심스럽다. 증거기반의학 옹호자들은 그림 1.1에서처럼 여러 연구 설계의 품질을 범주로 나눌 수 있다고 생각했다. 우리는 전문가 판단이나 메커니즘 추론으로 품질이 나쁜 증거를 얻을 수 있다는 평가를 검토하여 증거라는 용어가 적절한 까닭을 설명하려고 한다.

먼저 전문가 판단을 살펴보자. 증거기반의학 옹호자들은 전문가 판단에 가설을 입증하는 일과는 다른 비증거적 역할non-evidential role이 있다는 점을 인정한다. 이 역할은 하윅에 따르면(11장 4절) 환자의 가치와 상황을 최고 품질의 증거와 결합시키는 일, 플라세보 효과를 강화하는 일, 암묵적 지식에 해당하는 숙련 기술을 사용하는 일 등이다. 우리는 의료인들의 전문성과 판단이 합리적 이유를 기반으로 한다는 점에 주목했다. 첫 번째 역할을 수행하려면, 치료 효과에 대한 정보는 물론 환자의 가치와 상황에 대한 충분한 정보 역시 판단의 기반으로 삼아야 한다. 두 번째 역할을 수행하려면, 의료인은 언제 플라세보 효과를 기대할 수 있는지, 어떻게 플라세보 효과를 강화할 수 있는지 파악해야 한다. 의료인 자신이 충분한 암묵적 지식을 갖고 있다는 사실을 자각해야 세 번째 역할을 수행할 수 있다. 의료인 자신이 충분히 숙련됐다는 자각을, 즉 자신이 충분히 전문가라는 자각이 없이는 전문적인 의료 행위를 제공할 수 없다.

전문가 판단과 비교임상연구는 서로 다른 방식으로 환자에게 영향을 준다. 전문가 판단은 다양한 실천적 가치에 의해 옹호된다. 반면 비교임상연구에서 검증한 가설은 연구 결과 데이터로 옹호된다. 이는 인식론·과학철학의 용어를 활용하여 특별히 입증confirmation이라고 부른다. 어떤 가설에 대해, 그 가설을 지지하는 증거가 있다면 그 가설은 입증된다. 또 그 증거의 수준이 강력할수록 입증의 강도도 세다.(주: 상세한 논의는 본문 1장의 역주와 헴펠의 <자연 과학 철학> 4장 77-102쪽을 참조하라.) 따라서 증거기반의학 옹호자들이 증거 위계(그림 1.1)를 사용하여 보여주고자 했던 입장은, 각 증거들이 제공하는 입증의 강도, 다시 말해 인식적 자격 또는 참에 대한 보증의 강도에 차이가 있다는 사실이다. 증거기반의학 위계에 따르면, 전문가 판단은 입증력이 없거나 약한 반면 성공적인 비교임상연구는 가설을 강력하게 입증한다.

메커니즘 추론이 내놓은 증거가 품질이 나쁜 증거로 취급되는 이유도 살펴보자. 증거기반의학 옹호자는 어떤 치료 A가 환자에게 유관한 효과를 낸다는 가설에 대하여 메커니즘 추론의 결론은 제대로 된 증거가 될 수 없다고 본다. 메커니즘 추론이 참이라고 주장했던 가설이 실은 거짓이라고 밝혀진 경우가 많았기 때문이다. 잘 수행된 비교임상연구를 통해 확인된 사실은 메커니즘 추론이 내놓은 가설과 충돌하는 경우가 잦았기 때문에, 메커니즘 추론은 신뢰하기 어렵다고 본다. 이런 추론에는 숨겨진 전제가 있다. 비교임상연구가 메커니즘 추론보다 범주적으로 더 강한 입증력이 있다는 전제 없이는 이런 결론이 나올 수 없다. 물론 하윅은 이런 전제를 비판적으로 검토하지만(10장), 적어도 증거기반의학 옹호자들이 양질의 증거라는 말로 무엇을 지시하는지 확인할 때 유용하다.

결국 증거기반의학 옹호자는 어떤 치료 A가 효과적이라는 가설에 대해, 어떤 연구 결과가 해당 가설을 강하게 입증한다면, 그 결과는 양질의 증거라고 생각한다. 그림 1.1에서 상위에 있는 증거가 좋은 까닭은 적절한 연구 설계로 수행됐기 때문이고, 방법론적으로 우월한 증거일수록 가설을 입증할 때 믿을 만하다.

따라서 증거기반의학 옹호자는 가설을 입증하기 위해 무엇이 필요한가라는 질문에 답하는 셈이다. 비교임상연구가 제시하는 증거에는 전문가 판단이 반영하는 다양한 종류의 가치와는 구분되는 인식적 힘이 있다. 또한 메커니즘 추론에 비해 비교임상연구는 양질의 증거다. 우리는 이런 인식적 자격, 또는 입증력 차이에 주목한다. 증거를 증거로 만들어주는 한편 증거의 품질을 올리기도 하는 요소는 바로 이 자격 또는 입증력이다. 증거기반의학이 말하는 증거의 핵심이 입증력이라는 사실에 비춰 볼 때, ‘근거’가 아니라 ‘증거’라는 말을 쓰면 의미가 강해진다는 의학계의 우려는 기우다. 증거가 미약한 입증이거나 증거가 방대한 입증이거나, 충분한 증거를 확보하면 뒤집어질 수 있다는 점에 질적으로 차이가 없다.

한국어 ‘증거’에는 법률적 효력에 대한 평가도 담겨 있다. 그러나 증거기반의학이 입증력이라는 인식적이고 과학철학적인 쟁점에 초점을 맞추고 있기 때문에, 전문가 판단에 대한 논의에서 확인할 수 있었던 ‘근거’에 담긴 여러 느슨한 의미를 덜어내려고 한다. 어떤 증거의 법률적 효력 역시 입증력이 있어야 한다는 점에서, 증거라는 말에 담긴 법률적 의미는 인식적 의미에 어느 정도 의존한다.

논의의 결론은 이렇다. ‘근거’는 어떤 추론이나 결론을 정당화시키기 위해 사용할 수 있는 모든 종류의 이유를 가리킨다. ‘증거’는 어떤 가설에 대해 입증력이 있는 자료에 대해서만 사용할 수 있다. 법률적 효력 역시 입증력에 의존한다. 증거기반의학이 말하는 증거의 용법을 검토해보면, 증거는 특수한 종류의 정당화, 즉 쟁점 치료가 효과가 있다는 가설을 입증하기 위해 쓰이는 자료를 가리킨다. 우리는 이와 같은 이유로 ‘근거’ 대신 ‘증거’라는 용어를 쓰기로 했다.


3. Based: 중심인가, 기반인가


Based는 증거, 그리고 개별 의사의 결정이나 보건 당국의 지침과 같은 의료 실무 사이 관계를 가리키는 말이다. 이 말에 대한 번역어는 두 가지가 있다.


①중심.

②기반.


두 용어는 증거와 의료 실무 사이의 관계에 대한 서로 다른 표현이다. ‘중심’과 ‘기반’은 모두 증거가 의료 실무에서 중대한 역할을 수행한다는 뜻을 전달하는 데는 무리가 없다. 우리는 더 세밀한 뜻을 전달하는 데는 기반이라는 용어가 적당하다고 생각한다.

두 용어에 대한 국립국어원 표준국어대사전 풀이와 우리의 직관은 다음과 같다.


①기반: 기초가 되는 바탕. 또는 사물의 토대. 어떤 토대 위에 구조물이 올라가 있는 관계를 가리킨다. 증거라는 토대에 의료 행위라는 건물이 서 있는 그림이 연상된다. 

②중심: 사물이나 행동에서 매우 중요하고 기본이 되는 부분. 하나의 주 기둥에 여러 보조 기둥이 있는 구조물에서 주 기둥과 보조 기둥 사이의 관계를 가리킨다. 증거가 의료 행위의 가장 중요한 부분을 떠받치고 있는 그림이 연상된다.


기반의 용법에 따라 그린 그림 속에서, 증거는 의료 행위의 소극적 조건, 다시 말해 의료 행위가 어기면 안 되는 조건으로 제시되었다. 반면 중심이 주는 그림 속에서 증거는 의료 행위의 기초가 되는 다른 여러 이유를 압도하는 무언가로 제시되었다. 증거기반의학은 기반이 제시하는 그림과 더 어울린다. 예를 들어 보건당국이 담배를 오직 역학적 증거에 의해서만 금지하는 결정을 내린다면, 이 조치는 격렬한 사회적 논란을 초래하게 될지도 모른다. 공중보건정책은 사회 구성원들의 가치와 부합해야 하기 때문에, 어떤 조치의 효과뿐 아니라 사회적 가치 역시 감안해야 한다. 또한 증거기반의학은 의료 행위가 환자의 가치를 감안하여 제공돼야 한다고 역설해왔다. 따라서 ‘중심’보다는 ‘기반’을 번역어로 골랐다.


4. Medicine: 의학인가 의료인가


Medicine에 대한 번역어는 다음 두 가지가 있다.


①의학.

②의료.

국립국어원 표준국어대사전은 ‘의학’을 인체의 구조나 기능, 질병, 치료, 예방, 건강 유지의 방법이나 기술따위를 연구하는 학문이라고 풀이하고 있다. 의학을 지지하는 견해에 따르면, 증거기반의학은 어떤 치료가 환자에서 효과가 있는지에 대해 옳은 지식을 확보하는 절차를 제공하고, 나아가 그 절차가 왜 옳은 지식을 보장하는지에 대해 논의하는 방법이다. 이는 의료 현장에서 일어나는 모든 문제를 다루지 않고, 의료와 유관한 지식을 생산하는 현장에서 일어나는 문제에 관심을 기울인다. ‘의학’은 이런 문제와 문제를 해결하기 위한 노력의 집합을 가리킨다.

국립국어원 표준국어대사전은 ‘의료’를 의술로 병을 고치는 일로 풀이하고 있다. 증거기반의학은 의료 현실을 폭넓게 변화시키려 한다. 이런 변화의 범위를 감안할 때, 의료가 적당한 용어라고 생각하는 입장이 있다. 증거기반의학 옹호자는 의학을 변화시켜 의료 역시 변화시키기를 바란다. 예를 들어 증거 위계 피라미드(그림 1.1)를 통해 전문가 판단은 증거 자격이 없다고 주장하면서 전문가의 역할이 바뀌어야 한다고 역설한다. 전문가 판단은 증거 자격이 없다는 평가가 의학의 문제라면, 전문가의 역할을 명료하게 정의하고 이를 의학이 다루는 증거 산출 절차와 구분해야 한다는 제안은 의료의 문제다. 

의학은 결국 의료 현실을 변화시키려고 한다. 예를 들어 ‘예방의학’ 역시 그렇다. 예방의학의 목표는 역학적 증거를 바탕으로 조기 사망을 줄이는 데 필요한 조치를 개발하고 이를 현실에 적용하는 데 있다. 대부분의 의학 지식은 임상 현장에 적용되어야 의미가 있다. 의학의 기본 속성에 비추어 보아, ‘의학’이라는 용어로 옮기기로 결정했다.

증거기반의학’에서 ‘증거’는 이 운동이 어떤 의료적 개입의 효과성 가설에 대한 입증력을 분별하고 평가하는 체계를 마련하는 데 크게 기여하고 있으므로 골랐다. ‘기반’은 증거가 의료 행위의 제약 조건으로 기능해야 하지만 다른 모든 것을 압도하지는 않는다는 생각을 표현하기 위해 골랐다. ‘의학’은 이 운동이 의료 현장과 관련된 지식을 축적하려고 한다는 점에서 골랐다.


5. 증거기반의학과 '과학'


이름을 확정하면서 증거기반의학 자체의 내용을 명확히 할 수 있었다. 우리가 특별히 강조하고 싶은 주제는 바로 과학과 증거기반의학의 관계다. 역학 연구를 다룬 뉴스를 접한 대중의 반응부터, 증거기반의학에 한계가 있다고 주장하는 의사들의 주장, 심지어 증거기반의학의 역사와 방법론 모두에 걸쳐 과학과 증거기반의학의 관계는 주목할 만한 연구 주제를 이루고 있는 듯하다. 

증거기반의학을 적용한 임상 역학 연구를 뉴스에서 접하는 것은 이제 흔한 일이 되었다. 2016년 8월 AP 통신 탐사보도팀은 치실의 효과에 관한 논란을 취재 보도했다. 이 기사는 국내 언론에 인용 보도되면서 각종 뉴스를 달궜고, 이를 접한 사람들은 다양한 반응을 쏟아냈다. 기사에 따르면, 치실에 대한 비교임상연구 결과 치실이 플라그 제거와 치주염 완화에 큰 도움이 된다는 증거가 불충분한데도 당국과 치의학계, 그리고 관련 산업계가 치실 사용을 계속해서 권장해왔다는 것이었다. 우리는 SNS를 통해 많은 사람들의 가공되지 않은 반응을 살펴볼 수 있었다. 이런 반응 가운데, 특히 다음은 이 에세이의 맥락에서 조명할 가치가 있다.


 증거기반의학에 의한 연구를 ‘과학적’ 연구 방법이라고 부름. 많은 사람들, 또는 많은 국내 보도는 이들 비교 임상연구의 결과를 주저 없이 ‘과학적’이라고 부른다. AP 통신보도 역시 기사 본문에서 ‘scientific’이라는 말을 여러 차례 사용하고 있다. 실제 체계적 고찰 연구를 검토하여 과학적이라고 평가하는 경우는 거의 없었다는 점에서, 그리고 ‘증거기반의학’이라는 말 자체의 역사와 현재 진행 중인 논란에 비춰 볼 때 이런 용어법에는 문제가 있다.


본문 2장에서 간략히 소개된 것처럼, 고든 기얏이 ‘증거기반의학’을 가리키기 위해 처음 선택했던 용어는 ‘과학적 의학scientific medicine’이었다. 이 표현은 기존 의학이 비과학적이라는 함축을 내포했기에 수용되기 쉽지 않았다. 생명 과학의 발전을 대중에게 알린 많은 성과들은 의과학의 성과였다. 항생제나 장기 이식을 가능하게 한 의학의 발전에 비과학적이라는 딱지를 붙일 수는 없다. 증거기반의학은 이런 성과만으로는 해결하는 데 충분하지 않은 문제를 제기했다는 점에서 의미가 있지만, 증거기반의학을 아무런 전제 조건 없이 ‘과학’이라고 부른다면 오해를 살 만하다. 

최근 이오아니디스는 증거기반의학이 ‘납치’되었다고 주장했다. 증거의 품질을 평가할 때 무작위 시험 또는 메타 분석 수행에만 주목하면, 다른 여러 바이어스 유발 요소들이 무시될 수 있다. 실제로 이런 허점을 노리고 특별한 이해관계에 있는 사람들이 왜곡된 연구를 품질이 높은 연구로 위장할 경우 그 시도를 막기는 어렵다. 특히 생물학적 개연성이 없는 가설에 대한 임상연구조차도 증거기반의학은 품질이 높은 연구로 평가할 수 있다는 우려가 있다. 증거기반의학은 비교 임상연구의 정당성을 확보하기 위한 여러 방법에만 관심을 기울이는 운동으로 평가되며, 결국 중보기도에 대한 임상연구(10장 3절 1항)처럼 생물학적 개연성이 없어 기초과학에 의해 지지받지 못하는 연구도 정당한 연구로 취급할 수 있는 방법론적 운동으로 평가된다.

기얏이 ‘과학적 의학’ 대신 ‘증거기반의학’이라는 말을 택했다는 사실, 그리고 증거기반의학의 ‘납치’에 대한 우려는 증거기반의학을 과학과 등치시킬 수 없음을 보여준다. 반면 임상연구 보도에 대한 대중의 반응을 살펴보면, 대중은 과학과 증거기반의학의 차이를 인지하지 못하고 있다. 의료인과 대중의 상반된 반응을 모두 설명할 수 있어야 한다.


6. 증거기반의학과 과학의 차이를 강조하는 사람들에게


증거기반의학과 과학의 차이를 살펴보기 위해, 그림 1.1에서 살펴본 증거 위계에서 출발하자. 증거기반의학은 비교임상연구를 환자에서 효과가 있는지에 대한 가장 적절한 증거로 평가하며, 메커니즘 추론은 그보다 못한 증거로 평가한다. 메커니즘 추론에 대한 저평가는 하윅의 <증거기반의학의 철학> 이전에는 충분히 정당화되지 않았다(1장). 여기서는 메커니즘 추론에 대한 저평가를 정당화할 만한 이유를 검토하여 증거기반의학과 과학의 차이를 어떻게 보아야 적절한지에 대해 조금 더 논의하겠다. 

증거기반의학이 메커니즘 추론을 저평가하는 이유는 크게 두 가지다. 첫째, 메커니즘 추론이 임상연구 결과와 충돌하는 경우가 많다. 둘째, 메커니즘 추론과는 달리 임상연구는 환자에서의 결과와 간극 없이 연결되어 있다. 

하지만 하윅이 지적하듯(10장), 첫 번째 논거만으로 메커니즘 추론을 저평가할 수는 없다. 양측이 충돌한다는 사실만으로는 어느 편이 더 우월한 논거라고 주장할 수는 없기 때문이다. 결정적인 논거는 임상연구가 환자에서의 결과와 간극이 없다는 데 있다. 이런 논거는 환자에서의 결과에 대한 하윅의 분석을 활용하면(3장) 정당화된다. 임상연구는 환자 관련 데이터를 수집하여 수행되므로 효과 크기를 나타낼 다양한 변수를 사용할 수 있으며, 또한 이 지표를 활용하여 여러 치료의 효과 크기를 비교할 수도 있다. 특히 플라세보 대조시험은 플라세보와 시험약의 효과 크기를 비교하기에 좋은 방법이다. 반면 많은 학자들이 메커니즘 추론이 해결에 도움이 될 것이라고 생각했던 ‘외적 타당도’ 문제, 즉 어떤 연구 결과가 실제 임상에서 성공적으로 적용될 것인가 하는 문제를 해결하는 데서도 메커니즘 추론은 그리 훌륭한 해결책은 아니다. 과학을 통해 얻은 결과가 임상에서 실제로 효과가 있는 약물로 이행되는 경우가 드물다는 연구 결과도 있다(10장 6절 3항).

물론 이러한 논거로도 메커니즘 추론에 대한 저평가를 온전히 납득할 수는 없다. 하윅의 경우, 양질의 메커니즘 추론은 저급한 증거가 아니라 훌륭한 증거로 보아야 하며, 증거기반의학은 이를 충분히 활용해야 한다고 제안한다. 다만 메커니즘 추론은 환자에서의 결과와 간극이 크고 비교임상연구는 간극이 작다고 평가하는 이유를 정리해 평가한 작업은 찾을 수 없었다. 결국 이 문제는 하윅의 연구로도 답변이 되지 않은 상태이며, 향후 연구 과제로 남긴다. 

다만 꼭 짚고 넘어갈 만한 문제가 하나 남아 있다. 이른바 ‘증거기반의학의 납치’ 문제다. 대체의학과 같이, 생물학적 개연성이 낮은 의료 행위를 시도하는 일부 의료인에게 증거기반의학이 통계적으로 정교하게 꾸민 증거를 제공할 수 있는 우회로가 된다고 우려하는 사람들이 많다. 그러나 증거기반의학의 개념을 잘 분석해 보면, 이에 응답하는 발전 방향을 제시하기는 어렵지 않다.

가장 중요한 지적은, 앞서 ‘증거’ 개념을 상세하게 분석한 결과에서 나온다. ‘증거’는 단순히 비교임상연구의 결과만을 가리키는 용어가 아니다. 이 말은 환자에서의 효과에 대한 가설을 입증하기 위해 동원할 수 있는 모든 종류의 논거를 가리키는 말이다. 따라서 ‘증거’에는 과학에 기반을 둔 양질의 메커니즘 추론 역시 포함되어야 한다. 또한 하윅의 제안처럼, 양질의 메커니즘 추론은 임상연구와 함께 어떤 가설의 입증 수준을 더 강하게 만들 수 있다. 하임릭 구명법이 기반을 둔 메커니즘 추론은 그것만으로도 효과를 입증하는 데 충분하다. 증거기반의학 옹호자는 양질의 메커니즘 추론이 무엇인지, 실제 의료 현장에서 어떻게 사용할 수 있는지 고민해야 한다.

다만 실험실 연구를 통해 획득한 치료 방법이 기대했던 것보다 환자 관련 효과가 없을 수 있다는 경험적 증거(10장 6절), 그리고 젬멜바이스 사례나 헬리코박터 파일로리 사례에서처럼(10장 부록 표 3) 생물학적 개연성이 떨어지는 것으로 취급되었던 가설이 실제로는 참이었던 여러 역사적 사례에 비춰 볼 때, 생물학적 개연성이 임상연구 가설이기 위해 반드시 만족해야 할 조건이어야 한다는 요구는 의외의 발견을 막는 족쇄로 작동할지도 모른다. 생물학적 개연성을 임상연구 가설을 평가할 때 사용해야 한다는 요구 조건은 제한적으로만 유효하고, 증거기반의학에 따른 연구가 향후에 다룰 가설은 생물학적 개연성이 있는지 여부에 의해 정해져야 한다는 주장은 역사적 사례에 비춰 보았을 때 과도하다.


7. 증거기반의학과 과학의 차이를 모르는 사람들에게


사람들은 증거기반의학과 과학 사이의 차이를 대부분 모른다. 앞서 제시한 치실 사례에서, ‘과학’이라는 표현은 어떤 가설의 참을 보증하는 방법을 가리키기 위해 사용되었다. 그러나 ‘과학’의 이런 용법은 증거기반의학의 장점을 대중에게 알리는 데 도움이 될 만큼 정교하다고 할 수 없다. 임상연구 가설을 입증할 때 실제로 사용되는 방법을 이해시키는 데 도움이 되는지 의문스럽기 때문이다. 치실 사례에 대한 언론 보도와 대중의 반응은 이렇게 정리할 수 있다. 


∙ 실제 체계적 고찰연구에 대한 언급이 없음. AP 통신 기사의 근거가 된 체계적 고찰연구펍메드 링크가 본래 AP 통신 기사에 포함되어 있었음에도, 기사를 읽거나 논평한 많은 사람들 가운데 실제 연구를 읽은 것으로 보이는 경우는 드물었다. 게다가 국내 언론은 AP 통신 기사와는 달리 펍메드 링크나 논문 본래 링크를 제공하지도 않았다. 


비록 명시적으로 ‘증거기반의학’을 언급하지는 않았으나, AP 통신 기사는 결국 증거기반의학에 따른 치과 의료가 제공되지 않고 있음을 지적했다. 이 연구에 대한 언론과 대중의 반응은 증거기반의학과는 거리가 멀었다. 증거기반의학에 따르면 사용할 수 있는 증거를 최대한 활용하여 판단을 내려야 하는데도 체계적 고찰 연구를 언급조차 하지 않은 반응이 많았다. 또한 국내 언론은 이번 논란의 초점인 치실의 효과에 대한 체계적 고찰 연구를 소개하지 않아 독자들이 판단을 내릴 수 있도록 돕는 역할을 충실히 수행하지 못했다. 

이런 상황은 증거기반의학에 의해 얻은 연구를 전문가만의 전유물, 즉 전문가가 아니면 전모를 알아보기 힘든 연구가 아니라 대중이 이해할 수 있는 연구로 만들어야 풀릴 수 있을 것이다. 다시 말해, 증거기반의학의 구조를 알고 그 결과물을 실제로 읽을 수 있는 사람들이 많아져야만 이들 연구의 내용에 더 깊은 관심을 기울이지 않는 상황이 줄어들 것이다. ‘과학’이라는 표현 속에 구체적인 방법론이 가려져 있는 상태를 내버려 두지 말고, 임상연구가 내놓은 데이터를 기반으로 해 공중보건과 의학적 판단이 이뤄진다는 사실을 분명히 알려야 할 것이다.

물론 모든 사람이 증거기반의학 문헌을 읽을 수 있어야 한다고 말하기는 어렵다. 하지만 의학 연구 결과를 소개하는 기자는 코크란 연합에서 제공하는 자료와 같이 우리말로 제공되는 자료들을 참조하는 노력을 기울여야 한다.


8. 결론


철학의 정신과 증거기반의학의 정신은 서로 통한다. 철학은 통념을 의심하고, 체계적으로 반성하는 학문이다. 증거기반의학은 가설을 평가하기 위해서는 가용한 증거를 모두 감안해야 한다고 역설한다. 증거기반의학이 현재 의료계에서 차지하는 위상이 무엇이든, 증거기반의학 방법론을 둘러싼 구체적인 논쟁들이 어떻게 진행되든지 간에, 증거기반의학은 그 정신만으로도 주목받을 만한 가치가 있다. 그에 걸맞은 관심을 이끌어내기 위해 우리는 고심했고 그 결과를 번역어와 역주로 남겼다. 그러나 그마저도 충분치 않다는 생각에 우리는 이 글을 쓰게 되었다. 특히 ‘증거기반의학’이라는 이름을 구성 낱말별로 꼼꼼히 설명하고 정당화하는 시도, 그리고 증거기반의학과 과학의 차이를 설명하고 평가하기 위한 시도는 증거기반의학에 대한 이해를 심화시키기 위해 필요하다. 비록 여기서 모든 문제를 해결할 수는 없었지만, 앞으로 이뤄질 논의가 빈 틈을 채워줄 것이다.

‘증거기반’ 운동은 의학에서 그치지 않고 사회과학 전반으로 확산되고 있다. 특히 ‘증거기반정책’은 영미권에서는 학계뿐만 아니라 당국의 실제 정책까지도 결정하고 있는 상황이다. 이는 통념을 의심하고 관련 증거를 모두 사용하여 판단을 내려야 한다는 정신을 공유한다. 의학과 사회과학 전반에 걸쳐 ‘증거기반’ 운동이 퍼져나가는 이유는 다음과 같은 진단을 많은 이들이 공유하고 있기 때문일 것이다. 즉 우리 몸에 대한 여러 말, 그리고 우리 사회에 대한 여러 말은 아직 충분히 증거에 기반을 두지 않고, 또 우리는 충분히 의심하지도 않으며 사용할 수 있는 증거를 조직적으로 활용하고 있지도 못하다. 상황이 이렇다면, 여기에 이의를 제기하고 실제로 더 나은 성과를 보여주기 위한 지적 운동이 필요하며 이는 지금보다 훨씬 넓은 범위에서 이뤄져야만 한다.

의학은 질병을 예방하거나 치료함으로써 시민의 건강을 증진하고 기대수명을 늘리는 등 삶의 질을 높이는 데 기여해왔다. 의학계가 우리 사회가 직면하고 있는 여러 문제들에 개입하고 효과적으로 대응하려 한다면 다양한 차원에서 다각도의 노력이 필요할 것이다. 분명한 것은 의학계의 지형을 실질적으로 바꾸어온 ‘증거기반’ 운동이 한 가지 길을 제시한다는 것이다. 의학계는 증거기반 운동의 발원지이면서 동시에 그 방법론이 가장 정교하게 다듬어진 영역이다. 우리 사회의 근본 문제가 ‘철학의 부재’에 있다고 한탄하는 사람들이 많다. “모로 가도 서울만 가면 된다” 식의 결과중심주의가 우리 사회를 지배해온 현실도 부정하기 어렵다. 이제 우리는 증거기반의학 방법론의 배후에 놓여 있는 그 정신에 주목해야 한다. 환자 자신의 가치에 비추어 가장 효과적인 치료를 제공하기 위해, 의료인은 폭넓고 공정하게 증거를 수집, 종합하고 주어진 증거에 바탕을 두고 합리적으로 결론을 도출할 수 있어야 할 뿐 아니라 그러한 추론을 환자에게 무엇이 최선인지에 관한 가치 판단과 결합할 수 있어야 한다. (치료든 정책이든) 대상의 가치에 대한 섬세한 감각과 증거에 대한 민감성, 요컨대 비판의 정신이 우리 사회에 절실히 필요하다. 이것이 바로 증거기반의학의 철학이다.


9. 감사의 말


2015년 3월 <역학의 철학> 번역서를 생각의 힘 출판사에서 펴내고 소개하느라 시간이 흐른 뒤 <역학의 철학> 본문에 언급된 책 한 권이 눈에 쏙 들어왔다. 존 워럴과 제러미 하윅이 증거기반의학의 방법론적 기반에 대한 논쟁을 벌이고 있는 장면을 소개하고 있는 대목에, 제러미 하윅이 쓴 <증거기반의학의 철학>이 참고문헌으로 나와 있었다. 역학, 철학, 과학철학을 전공한 번역진이 다시 의기투합하여 번역 작업을 시작하기에 최적의 텍스트였다. 초교를 완성하고 한참이 지나서야 책이 나오게 된 까닭은 대표 역자의 게으름 탓이 가장 크지만, 모든 역자 신상에 크고 작은 변화가 생긴 탓이라는 소소한 변명을 남겨둔다.

<증거기반의학의 철학>이 번듯한 번역서의 모양을 갖추게 된 데는 많은 분들의 도움이 필수적이었다. 부산대 한의학전문대학원의 김건형 교수와 연세대학교 인문사회의학협동과정 박승만 선생은 초교를 완성하는 독회에 참석해서 중요한 의견을 남겨주셨다. 김건형 교수와 중앙보훈병원 신장내과 김범 전문의는 편집 원고를 통독하고 번역의 완성도를 높일 수 있는 상세한 지적을 보내주셨다. 생각의힘 출판사 편집부 유승재 과장은 의학용어와 철학용어가 어지럽게 직교한 번역 원고를 가독성 있는 원고로 바꾸기 위해 분투하셨다. 마지막으로 어려운 출판계 상황에도 <역학의 철학>에 이어 <증거기반의학의 철학>을 번역서로 내기로 용단을 내려준 생각의힘 출판사 김병준 대표께 커다란 감사를 드린다.

<역학의 철학>이 인구집단 측면의 관련성이 인과성을 확보할 수 있는지에 대한 철학적 문답이라면, <증거기반의학의 철학>은 무작위 시험을 통해 얻은 증거는 타당성을 확보할 수 있는지에 대한 철학적 문답이다. 가짜 뉴스 시대에 보건의료 분야에도 만연한 가짜 정보를 가려내는 능력을 확보하는데 <증거기반의학의 철학>이 일조할 수 있기를 바란다.

Posted by cyberdoc
:

2017년 2월 15일 자 경향신문 '미래오디세이: '통계적 유의성'을 폐지한다면'은 재현성 위기를 소재로 작성했다. 원제는 '2026년, 통계적 유의성 폐지 원년'으로 써보냈는데 바뀌었다.


미래오디세이: '통계적 유의성'을 폐지한다면

황승식(서울대 보건대학원 교수․과학잡지 에피 편집위원)


온라인 뉴스 매체 ‘복스닷컴’은 지난 달 “2018년에는 사라져야 할 여덟 가지 잘못된 건강․과학 상식”이라는 도발적인 제목의 기사를 게시했다. 도널드 트럼프 미국 대통령 행정부 산하 모든 과학과 보건 연방 기관에서 전방위적으로 벌어지고 있는 반과학적 태도에 대한 비판을 목적으로 매체 과학 데스크가 기획한 기사다. 유권자가 사실에 근거해 투표한다, 중독은 도덕적 실패다, 아편유사제가 만성허리통증 치료에 효과적이다, 플라세보는 쓸모없다, 비만 해결에 운동이 최고다, 동종요법이 효과가 있다, 기후변화는 “토론”이 필요하다, 마지막으로 “통계적 유의성”이 “강한 과학적 증거”를 뜻한다. 이 여덟 가지 상식이 사라져야 할 미신으로 제시되었다.


과학자는 자신의 연구 결과가 간단한 통계적 검정을 통과하면 “통계적 유의성”이 있다고 선언한다. 엄밀하게는 p값으로 정의되는 확률이 0.05 미만이면 통계적으로 유의한 결과를 얻었고 출판할 가치가 있다고 생각한다. 대부분의 과학자가 ‘영가설이 참이라고 가정할 때, 관찰된(또는 더 극단적인) 결과가 일어날 확률’이라는 p값의 정확한 정의를 제대로 설명하지 못한다는 불편한 진실이 숨겨져 있다. 최근 몇 년 간 0.05라는 문턱값으로 얻은 결과가 매우 강한 증거가 아니라는 사실을 고통스럽게 절감하고 있다. 총알을 난사하듯이 통계적 검정을 수행해 요행으로 얻은 하나의 유의한 결과를 보고하는 p해킹도 학계에 만연해있다.


p값이 0.05 미만이면 실험 결과가 우연한 기회로 얻어졌을 확률이 5% 미만이라는 의미가 아니다. 거짓 양성으로 밝혀질 확률이 5% 미만이라는 의미도 아니다. 실제로는 차이가 없는데 실험에서 차이가 있다고 나오는 확률을 거짓 양성률이라고 부른다. 실험의 거짓 양성률은 5%보다 훨씬 높다는 연구 결과를 근거로 문턱값을 0.005 미만으로 낮추자는 주장이 힘을 얻고 있다. 많은 사회과학 연구자는 결과가 재현되지 않는“재현성 위기”를 고통스럽게 인지하고 있다. 


지난 2016년 미국통계학회는 ‘통계적 유의성과 p값에 대한 성명서’를 발표했다.  177년의 역사를 자랑하는 미국통계학회가 통계학의 기본적인 문제에 관해 처음으로 발표한 성명서의 주요 내용은 다음과 같다. p값은 과학적 증거가 얼마나 강력한지를 판단하는 데 흔히 사용하는 척도지만 가설이 참이거나, 결과가 중요한지 여부를 결정할 수 없다. p값을 오용하면 재현되지 않는 연구 결과가 증가하게 된다. 특히 p값이 0.05 미만과 같은 특정 문턱값을 통과했다고 해서 과학적 결론을 이끌어내거나 정책적 결정을 내려서는 안된다는 점을 역설하고 있다.


미국통계학회의 성명서가 학계에 준 충격은 상당히 컸다. 성명서가 20년 전에 발표됐다면 생명공학 연구가 훨씬 발전했으리라는 만시지탄의 감회와, 이번 성명서를 계기로 연구자가 p값에 대한 회의를 품어 다양한 통계분석 방법을 사용하게 되리라는 기대가 많았다. 반면 p값이 옳지 않으니 사용하지 말라는 주장은 자동차 사고의 위험을 없애기 위해 운전을 하지 말라는 억측과 다름없으므로, 통계를 요리책처럼 취급하지 말고 과학으로 가르치고 배워야 한다는 신중한 반응도 있었다.


0.05라는 통계적 유의수준은 확률통계의 역사에서 오랫동안 발전시켜온 개념이다. ‘미국심리학자’ 1982년 5월 호에 실린 해설 논문에 따르면, 현대 통계학의 아버지인 로널드 피셔가 ‘농업부저널’ 1926년 33호에 발표한 논문이 현대적 기원이다. 관행적으로 적용해온 확률오차의 3배가 표준편차의 2배와 같으므로 약 4.56%로 계산되는데, 피셔가 설명하기 쉽게 반올림했을 것이라는 추측이 설득력 있게 나와 있다. 피셔가 욕조 안에서 오른쪽 발가락을 문지르다 5가 좋아 보여 문턱값을 0.05로 결정했다는 설명도 간간히 보이지만 도시 전설에 지나지 않는다. 피셔의 논문과 저서 어디에도 0.05를 기준으로 과학적 결론을 내리라는 문장이 등장하지 않는다. 0.05라는 유의수준을 기계적으로 받아들인 데는 후대의 학문적 관행 탓이 크다.


2026년은 피셔가 현대적 의미의 통계적 유의성 개념을 창안한지 100주년이 되는 해다. 연구자는 통계적으로 유의하다는 구시대적 표현으로 과학적 중요성을 강조해서는 안 된다. 언론인은 통계적으로 유의하다는 연구 결과를 맹목적으로 전달해서는 안 된다. 물어야 할 질문은 통계적으로 유의한가가 아니라 효과크기를 드러내는 실제로 얼마나 차이가 있는가여야 한다. 현대 과학을 근본에서 흔드는 재현성 위기가 2026년에 해소되리라는 생각은 지나치게 낙관적이다. 이미 학계 일각에서 통계적 유의성 개념을 폐지하자는 주장을 다양한 방식으로 실천하고 있다. 2026년을 통계적 유의성 폐지의 원년으로 선언한다면 통계학의 역사 연표에 상징적인 사건으로 기록될 것이다.



Posted by cyberdoc
:

2017년 12월 21일 자 경향신문 '미래오디세이: 2035년, 평균의 종말'은 스티글러 선생의 책자 1장의 내용을 골자로 일부 내용을 덧붙였다. 후반부 증거기반의학은 친절한 설명을 붙이지 못해 아쉽다. 지난 원고가 분량이 부족하다고 해서 이번 원고는 충분히 써보냈더니 케틀레 선생의 조직가로서의 족적에 대한 문장 일부가 편집됐다.


미래오디세이: 2035년, 평균의 종말

황승식(서울대교수·보건대학원)


통계학의 역사를 연구하는 시카고대 스티븐 스티글러 교수가 지난 해 발간한 「통계학을 떠받치는 일곱 기둥 이야기」는 현대 통계학의 학문적 근간을 자료 집계, 정보 측정, 가능도, 상호 비교, 회귀, 설계, 잔차라는 기둥으로 나누어 서술하고 있다. 첫째 기둥으로 제시하는 자료 집계는 19세기까지는 관측의 결합이라고도 부르던 평균의 계산이다. 초등학생도 계산할 수 있는 간단한 산술 평균이 현대 통계학을 세운 첫째 기둥이라는 지적은 획기적이다. 스티글러 교수는 평균을 계산하기 위해 여러 관측에서 실제 정보를 얻으려면 정보를 버려야 한다는 점에서 혁명적이라는 표현을 쓰기도 했다. 개별 측정값을 무시하고 평균과 같이 하나의 요약값으로 제시하는 방식이 등장한 역사는 얼마나 오래됐을까?


피타고라스학파는 이미 기원전 280년에 세 가지 평균, 즉 산술 평균, 기하 평균, 조화 평균의 존재를 증명했다. 서기 1000년 무렵 철학자 보에티우스가 피타고라스학파의 평균 세 가지를 포함해 평균의 개수를 열 개로 늘렸다. 이때까지 사람들은 평균을 철학적 의미, 선분의 비례, 음악의 음률을 다루었고 자료 요약 목적으로 쓰지는 않았다. 1500년대 초반 야콥 쾨벨이 쓴 측량서 세밀화에는 성인 남성의 발 길이인 피트를 측정하는 모습이 나온다. 사람마다 발 길이가 다르므로 시민 대표 열여섯 명을 모아 한 줄로 세워 16피트를 1로드로 결정했다. 로드를 정하고 열여섯 구획으로 똑같이 나눴으므로 이 구획이 성인 남성 발 길이 열여섯 개의 산술 평균이지만 책에 이 용어가 나오지는 않았다.


1635년 그레셤대 천문학과 헨리 겔리브랜드 교수는 티코 브라헤가 만든 표에 근거해 나침반으로 진북을 찾는 데 필요한 보정값인 자침 편차 계산값 열한 개를 얻었다. 자침 편차 자료를 정리한 결과 표에 최초로 산술 평균이라는 표현이 나온다. 실제로 겔리브랜드가 산술 평균이라고 제시한 값은 최댓값과 최솟값의 평균값이라 엄밀하게는 현대적 의미의 산술 평균과 다르지만 이미 쓰던 방법에 이름을 붙인 업적이 크다. 고대인도 산술 평균을 알았지만 겔리브랜드 이전까지 누구도 저작물에 계산법의 명칭을 기록하지는 않았다. 1660년 무렵 과학자 로버트 보일이 측정을 결합하는 방식의 문제점을 제기했지만, 1660년대 후반에 이르러 산술 평균은 여러 출판물에 등장하고 공식 인정을 받게 됐다.


18세기 들어 평균 개념은 학계에 빠르게 확산됐다. 1755년 토머스 심슨은 메이클스필드 백작에게 보낸 실험 결과를 설명하는 편지에서 평균의 유용성과 오차 곡선의 개념을 역설했다. 1777년 다니엘 베르누이는 다른 이에게 보낸 편지에서 평균 계산이 규범이 됐음을 토로하기도 했다. 1809년 카를 프리드리히 가우스는 자신의 이름을 딴 곡선으로도 유명한 정규 곡선을 유도하는데 평균이 가장 좋은 추정량이라는 가정을 이용했다. 1810년 마침내 피에르 시몽 라플라스는 표본의 평균이 인구집단의 평균을 따라 정규 분포한다는 중심 극한 정리를 창안해 현대 통계학의 중요한 개념을 다졌다.


1830년 네덜란드 왕국에서 독립한 신생 벨기에 왕국은 행정조직은 개편하고 국가 차원의 통계조사를 계획했다. 체계적인 조사 수행을 위해 내무장관 리츠는 자신의 친구 아돌프 케틀레에게 도움을 요청했다. 많은 수를 관찰하고 수집한 다음 특정한 법칙을 찾아내는데 탁월한 재능이 있던 수학자 케틀레는 엄청나게 열정적인 조직가이기도 했다. 1833년 영국을 방문해 통계지부 설치를 도왔고, 1841년 벨기에로 돌아와 통계중앙위원회를 결성했으며, 1853년 최초로 국제통계학회를 조직해 통계 관련 간행물의 통일된 방법과 용어를 개발하기 위한 국제 협조를 호소하기도 했다. 케틀레는 오늘날 비만 측정 지표인 체질량지수를 개발한 사람으로 유명하지만, ‘평균인’이라는 개념을 창안한 업적이 더욱 중요하다. 평균인은 어떤 집단에 속하는 사람들의 신체적 특성뿐만 아니라 자살 성향과 같은 특성까지도 평균을 냈을 때 그 평균값들로 이뤄진 가상의 존재를 말한다. 케틀레는 평균인이 사회의 가장 전형적인 존재로서 사회를 대표할 수 있다고 보았고, 평균인의 이상화가 사회에 대한 예술과 문학의 대표성을 더욱 강화하여 정치가들이 여론에 귀를 기울여 정치를 발전시키리라 믿었다.


케틀레의 평균인 개념은 이후로 많은 비판을 받았다. 1840년대 앙투안 오귀스탱 쿠르노는 평균인이 매우 기괴한 모습이라고 비판하며, 직삼각형을 모아 변마다 평균을 낸다면 삼각형이 모두 닮은꼴이지 않은 한 결과물은 직삼각형이 아니라고 비꼬았다. 1865년 클로드 베르나르는 의학과 생리학에 평균을 쓸 경우 반드시 오류가 생긴다며, 어떤 남성의 소변을 24시간 모두 모아 분석한 평균은 존재하지 않는 소변을 분석한 결과로, 허기질 때 나오는 소변과 소화시킬 때 나오는 소변이 다르다는 점을 간과했다고 비판했다. 케틀레는 이런 비난에 굴하지 않고 집단을 대표하는 전형을 평균인이 잡아내므로 집단의 표본을 비교 분석할 수 있다고 반박했다. 평균인 개념은 자연과학의 방법을 사화과학에 활용하는 이론적 구성이 되었다.


1980년대 후반 등장한 증거기반의학은 개별 환자의 치료 결과가 아니라 무작위 대조 임상시험을 거친 치료 결과를 최고 수준의 증거로 인정하자는 의학계의 운동이다. 주요 언론의 건강 지면을 도배하며 대중의 이목을 끄는 신약 효과 기사가 대부분 무작위 대조 임상시험 결과에 기대고 있다. 신약의 효과 검증은 모집한 대상자를 치료군과 대조군에 무작위 배정하고 치료약과 대조약을 투약한 후 두 군의 평균적인 치료 성과를 통계적으로 비교하는 과정을 거친다. 대상자마다 개별 특성이 모두 다르고 효과 크기도 모두 다르지만 평균 차이가 통계적으로 유의하지 않으면 신약의 효과를 인정받지 못하고 시장에 출시할 수도 없다. 개인별 맞춤형 진단과 치료로 대표되는 정밀의학의 시대에는 개인별 임상시험 수행 결과를 종합하는 이른바 다수 1인(N-of-1) 임상시험이 확산될 전망이다.


평균으로 대표되는 자료 집계는 본질에서 정보 버리기, 즉 조지프 슘페터가 주창한 ‘창조적 파괴’ 활동을 필연적으로 수반하게 된다. 평균을 계산하다보면 궁극적으로 추구하는 목표에 어긋나거나 심지어 훼손시키는 정보를 원칙에 따라 버려야 한다. 어떤 문제에서는 관련 정보를 하나도 잃지 않는 자료 요약인 충분 통계량 개념을 쓸 수 있지만 빅데이터 영역에서는 실현하기 어려운 경우가 많다. 하버드대 토드 로즈 교수는 2016년 발간한 「평균의 종말」이라는 책에서 “분석하고 나서 집계하기”를 제안하기도 했다. 지금의 자료 축적과 분석 방법의 발전 속도를 감안하면 겔리브랜드가 산술 평균이라는 용어를 제안한 지 400주년이 되는 2035년은 통계학 연표에 평균의 종말을 선언하는 연도로 기록될 지도 모르겠다.


참고문헌:

대니얼 R. 헤드릭 (2011), 정보화 혁명의 세계사, 너머북스.

스티븐 스티글러 (2017), 통계학을 떠받치는 일곱기둥 이야기, 프리렉.

조재근 (2017), 통계학, 빅데이터를 잡다, 한국문학사.

Simon Raper (2017 December), The shock of the mean, Significance.

Todd Rose (2016), The End of Average, HarperOne.



Posted by cyberdoc
: