키워드: #희망 #데이터 #분석 #통계적 역설
코로나 19 팬데믹, 전쟁, 경기침체, 급격한 기후변화와 같은 다양한 위기에 직면하며 살아가고 있는 우리에게 ‘희망’은 매우 중요한 심리적 자원이다. 희망은 목표를 세우고 추구하는 근간이 되는 동시에 어려움 속에서도 포기하지 않고 삶을 지속하게 하는 원동력이기 때문이다. 희망은 더 나은 미래가 가능하리라는 믿음, 변화에 대한 가능성과 열망을 포괄한다(Luo 외, 2022). 그렇다면 이러한 믿음과 열망은 어디에서 비롯되는 것일까? 우리는 무엇을 기반으로 현재와 미래의 모습, 그리고 변화 가능성에 대해 판단하고 있는 것일까?
판단의 근거에는 다양한 종류가 있지만, 그 중에서도 코로나 19 팬데믹 이후 우리의 일상 생활에서 판단의 핵심적인 근거로 자리매김하게 된 것이 바로 각종 데이터와 통계치이다. 코로나 확진자 수, 위중증 환자 비율, 사망률, 백신 접종률 등과 같은 통계에 매일 노출되고 이에 대한 뉴스를 접하는 것이 이제는 우리의 당연한 일상이 되었다. 확진자 수 변동 추이, 백신과 치료제 효과성에 대한 수많은 데이터를 비교하며 우리는 코로나 19의 위험성과 종식 가능성에 대해 판단한다. 그리고 이러한 판단에 따라, 때로 두려움과 막막함에 사로잡히기도 하고, 희망찬 미래를 그려보기도 한다. 데이터와 통계치가 보여주는 현실이 희망의 중요한 근간이 된 것이다.
많은 사람들은 데이터와 통계치가 객관적 진실만을 전달한다고 믿는다. 따라서, 데이터와 통계치에 기반한 판단은 언제나 정확하고 합리적일 것이라고 생각한다. 그러나, 동일한 데이터라고 하더라도, 이를 어떤 수준에서 분석하느냐에 따라 우리는 때로 전혀 다른 진실을 마주하게 된다. 이는 분석의 오류나 실수로 인해 잘못된 결과를 얻는 상황을 말하는 것이 아니다. 분석 자체에는 아무런 오류나 실수가 없더라도, 단지 동일한 데이터를 어떻게 바라보느냐에 따라 완전히 다른 양상이 나타날 수 있다는 것이다.
실제 사례를 살펴보자. 아래 표는 영국 공공보건국에서 2021년 8월 발표한 코로나 변이 바이러스에 대한 브리핑 자료(Public Health England, 2021)의 일부를 Morris(2021)가 발췌하여 추가 정보와 함께 제시한 것이다. 표에서 ‘전체’라고 표시된 줄의 데이터를 살펴보면, 백신 미접종자 중 델타 변이에 감염된 것으로 확진된 사람은 총 151,054명으로, 이 중 253명이 사망하여 0.17%(=253/151,054)의 치명률을 나타냈다. 반면, 백신 접종을 2차까지 완료하고 델타 변이에 감염된 것으로 확진된 사람은 총 47,008명으로, 이 중 402명이 사망하여 0.86%(=402/47,008)의 치명률을 나타냈다. 놀랍게도, 백신 접종 완료자의 치명률이 백신 미접종자에 비해 무려 5배 이상 더 높게 나타난 것이다. 이 결과에 따르면, 백신의 효과성에 대해 심각한 의문을 제기하지 않을 수 없다.
그러나, 동일한 데이터를 50세 미만과 50세 이상으로 나누어 살펴보면 이야기는 전혀 달라진다. 50세 미만 집단에서는 백신 미접종자의 치명률이 0.03%(확진자 147,612명 중 사망자 48명), 접종 완료자의 치명률이 0.05%(확진자 25,536명 중 사망자 13명)로, 접종 완료자의 치명률이 더 높기는 했으나, 미접종자와 접종 완료자 모두 상당히 낮은 수준의 치명률을 나타냈다. 50세 이상 집단에서는 백신 미접종자의 치명률이 5.96%(확진자 3,440명 중 사망자 205명), 접종 완료자의 치명률이 1.81%(확진자 21,472명 중 사망자 389명)로, 미접종자의 치명률이 접종 완료자에 비해 3배 이상 높게 나타났다. 즉, 개별 연령 집단 내에서 살펴보면, 50세 미만은 백신 접종 여부에 관계없이 치명률이 매우 낮았고, 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가 있었던 것이다. 분석의 수준만 달리했을 뿐인데, 동일한 데이터에 기반하여 어떻게 이렇게 상반된 결론에 이르게 된 것일까?
이 예시는 통계학에서 잘 알려진 ‘심슨의 역설(Simpson’s Paradox)’ 혹은 ‘율-심슨 역설(Yule-Simpson Paradox)’에 해당되는 사례이다(Simpson, 1951; Yule, 1903). 심슨의 역설이란, 여러 집단으로 이루어진 데이터를 전체로 합쳐서 분석했을 때의 결과가 개별 집단을 따로 분석했을 때의 결과와 상반되게 나타나는 현상을 가리킨다. 이 현상은 ‘역설’이라고 불리지만, 실제로는 분석 수준에 따라 결과가 상반되게 나타나는 반직관적(counter-intuitive) 상황을 가리킨다. 연구에 따르면, 심슨의 역설은 생각보다 흔하게 발생하지만, 사람들은 주어진 데이터를 보고 심슨의 역설이 발생했다는 것을 잘 인지하지 못할 뿐 아니라, 인지하더라도 전체 데이터에서 보여지는 결과에만 기반하여 결론을 내리는 경향이 있다고 한다(Kievit 외, 2013). 즉, 심슨의 역설을 직관적으로 이해하고 자연스럽게 받아들이는 것은 쉽지 않다.
그렇다면, 심슨의 역설은 어떤 상황에서 발생하는 것일까? 심슨의 역설은 다양한 이유로 발생하지만, 백신 예시에서는 두 변인 간 관련성에 영향을 미치는 제 3의 변인 즉, 혼입 변인(confounding variable)의 영향으로 이 현상을 설명할 수 있다(Tu 외, 2008). 백시 예시에서 작용하는 혼입 변인은 ‘연령’이다. 백신 접종률과 사망률 모두 연령에 크게 영향을 받고 있기 때문에, 연령의 영향을 고려하지 않으면 이 두 변인 간의 관계를 제대로 이해하기 어렵다. 표에서도 볼 수 있듯이, 연령이 높을수록 코로나로 인한 사망 위험도 높고, 동시에 백신 접종률도 높다. 코로나 위험군에 속하는 고연령층에 코로나 백신을 우선 접종했기 때문이다. 이로 인해, 백신 미접종자 집단은 대부분 50세 미만이었던 반면(전체 151,954명 중 50세 미만 147,612명), 백신 접종자 집단은 절반 가량이 50세 이상이었고(전체 47,008명 중 50세 이상 21,472명), 사망자 또한 대부분 50세 이상에서 나왔다(전체 655명 중 50세 이상 594명). 따라서, 개별 연령 집단 내에서 나타나는 양상과는 달리, 연령을 무시하고 전체 데이터를 모두 합쳐놓고 보면, 미접종자 집단은 대부분이 50세 미만으로 구성되어 있어 치명률이 상대적으로 낮게 나타나고, 접종 완료자 집단은 절반 가량이 50세 이상으로 구성되어 있어 치명률이 상대적으로 높게 나타났던 것이다. 즉, 전체 데이터에서 보여진 백신 접종 여부와 치명률 간의 관련성은, 백신 접종이 치명률에 미친 직접적인 영향을 반영하는 것이 아니라, 연령이라는 혼입 변인의 영향으로 인해 나타난 결과라 할 수 있다.
심슨의 역설 예시를 통해 우리가 알 수 있는 것은, 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아니며, 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안된다는 것이다. 이는 다양한 의사결정과 정책수립에 중요한 함의를 갖는다. 앞의 백신 예시에서와 마찬가지로, 모든 집단을 합쳐서 분석했을 때 나타나는 효과(사건, 치료, 개입, 정책 등의 영향)는, 성별, 연령, 소득과 같은 특성에 따라 구분되는 다양한 집단 내에서 나타나는 효과와 그 양상이 전혀 다를 수 있다. 따라서, 전체 데이터에 기반한 분석 결과가 모든 사람들에게 동일하게 나타날 것이라고 가정하는 것은 타당하지 않다. 일례로, 2021년 실시된 코로나 19의 영향력을 살펴본 한 연구(권성욱, 2021)에서, 일반국민과 취약계층 모두 코로나 19로 인해 소득이 감소했지만, 소득 감소에 대처하기 위해 일반국민은 외식비를 줄인 반면 취약계층은 식료품비를 축소했다는 결과가 나타났다. 이 결과는 코로나 19의 영향이 계층에 따라 차별적으로 나타나며, 코로나 19에 대한 대응 방안과 정책을 논의할 때 보다 세분화된 접근이 필요하다는 것을 시사한다.
결국, 희망과 변화의 출발점은 현실에 대한 우리의 인식과 판단이다. 점점 더 다양한 데이터가 빠르게 축적되고 판단과 의사결정의 근거로 빈번하게 사용되고 있는 요즘, 현실을 보다 세밀하고 정확하게 파악하기 위해 무엇보다 우리에게 필요한 것은, 데이터를 여러 층위에서 제대로 분석하고 해석할 수 있는 역량을 키우는 것, 그래서 멀리서 숲만 바라보는 것이 아니라 숲을 이루는 나무 하나하나를 세밀하게 살펴볼 수 있는 혜안을 기르는 것이 아닐까 싶다.
참고문헌:
권성욱. (2021.11.10). “코로나 19가 취약계층에 미친 영향 - 일반국민과의 비교 연구”. 한국리서치 여론 속의 여론. https://hrcopinion.co.kr/archives/19844
Kievit, R. A., Frankenhuis, W. E., Waldorp, L. J., & Borsboom, D. (2013). Simpson's paradox in psychological science: a practical guide. Frontiers in Psychology, 4, Article 513.
frontiersin.org/articles/10.3389/fpsyg.2013.00513/full
Luo, S. X., van Horen, F., Millet, K., & Zeelenberg, M. (2022). What we talk about when we talk about hope: A prototype analysis. Emotion, 22(4), 751–768.
https://doi.org/10.1037/emo0000821
Morris, J. (2021. 9.15). Simpson's paradox strikes again: Refuting reports vaxxed have 5x case fatality rate than unvaxxed. Covid-19 Data Science.
https://www.covid-datascience.com/post/simpson-s-paradox-strikes-again-refuting-reports-vaxxed-have-5x-case-fatality-rate-than-untaxed
Public Health England. (2021). SARS-CoV-2 variants of concern and variants under Investigation in England: Technical briefing 20. https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/1009243/Technical_Briefing_20.pdf
Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society Series B, 13(2), 238–241.
Tu, Y. K., Gunnell, D. & Gilthorpe, M. S. (2008). Simpson's Paradox, Lord's Paradox, and Suppression Effects are the same phenomenon – the reversal paradox. Emerging Themes in Epidemiololy, 5, Article 2.
https://doi.org/10.1186/1742-7622-5-2
Yule, G. U. (1903). Notes on the theory of association of attributes of statistics. Biometrika, 2(2), 121–134.
석혜원
서강대학교 심리학과 부교수.
사람의 마음을 측정하는 방법, 측정을 통해 얻어진 자료를 분석하는 통계적 방법에 대해 연구하는 계량심리학자.
키워드: #희망 #데이터 #분석 #통계적 역설
코로나 19 팬데믹, 전쟁, 경기침체, 급격한 기후변화와 같은 다양한 위기에 직면하며 살아가고 있는 우리에게 ‘희망’은 매우 중요한 심리적 자원이다. 희망은 목표를 세우고 추구하는 근간이 되는 동시에 어려움 속에서도 포기하지 않고 삶을 지속하게 하는 원동력이기 때문이다. 희망은 더 나은 미래가 가능하리라는 믿음, 변화에 대한 가능성과 열망을 포괄한다(Luo 외, 2022). 그렇다면 이러한 믿음과 열망은 어디에서 비롯되는 것일까? 우리는 무엇을 기반으로 현재와 미래의 모습, 그리고 변화 가능성에 대해 판단하고 있는 것일까?
판단의 근거에는 다양한 종류가 있지만, 그 중에서도 코로나 19 팬데믹 이후 우리의 일상 생활에서 판단의 핵심적인 근거로 자리매김하게 된 것이 바로 각종 데이터와 통계치이다. 코로나 확진자 수, 위중증 환자 비율, 사망률, 백신 접종률 등과 같은 통계에 매일 노출되고 이에 대한 뉴스를 접하는 것이 이제는 우리의 당연한 일상이 되었다. 확진자 수 변동 추이, 백신과 치료제 효과성에 대한 수많은 데이터를 비교하며 우리는 코로나 19의 위험성과 종식 가능성에 대해 판단한다. 그리고 이러한 판단에 따라, 때로 두려움과 막막함에 사로잡히기도 하고, 희망찬 미래를 그려보기도 한다. 데이터와 통계치가 보여주는 현실이 희망의 중요한 근간이 된 것이다.
많은 사람들은 데이터와 통계치가 객관적 진실만을 전달한다고 믿는다. 따라서, 데이터와 통계치에 기반한 판단은 언제나 정확하고 합리적일 것이라고 생각한다. 그러나, 동일한 데이터라고 하더라도, 이를 어떤 수준에서 분석하느냐에 따라 우리는 때로 전혀 다른 진실을 마주하게 된다. 이는 분석의 오류나 실수로 인해 잘못된 결과를 얻는 상황을 말하는 것이 아니다. 분석 자체에는 아무런 오류나 실수가 없더라도, 단지 동일한 데이터를 어떻게 바라보느냐에 따라 완전히 다른 양상이 나타날 수 있다는 것이다.
실제 사례를 살펴보자. 아래 표는 영국 공공보건국에서 2021년 8월 발표한 코로나 변이 바이러스에 대한 브리핑 자료(Public Health England, 2021)의 일부를 Morris(2021)가 발췌하여 추가 정보와 함께 제시한 것이다. 표에서 ‘전체’라고 표시된 줄의 데이터를 살펴보면, 백신 미접종자 중 델타 변이에 감염된 것으로 확진된 사람은 총 151,054명으로, 이 중 253명이 사망하여 0.17%(=253/151,054)의 치명률을 나타냈다. 반면, 백신 접종을 2차까지 완료하고 델타 변이에 감염된 것으로 확진된 사람은 총 47,008명으로, 이 중 402명이 사망하여 0.86%(=402/47,008)의 치명률을 나타냈다. 놀랍게도, 백신 접종 완료자의 치명률이 백신 미접종자에 비해 무려 5배 이상 더 높게 나타난 것이다. 이 결과에 따르면, 백신의 효과성에 대해 심각한 의문을 제기하지 않을 수 없다.
그러나, 동일한 데이터를 50세 미만과 50세 이상으로 나누어 살펴보면 이야기는 전혀 달라진다. 50세 미만 집단에서는 백신 미접종자의 치명률이 0.03%(확진자 147,612명 중 사망자 48명), 접종 완료자의 치명률이 0.05%(확진자 25,536명 중 사망자 13명)로, 접종 완료자의 치명률이 더 높기는 했으나, 미접종자와 접종 완료자 모두 상당히 낮은 수준의 치명률을 나타냈다. 50세 이상 집단에서는 백신 미접종자의 치명률이 5.96%(확진자 3,440명 중 사망자 205명), 접종 완료자의 치명률이 1.81%(확진자 21,472명 중 사망자 389명)로, 미접종자의 치명률이 접종 완료자에 비해 3배 이상 높게 나타났다. 즉, 개별 연령 집단 내에서 살펴보면, 50세 미만은 백신 접종 여부에 관계없이 치명률이 매우 낮았고, 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가 있었던 것이다. 분석의 수준만 달리했을 뿐인데, 동일한 데이터에 기반하여 어떻게 이렇게 상반된 결론에 이르게 된 것일까?
이 예시는 통계학에서 잘 알려진 ‘심슨의 역설(Simpson’s Paradox)’ 혹은 ‘율-심슨 역설(Yule-Simpson Paradox)’에 해당되는 사례이다(Simpson, 1951; Yule, 1903). 심슨의 역설이란, 여러 집단으로 이루어진 데이터를 전체로 합쳐서 분석했을 때의 결과가 개별 집단을 따로 분석했을 때의 결과와 상반되게 나타나는 현상을 가리킨다. 이 현상은 ‘역설’이라고 불리지만, 실제로는 분석 수준에 따라 결과가 상반되게 나타나는 반직관적(counter-intuitive) 상황을 가리킨다. 연구에 따르면, 심슨의 역설은 생각보다 흔하게 발생하지만, 사람들은 주어진 데이터를 보고 심슨의 역설이 발생했다는 것을 잘 인지하지 못할 뿐 아니라, 인지하더라도 전체 데이터에서 보여지는 결과에만 기반하여 결론을 내리는 경향이 있다고 한다(Kievit 외, 2013). 즉, 심슨의 역설을 직관적으로 이해하고 자연스럽게 받아들이는 것은 쉽지 않다.
그렇다면, 심슨의 역설은 어떤 상황에서 발생하는 것일까? 심슨의 역설은 다양한 이유로 발생하지만, 백신 예시에서는 두 변인 간 관련성에 영향을 미치는 제 3의 변인 즉, 혼입 변인(confounding variable)의 영향으로 이 현상을 설명할 수 있다(Tu 외, 2008). 백시 예시에서 작용하는 혼입 변인은 ‘연령’이다. 백신 접종률과 사망률 모두 연령에 크게 영향을 받고 있기 때문에, 연령의 영향을 고려하지 않으면 이 두 변인 간의 관계를 제대로 이해하기 어렵다. 표에서도 볼 수 있듯이, 연령이 높을수록 코로나로 인한 사망 위험도 높고, 동시에 백신 접종률도 높다. 코로나 위험군에 속하는 고연령층에 코로나 백신을 우선 접종했기 때문이다. 이로 인해, 백신 미접종자 집단은 대부분 50세 미만이었던 반면(전체 151,954명 중 50세 미만 147,612명), 백신 접종자 집단은 절반 가량이 50세 이상이었고(전체 47,008명 중 50세 이상 21,472명), 사망자 또한 대부분 50세 이상에서 나왔다(전체 655명 중 50세 이상 594명). 따라서, 개별 연령 집단 내에서 나타나는 양상과는 달리, 연령을 무시하고 전체 데이터를 모두 합쳐놓고 보면, 미접종자 집단은 대부분이 50세 미만으로 구성되어 있어 치명률이 상대적으로 낮게 나타나고, 접종 완료자 집단은 절반 가량이 50세 이상으로 구성되어 있어 치명률이 상대적으로 높게 나타났던 것이다. 즉, 전체 데이터에서 보여진 백신 접종 여부와 치명률 간의 관련성은, 백신 접종이 치명률에 미친 직접적인 영향을 반영하는 것이 아니라, 연령이라는 혼입 변인의 영향으로 인해 나타난 결과라 할 수 있다.
심슨의 역설 예시를 통해 우리가 알 수 있는 것은, 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아니며, 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안된다는 것이다. 이는 다양한 의사결정과 정책수립에 중요한 함의를 갖는다. 앞의 백신 예시에서와 마찬가지로, 모든 집단을 합쳐서 분석했을 때 나타나는 효과(사건, 치료, 개입, 정책 등의 영향)는, 성별, 연령, 소득과 같은 특성에 따라 구분되는 다양한 집단 내에서 나타나는 효과와 그 양상이 전혀 다를 수 있다. 따라서, 전체 데이터에 기반한 분석 결과가 모든 사람들에게 동일하게 나타날 것이라고 가정하는 것은 타당하지 않다. 일례로, 2021년 실시된 코로나 19의 영향력을 살펴본 한 연구(권성욱, 2021)에서, 일반국민과 취약계층 모두 코로나 19로 인해 소득이 감소했지만, 소득 감소에 대처하기 위해 일반국민은 외식비를 줄인 반면 취약계층은 식료품비를 축소했다는 결과가 나타났다. 이 결과는 코로나 19의 영향이 계층에 따라 차별적으로 나타나며, 코로나 19에 대한 대응 방안과 정책을 논의할 때 보다 세분화된 접근이 필요하다는 것을 시사한다.
결국, 희망과 변화의 출발점은 현실에 대한 우리의 인식과 판단이다. 점점 더 다양한 데이터가 빠르게 축적되고 판단과 의사결정의 근거로 빈번하게 사용되고 있는 요즘, 현실을 보다 세밀하고 정확하게 파악하기 위해 무엇보다 우리에게 필요한 것은, 데이터를 여러 층위에서 제대로 분석하고 해석할 수 있는 역량을 키우는 것, 그래서 멀리서 숲만 바라보는 것이 아니라 숲을 이루는 나무 하나하나를 세밀하게 살펴볼 수 있는 혜안을 기르는 것이 아닐까 싶다.
참고문헌:
권성욱. (2021.11.10). “코로나 19가 취약계층에 미친 영향 - 일반국민과의 비교 연구”. 한국리서치 여론 속의 여론. https://hrcopinion.co.kr/archives/19844
Kievit, R. A., Frankenhuis, W. E., Waldorp, L. J., & Borsboom, D. (2013). Simpson's paradox in psychological science: a practical guide. Frontiers in Psychology, 4, Article 513.
frontiersin.org/articles/10.3389/fpsyg.2013.00513/full
Luo, S. X., van Horen, F., Millet, K., & Zeelenberg, M. (2022). What we talk about when we talk about hope: A prototype analysis. Emotion, 22(4), 751–768.
https://doi.org/10.1037/emo0000821
Morris, J. (2021. 9.15). Simpson's paradox strikes again: Refuting reports vaxxed have 5x case fatality rate than unvaxxed. Covid-19 Data Science.
https://www.covid-datascience.com/post/simpson-s-paradox-strikes-again-refuting-reports-vaxxed-have-5x-case-fatality-rate-than-untaxed
Public Health England. (2021). SARS-CoV-2 variants of concern and variants under Investigation in England: Technical briefing 20. https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/1009243/Technical_Briefing_20.pdf
Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society Series B, 13(2), 238–241.
Tu, Y. K., Gunnell, D. & Gilthorpe, M. S. (2008). Simpson's Paradox, Lord's Paradox, and Suppression Effects are the same phenomenon – the reversal paradox. Emerging Themes in Epidemiololy, 5, Article 2.
https://doi.org/10.1186/1742-7622-5-2
Yule, G. U. (1903). Notes on the theory of association of attributes of statistics. Biometrika, 2(2), 121–134.
석혜원
서강대학교 심리학과 부교수.
사람의 마음을 측정하는 방법, 측정을 통해 얻어진 자료를 분석하는 통계적 방법에 대해 연구하는 계량심리학자.