상관관계는 인과관계가 아니다

우리가 흔히 동일하다고 착각하는 상관관계와 인과관계의 개념을 정리하고, 상관관계가 인과관계가 되기 위한 조건을 알아봅니다.


상관관계-인과관계



연관되어 있다고 해서 다 원인-결과는 아니다

우리는 일상에서 겪는 많은 상황에서 상관관계와 인과관계를 혼동하곤 합니다.
이를테면 "A와 B가 관련이 높더라"라는 발표가 나오면, "어? 그러면 A가 B를 일으킨다는 소리네"라고 단정 지어버리는 경우도 심심찮게 보게 되죠.
하지만 이런 식으로 상관관계를 곧바로 인과관계로 받아들이는 건 조금 성급한 결론일 수 있습니다.
예를 들면, 특정 생활 습관이 장수와 관련이 높다는 결과가 나왔다고 해서, 그 습관이 무조건 장수의 원인이라고 말하기는 어렵습니다.
상관관계만으로 원인과 결과를 논한다면, 중요한 '진짜 원인'을 놓치고 있을지도 모릅니다.
그래서 이 포스트에서는 상관관계(correlation)와 인과관계(causation)가 어떻게 다른 지, 그리고 단순히 두 변수의 연관성을 바로 원인-결과로 이어가려면 어떤 조건들을 꼼꼼히 따져봐야 하는지 살펴보고자 합니다.




상관관계와 인과관계의 개념

상관관계(Correlation)란?

상관관계란 한 변수가 변화할 때 다른 변수도 함께 변하는 경향이 나타나는 걸 말합니다.
이들 변수가 뭔가 관련이 있긴 있는 상태라고 보시면 됩니다.
하지만 그렇다고 이것이 곧장 원인과 결과의 관계라고 할 수 있는 단계는 아닙니다.

상관관계 예시들

  • 여름철에 아이스크림 판매량이 늘어날수록 익사 사고도 증가한다.
  • 대학 졸업자의 평균 연봉이 비졸업자보다 높다.
  • 스마트폰 사용 시간이 길수록 수면의 질이 낮아진다.

이 예시들을 보면 분명히 두 변수 사이에 관계가 있어 보이죠.
그렇다고 해서 아이스크림을 더 팔면 익사 사고가 는다고 단정할 수 있을까요?
사실 이 둘은 "여름"이라는 공통 원인이 있을 공산이 큽니다.
또 대학 졸업자 연봉이 높게 나온다고 해서 오로지 학위 덕분이라고 보기는 어렵습니다.
가정환경이나 개인 역량 등 다른 변수가 숨어 있을 수 있으니까요.


인과관계(Causation)란?

인과관계는 말 그대로 원인이 있으면 결과가 뒤따르는 확실한 관계입니다.
예를 들어, 흡연이 폐암 발생 확률을 높인다는 사실은 여러 과학적 근거와 실험으로 이미 튼튼하게 뒷받침되고 있죠.
운동이 체중 감량에 도움이 된다는 것도 실험과 관찰을 통해 검증된 사실 중 하나입니다.
즉, 인과관계에서는 "A가 변화하면 B도 그에 따라 변화한다"라는 명확한 메커니즘이나 증거가 필요합니다.
단순히 "둘이 같이 바뀌는" 정도로는 부족하고, A 때문에 B가 변해야 하는 거죠.




2. 상관관계가 인과관계로 인정되기 위한 조건

실제 연구 현장에서는 변수 간의 상관관계를 확인하고 나면, 드디어 원인을 찾았다고 주장하고 싶어지기 마련입니다.
하지만 이걸 곧바로 인과관계로 띄워주려면 반드시 넘어야 할 산이 있습니다.
학계에서 주로 사용하는 가이드는 브래드포드 힐 기준(Bradford Hill criteria)입니다.
이 기준을 바탕으로 상관관계가 인과관계로 인정되기 위해 반드시 고려해야 할 조건을 알아보겠습니다.


1) 시간적 선후 관계(Temporal Precedence)

당연한 얘기지만, 원인이 결과보다 먼저 일어나야 합니다.
예를 들어, 운동이 체중 감량을 유도한다고 말하려면 운동을 시작한 다음에 체중이 빠져야죠.
만약 체중이 미리 줄고 나서 운동량이 늘어났다면, 운동을 체중 감량의 원인으로 보기엔 무리가 있습니다.
말은 쉬워 보이지만, 연구 현장에서 이걸 딱 부러지게 입증하는 게 생각보다 까다롭습니다.
'장수하는 사람들이 특정 습관을 오래 유지했을까, 아니면 그 습관 덕분에 장수했을까?' 같은 문제들이 줄줄이 딸려 나오거든요.


2) 강한 상관관계(Strong Correlation)

상관계수가 높으면 "오, 뭔가 둘이 굉장히 밀접하게 연관돼 있구나?"라는 생각을 하게 됩니다.
하지만 그 자체가 인과성을 보장해주진 않습니다.
키와 몸무게가 대표적인 예죠.
키가 크면 몸무게도 대체로 늘긴 하지만, 이게 '키 = 몸무게 증가의 원인'이라고 말할 순 없습니다.
유전이나 식습관, 운동량처럼 키에 영향을 주는 다른 요인들이 워낙 많기 때문입니다.
결국 높은 상관계수는 "혹시 원인-결과 관계일 수 있지 않을까?"라는 의심을 제기해볼 만한 한 단서일 뿐이지, 결정적 근거는 아니라는 점 기억해야 합니다.


3) 일관성 있는 증거(Consistency of Evidence)

어떤 연구 하나에서만 "A가 B를 야기한다"라는 결과가 나왔고, 다른 연구들은 다른 결과를 도출했다면 어떻게 될까요?
아마도 인과관계를 판단하기 어려울 것입니다.
다양한 환경, 연구 방법, 표본으로 실험해봤을 때도 동일한 결론이 나온다면 그제야 '꽤 일관성 있는 결과'로서 신뢰도가 확보됩니다.
담배와 폐암의 관계가 대표적인 사례입니다.
나라와 인종을 불문하고, 무수히 많은 연구에서 같은 결론이 나왔기 때문에 이제는 "흡연이 폐암의 주요 원인"이라고 자신 있게 말할 수 있는 거죠.


4) 개연성(Plausibility)

이 두 변수 사이에 논리적으로 설명이 가능한 기전이 있어야 합니다.
예를 들어 흡연이 폐암을 유발하는 이유는 발암물질이 폐 세포에 유전적 손상을 가한다는 식의 과학적 설명이 잘 설명돼 있습니다.
반면, "특정 음식을 먹었더니 수명이 길어지더라"라는 연구 결과가 나왔다고 쳐도, 정작 왜 그게 가능한지 설명이 없다면 단순히 우연에 의한 결과일 가능성을 배제하기 어렵습니다.
그리고 개연성을 밝히는 연구는 모집단의 중요한 개념 특성을 반영해야 하며, 일반화가 가능하도록 통계적으로 설계된 것이어야 합니다.

5) 대체 설명의 배제(Elimination of Alternative Explanations)

마지막으로, 다른 외부 요인에 의한 영향으로 생긴 결과일 가능성을 확실히 걷어내야 합니다.
인과관계인지 확인하려는 변수들 외의 다른 상관관계 요소는 모두 통제되거나 배제시킨 상태로 확인해야 하는 것입니다.
예를 들어, "대학 졸업자는 평균 연봉이 높다"고 해서 무조건 학위 덕분이라고 치부하기엔 너무 단순하죠.
그 사람이 중산층 이상의 경제적 환경에서 자라 다양한 교육 기회를 접했다거나, 원래부터 학업에 적극적인 성향이 있었다거나, 아니면 다른 복합적 변인이 있을 가능성이 큽니다.
인과관계를 주장하기 위해서는 이렇게 숨은 요인들(교란 변수, 혼재 변수 등)을 하나씩 배제해나가는 과정이 꼭 필요합니다.
이것은 말처럼 쉬운 작업이 아니어서, 추가 실험과 자료 분석을 통해 계속 검증하고 또 검증해야 하죠.



결론

상관관계는 인과관계를 추측해볼 수 있는 중요한 단서가 되긴 합니다.
하지만 당장 두 변수 간에 높은 상관이 나왔다고 해서 "바로 원인과 결과네!"라고 하기엔 위험 요소가 너무 많습니다.
원인이 결과보다 먼저 발생했는지, 둘 사이에 다른 영향 요인은 없는지, 논리적인 기전이 설명되는지 등등 꼼꼼히 따져봐야만 제대로 된 인과관계를 밝힐 수 있습니다.
통계 분석 결과를 마주할 때, 이게 그냥 연관성인지, 아니면 정말 원인-결과 관계인지 의심해보는 태도는 필수입니다.
그런 과정을 거쳐야만 데이터가 잘못 해석되는 걸 막고, 정말 의미 있는 결론에 도달할 수 있을 것입니다.


참고 자료

Hill, A. B. (1965) The Environment and Disease: Association or Causation?
Freedman, D. A. (2005) Statistical Models: Theory and Practice.
Pearl, J. (2009) Causality: Models, Reasoning, and Inference.

댓글 쓰기

다음 이전

POST ADS 2