728x90
반응형

Simpson’s Paradox - 통계의 거짓말

 

데이터 분석에 있어서, 숫자가 항상 진실을 말하는 것은 아니다.

이러한 현상을 대표적으로 보여주는 것이 심슨의 역설(Simpson’s Paradox)이다.

이는 전체 데이터를 봤을 때 나타나는 경향이 세부 그룹을 분석하면 반대로 나타나게 되는 현상으로,

1951년 에드워드 심슨(Edward H. Simpson)이 논문 "The Interpretation of Interaction in Contingency Tables"에서 처음 설명했다.

이 역설은 데이터를 해석할 때 단순한 집계 수치에 의존하지 않고, 하위 그룹 분석을 수행하여 정확한 의사 결정을 도출하는 것이 중요하다는 것을 말해준다.

 

 

Simpson’s Paradox?

예시 1. 신장결석 치료법에 관한 의학 연구

  Open Surgery Percutaneous Nephrolithotomy
Stone diameter < 2 cm 81/87 (93.1%) 234/270 (86.7%)
Stone diameter ≥ 2 cm 192/263 (73.0%) 55/80 (68.8%)
All stones (aggregate) 273/350 (78.0%) 289/350 (82.6%)

 

해당 테이블을 살펴보면, All stones만 봤을 때에는 Percutaneous Nephrolithotomy 치료법이 전체적으로 더 효과적인 것처럼 보인다.

하지만, 돌 크기별(< 2cm, >= 2cm)로 데이터를 살펴보면, Open Surgery 치료법이 작은 결석과 큰 결석 모두에게서 더 효과적인 것으로 나타났다.

Open Surgery 치료법이 더 크고 심각한 결석을 가진 환자들에게 주로 사용되었기 때문에 전체적인 성공률이 왜곡되어 버린 것이다.

 

예시 2. UC 버클리차별 사건

Department All Men Women
Applicants Admitted Applicants Admitted Applicants Admitted
A 933 64% 825 62% 108 82%
B 585 63% 560 63% 25 68%
C 918 35% 325 37% 593 34%
D 792 34% 417 33% 375 35%
E 584 25% 191 28% 393 24%
F 714 6% 373 6% 341 7%
Total 4526 39% 2691 45% 1835 30%

 

1973년 UC 버클리 대학원 입학 데이터에서도 유사한 사례를 발견할 수 있다.

전체 합격률을 확인해봤을때, 남성 지원자의 합격률이 여성보다 높아 성차별 논란이 있었다.

그러나, 학과별로 데이터를 다시 분석한 결과 대부분의 학과에서 여성의 합격률이 더 높았음을 확인할 수 있었다.

 

왜 이런 일이 발생했을까?

혼재변수(Confounding Variables)

혼재변수는 독립변수와 종속변수 모두에 영향을 미쳐 잘못된 연관성을 만들어낼 수 있는 숨겨진 요인을 말한다.

예시 1. 신장결석 치료법에 관한 의학 연구 에서는 결석의 크기가,

예시 2. UC 버클리 성차별 사건 에서는 학과 선택의 차이가 혼재변수였다고 할 수 있다.

728x90
반응형