Simpson’s Paradox - 통계의 거짓말
데이터 분석에 있어서, 숫자가 항상 진실을 말하는 것은 아니다.
이러한 현상을 대표적으로 보여주는 것이 심슨의 역설(Simpson’s Paradox)이다.
이는 전체 데이터를 봤을 때 나타나는 경향이 세부 그룹을 분석하면 반대로 나타나게 되는 현상으로,
1951년 에드워드 심슨(Edward H. Simpson)이 논문 "The Interpretation of Interaction in Contingency Tables"에서 처음 설명했다.
이 역설은 데이터를 해석할 때 단순한 집계 수치에 의존하지 않고, 하위 그룹 분석을 수행하여 정확한 의사 결정을 도출하는 것이 중요하다는 것을 말해준다.
Simpson’s Paradox?
예시 1. 신장결석 치료법에 관한 의학 연구
Open Surgery | Percutaneous Nephrolithotomy | |
Stone diameter < 2 cm | 81/87 (93.1%) | 234/270 (86.7%) |
Stone diameter ≥ 2 cm | 192/263 (73.0%) | 55/80 (68.8%) |
All stones (aggregate) | 273/350 (78.0%) | 289/350 (82.6%) |
해당 테이블을 살펴보면, All stones만 봤을 때에는 Percutaneous Nephrolithotomy 치료법이 전체적으로 더 효과적인 것처럼 보인다.
하지만, 돌 크기별(< 2cm, >= 2cm)로 데이터를 살펴보면, Open Surgery 치료법이 작은 결석과 큰 결석 모두에게서 더 효과적인 것으로 나타났다.
Open Surgery 치료법이 더 크고 심각한 결석을 가진 환자들에게 주로 사용되었기 때문에 전체적인 성공률이 왜곡되어 버린 것이다.
예시 2. UC 버클리 성차별 사건
Department | All | Men | Women | |||
Applicants | Admitted | Applicants | Admitted | Applicants | Admitted | |
A | 933 | 64% | 825 | 62% | 108 | 82% |
B | 585 | 63% | 560 | 63% | 25 | 68% |
C | 918 | 35% | 325 | 37% | 593 | 34% |
D | 792 | 34% | 417 | 33% | 375 | 35% |
E | 584 | 25% | 191 | 28% | 393 | 24% |
F | 714 | 6% | 373 | 6% | 341 | 7% |
Total | 4526 | 39% | 2691 | 45% | 1835 | 30% |
1973년 UC 버클리 대학원 입학 데이터에서도 유사한 사례를 발견할 수 있다.
전체 합격률을 확인해봤을때, 남성 지원자의 합격률이 여성보다 높아 성차별 논란이 있었다.
그러나, 학과별로 데이터를 다시 분석한 결과 대부분의 학과에서 여성의 합격률이 더 높았음을 확인할 수 있었다.
왜 이런 일이 발생했을까?
혼재변수(Confounding Variables)
혼재변수는 독립변수와 종속변수 모두에 영향을 미쳐 잘못된 연관성을 만들어낼 수 있는 숨겨진 요인을 말한다.
예시 1. 신장결석 치료법에 관한 의학 연구 에서는 결석의 크기가,
예시 2. UC 버클리 성차별 사건 에서는 학과 선택의 차이가 혼재변수였다고 할 수 있다.
'🤖 ai logbook' 카테고리의 다른 글
[paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델 (0) | 2025.04.27 |
---|---|
[paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델 (1) | 2025.04.24 |
[paper, NeurIPS 2022] Earthformer : 시공간 Transformer 기반 기상·기후 예측 모델 (0) | 2025.04.16 |
[paper, NeurIPS 2023] CrossViViT : 시공간 정보를 활용한 태양복사량 시계열 예측 모델 (0) | 2025.04.12 |
[paper] DeepSeek-R1 정리 및 Ollama를 이용해서 DeepSeek-R1 모델 간단하게 사용해보기 (0) | 2025.02.10 |
[RL] MDP - Bellman equation (0) | 2024.06.25 |
[RL] 마르코프 결정 과정 (Markov decision processes, MDP) (0) | 2024.06.23 |
[RL] 강화 학습(Reinforcement Learning) (0) | 2024.06.23 |