Simpson’s Paradox - 통계의 거짓말

2025. 2. 19. 11:33·🤖 ai logbook
728x90
반응형

Simpson’s Paradox - 통계의 거짓말

 

데이터 분석에 있어서, 숫자가 항상 진실을 말하는 것은 아니다.

이러한 현상을 대표적으로 보여주는 것이 심슨의 역설(Simpson’s Paradox)이다.

이는 전체 데이터를 봤을 때 나타나는 경향이 세부 그룹을 분석하면 반대로 나타나게 되는 현상으로,

1951년 에드워드 심슨(Edward H. Simpson)이 논문 "The Interpretation of Interaction in Contingency Tables"에서 처음 설명했다.

이 역설은 데이터를 해석할 때 단순한 집계 수치에 의존하지 않고, 하위 그룹 분석을 수행하여 정확한 의사 결정을 도출하는 것이 중요하다는 것을 말해준다.

 

 

Simpson’s Paradox?

예시 1. 신장결석 치료법에 관한 의학 연구

  Open Surgery Percutaneous Nephrolithotomy
Stone diameter < 2 cm 81/87 (93.1%) 234/270 (86.7%)
Stone diameter ≥ 2 cm 192/263 (73.0%) 55/80 (68.8%)
All stones (aggregate) 273/350 (78.0%) 289/350 (82.6%)

 

해당 테이블을 살펴보면, All stones만 봤을 때에는 Percutaneous Nephrolithotomy 치료법이 전체적으로 더 효과적인 것처럼 보인다.

하지만, 돌 크기별(< 2cm, >= 2cm)로 데이터를 살펴보면, Open Surgery 치료법이 작은 결석과 큰 결석 모두에게서 더 효과적인 것으로 나타났다.

Open Surgery 치료법이 더 크고 심각한 결석을 가진 환자들에게 주로 사용되었기 때문에 전체적인 성공률이 왜곡되어 버린 것이다.

 

예시 2. UC 버클리 성차별 사건

Department All Men Women
Applicants Admitted Applicants Admitted Applicants Admitted
A 933 64% 825 62% 108 82%
B 585 63% 560 63% 25 68%
C 918 35% 325 37% 593 34%
D 792 34% 417 33% 375 35%
E 584 25% 191 28% 393 24%
F 714 6% 373 6% 341 7%
Total 4526 39% 2691 45% 1835 30%

 

1973년 UC 버클리 대학원 입학 데이터에서도 유사한 사례를 발견할 수 있다.

전체 합격률을 확인해봤을때, 남성 지원자의 합격률이 여성보다 높아 성차별 논란이 있었다.

그러나, 학과별로 데이터를 다시 분석한 결과 대부분의 학과에서 여성의 합격률이 더 높았음을 확인할 수 있었다.

 

왜 이런 일이 발생했을까?

혼재변수(Confounding Variables)

혼재변수는 독립변수와 종속변수 모두에 영향을 미쳐 잘못된 연관성을 만들어낼 수 있는 숨겨진 요인을 말한다.

예시 1. 신장결석 치료법에 관한 의학 연구 에서는 결석의 크기가,

예시 2. UC 버클리 성차별 사건 에서는 학과 선택의 차이가 혼재변수였다고 할 수 있다.

728x90
반응형

'🤖 ai logbook' 카테고리의 다른 글

[paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델  (0) 2025.04.27
[paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델  (1) 2025.04.24
[paper, NeurIPS 2022] Earthformer : 시공간 Transformer 기반 기상·기후 예측 모델  (0) 2025.04.16
[paper, NeurIPS 2023] CrossViViT : 시공간 정보를 활용한 태양복사량 시계열 예측 모델  (0) 2025.04.12
[paper] DeepSeek-R1 정리 및 Ollama를 이용해서 DeepSeek-R1 모델 간단하게 사용해보기  (0) 2025.02.10
[RL] MDP - Bellman equation  (0) 2024.06.25
[RL] 마르코프 결정 과정 (Markov decision processes, MDP)  (0) 2024.06.23
[RL] 강화 학습(Reinforcement Learning)  (0) 2024.06.23
'🤖 ai logbook' 카테고리의 다른 글
  • [paper, NeurIPS 2022] Earthformer : 시공간 Transformer 기반 기상·기후 예측 모델
  • [paper, NeurIPS 2023] CrossViViT : 시공간 정보를 활용한 태양복사량 시계열 예측 모델
  • [paper] DeepSeek-R1 정리 및 Ollama를 이용해서 DeepSeek-R1 모델 간단하게 사용해보기
  • [RL] MDP - Bellman equation
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (217)
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (67)
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    빅데이터분석기사
    방통대
    IBM
    데이터사이언스 입문
    자격증
    법학과
    기본권의기초이론
    ADsP
    형법
    deeplearning
    근로기준법
    Python
    민법
    머신러닝
    온라인 강의 추천
    인공지능 입문
    데이터분석준전문가
    certificate
    datascience
    Coursera
  • hELLO· Designed By정상우.v4.10.3
이소야
Simpson’s Paradox - 통계의 거짓말
상단으로

티스토리툴바