Causal Inference - Part 1
Contents
- 상관관계 & 인과관계
- 주요 용어
- 인과 추론의 어려움
- RCT (Randomized Controlled Trial)
- 관측 데이터 기반 인과 추론 기법
- 매칭 (Matching)
- 회귀 (Regression Adjustment)
- 도구 변수 (Instrumental Variables, IV)
- 이중차분법 (Difference-in-Differences, DiD)
1. 상관관계 & 인과관계
- 상관관계: 두 변수 간의 관계가 있음
- 인과관계: 한 변수가 다른 변수의 원인이 됨
2. 주요 용어
-
Treatment (처치): “원인”으로 간주되는 변수
- ex) 신약 투여 여부
-
Outcome (결과): “결과로” 보고자 하는 변수
- ex) 환자의 회복 여부
-
Confounder (공통 원인): 처치와 결과 모두에 영향을 미치는 변수
-
통제하지 않으면 인과 효과가 왜곡될 수 있음
-
ex) 건강 상태는 신약 복용 여부와 회복률 모두에 영향을 미침
-
-
Counterfactual (반사실적 결과): 한 개인이 처치를 받지 않았더라면 혹은 받았더라면 생겼을 결과
- ex) 어떤 환자가 신약을 복용하고 회복했다면, 그는 복용하지 않았을 때 어떻게 되었을까?를 상상
3. 인과 추론의 어려움
반사실을 알 수 없음
- i.e., 한 개인에 대해 두 개의 세계 (처치를 받은 경우, 받지 않은 경우)를 동시에 관찰 불가
해결책
- 통제된 실험(Randomized Controlled Trial, RCT)
- 관측 데이터 기반의 방법들 (예: 매칭, 회귀, 도구 변수, 이중차분 등)
(1) RCT
이상적인 인과 추론 방법
- 실험 참가자를 “무작위로 나누어” 처치를 받게/받지않게 함
- 효과: confounder(혼란변수)를 자동으로 통제할 수 있음
(2) 관측 데이터에서 인과 추론
- 매칭 (Matching): 유사한 사람끼리 비교
- 회귀분석 (Regression): 혼란변수를 통제한 선형모델 추정
- 도구변수 (Instrumental Variable): 처치에 영향을 주지만 결과에는 직접 영향을 주지 않는 변수 활용
- 이중차분 (Difference-in-Differences): 시간 전후 변화 비교
- 경계값 회귀 (Regression Discontinuity): 특정 기준선 근처의 데이터를 이용해 인과 추론
4. RCT (Randomized Controlled Trial)
RCT의 효과: confounder(혼란변수)를 자동으로 통제
→ How? 무작위 배정(random assignment)
- 무작위 배정이, 처치 (Treatment) 여부 & confounder 간의 상관관계를 끊어주기 때문
Confounder 복습
- 정의: “처치(Treatment)”와 “결과(Outcome)” 모두에 영향을 미치는 변수
- 통제 못하면 왜곡 가능성!
- 처치가 실제보다 효과가 있어/없어 보일 수도 있음
- RCT의 해결: 참가자를 무작위로 처치군과 대조군에 배정
무작위 배정
-
confounder가 두 그룹에 균등하게 분포할 “확률”이 높아짐
→ 표본 수가 많아질수록, 이 확률이 거의 확실에 가까워짐
-
따라서, 결국 confounder의 영향이 상쇄되고 무시해도 되는 수준이 되는 것!
5. 관측 데이터 기반 인과 추론
(1) 매칭 (Matching)
-
a) 목표: 무작위 실험처럼 비슷한 사람들끼리 비교
- 처치를 받은 사람과 유사한 특성을 가진 처치받지 않은 사람을 짝지어 비교
-
b) 대표적인 방법론
-
Nearest Neighbor Matching (가장 가까운 사람과 짝짓기)
-
Propensity Score Matching (처치를 받을 확률이 비슷한 사람끼리 짝짓기)
-
-
c) 장점
-
직관적이고 설명이 쉬움
-
복잡한 모형 가정이 없어도 됨
-
-
d) 단점
-
고차원 특성에서는 “비슷한 사람” 찾기가 어려움
-
짝을 못 찾는 데이터는 버림 → 표본 손실
-
(2) 회귀 (Regression Adjustment)
- a) 목표: 처치와 결과 간 관계를 통계 모델(선형 회귀 등)로 추정
-
b) 핵심: “confounder를 함께 포함“해서 통제
- c) 예시
회복률 = β₀ + β₁*(신약 복용) + β₂*(나이) + β₃*(건강 상태) + ...
- β₁이 신약의 인과 효과 (다른 변수 “통제 후”의 순수한 효과)
-
d) 장점
-
통제하고 싶은 변수들을 모두 포함 가능
-
변수 간 영향도 수치화 가능
-
-
e) 단점
-
모형이 잘못되면 추정이 왜곡됨 (예: 비선형 효과인데 선형 모델 사용)
-
변수 간 상호작용을 놓치면 편향 발생
-
(3) 도구 변수 (Instrumental Variables, IV)
- a) 목표:
- 처치(Treatment)에 영향을 주지만
- 결과(Outcome)에 직접 영향을 주지 않는
- 제3의 변수(도구)를 이용해 인과 효과 추정
-
b) 예시: 신약 복용 여부는 의사의 성향에 따라 결정
-
의사 A: 신약을 자주 처방
-
의사 B: 신약 처방을 거의 안 함
( 하지만 의사의 성향이 직접 환자의 회복에는 영향을 주지 않음 )
-
- c) 장점
- 통제 불가능한 confounder가 있을 때도 인과 추정 가능
- d) 단점
- 좋은 도구 변수 찾기 매우 어려움
- 도구가 약하면(instrument가 treatment를 약하게 설명하면) 추정 불안정
- e) Summary
요소 | 의미 |
---|---|
X | 처치 (예: 신약 복용) |
Y | 결과 (예: 회복 여부) |
ε | confounder 영향 포함된 오차 |
Z | 도구 변수: X에는 영향을 주지만 Y에는 직접 영향 없는 변수 |
2SLS | Z → X → Y 경로만 따라 인과 효과 추정 |
(4) 이중차분법 (Difference-in-Differences, DiD)
- a) 목표: 정책 개입 전후의 변화를 실험군과 통제군 모두에서 비교
- b) 예시
- 실험군: 신약 도입 O한 병원
- 통제군: 신약 도입 X한 병원
병원 | 2019 회복률 | 2021 회복률 | 변화량 |
---|---|---|---|
병원 A (신약) | 60% | 80% | +20% |
병원 B (비신약) | 60% | 65% | +5% |
→ 순수한 신약 효과 = 20% - 5% = 15% |
-
c) 장점
-
시간 흐름에 따라 confounder가 고정되어 있을 때 효과적
-
비교적 간단하고 강력한 정책평가 도구
-
-
d) 단점
-
두 집단이 동일한 추세(Parallel Trend)를 따른다는 가정 필요
(도입 전의 변화가 비슷해야 함)
-
외부 충격이 한 집단에만 영향 줬다면 편향 가능
-
(5) Summary
방법 | 언제 사용하나 | 전제 조건 | 장점 | 단점 |
---|---|---|---|---|
매칭 | 유사한 비교 대상을 찾을 수 있을 때 | 유사한 특성 변수 필요 | 직관적 | 고차원에 약함 |
회귀 | confounder가 잘 관측될 때 | 모형이 잘 지정되어야 함 | 유연함 | 모형 의존 |
도구 변수 | 관측되지 않은 confounder가 있을 때 | 좋은 도구 변수 필요 | 숨은 편향 제거 가능 | 도구 찾기 어려움 |
이중차분 | 시간 전후 비교가 가능할 때 | 평행추세 가정 | 간단하고 강력 | 외부 충격 민감 |