Causal Inference - Part 1

Contents

  1. 상관관계 & 인과관계
  2. 주요 용어
  3. 인과 추론의 어려움
  4. RCT (Randomized Controlled Trial)
  5. 관측 데이터 기반 인과 추론 기법
    1. 매칭 (Matching)
    2. 회귀 (Regression Adjustment)
    3. 도구 변수 (Instrumental Variables, IV)
    4. 이중차분법 (Difference-in-Differences, DiD)


1. 상관관계 & 인과관계

  • 상관관계: 두 변수 간의 관계가 있음
  • 인과관계: 한 변수가 다른 변수의 원인이 됨


2. 주요 용어

  • Treatment (처치): “원인”으로 간주되는 변수

    • ex) 신약 투여 여부
  • Outcome (결과): “결과로” 보고자 하는 변수

    • ex) 환자의 회복 여부
  • Confounder (공통 원인): 처치와 결과 모두에 영향을 미치는 변수

    • 통제하지 않으면 인과 효과가 왜곡될 수 있음

    • ex) 건강 상태는 신약 복용 여부와 회복률 모두에 영향을 미침

  • Counterfactual (반사실적 결과): 한 개인이 처치를 받지 않았더라면 혹은 받았더라면 생겼을 결과

    • ex) 어떤 환자가 신약을 복용하고 회복했다면, 그는 복용하지 않았을 때 어떻게 되었을까?를 상상


3. 인과 추론의 어려움

반사실을 알 수 없음

  • i.e., 한 개인에 대해 두 개의 세계 (처치를 받은 경우, 받지 않은 경우)를 동시에 관찰 불가


해결책

  • 통제된 실험(Randomized Controlled Trial, RCT)
  • 관측 데이터 기반의 방법들 (예: 매칭, 회귀, 도구 변수, 이중차분 등)


(1) RCT

이상적인 인과 추론 방법

  • 실험 참가자를 “무작위로 나누어” 처치를 받게/받지않게 함
  • 효과: confounder(혼란변수)를 자동으로 통제할 수 있음


(2) 관측 데이터에서 인과 추론

  • 매칭 (Matching): 유사한 사람끼리 비교
  • 회귀분석 (Regression): 혼란변수를 통제한 선형모델 추정
  • 도구변수 (Instrumental Variable): 처치에 영향을 주지만 결과에는 직접 영향을 주지 않는 변수 활용
  • 이중차분 (Difference-in-Differences): 시간 전후 변화 비교
  • 경계값 회귀 (Regression Discontinuity): 특정 기준선 근처의 데이터를 이용해 인과 추론


4. RCT (Randomized Controlled Trial)

RCT의 효과: confounder(혼란변수)를 자동으로 통제

→ How? 무작위 배정(random assignment)

  • 무작위 배정이, 처치 (Treatment) 여부 & confounder 간의 상관관계를 끊어주기 때문


Confounder 복습

  • 정의: “처치(Treatment)”와 “결과(Outcome)” 모두에 영향을 미치는 변수
  • 통제 못하면 왜곡 가능성!
    • 처치가 실제보다 효과가 있어/없어 보일 수도 있음
  • RCT의 해결: 참가자를 무작위로 처치군과 대조군에 배정


무작위 배정

  • confounder가 두 그룹에 균등하게 분포할 “확률”이 높아짐

    표본 수가 많아질수록, 이 확률이 거의 확실에 가까워짐

  • 따라서, 결국 confounder의 영향이 상쇄되고 무시해도 되는 수준이 되는 것!


5. 관측 데이터 기반 인과 추론

(1) 매칭 (Matching)

  • a) 목표: 무작위 실험처럼 비슷한 사람들끼리 비교

    • 처치를 받은 사람과 유사한 특성을 가진 처치받지 않은 사람을 짝지어 비교
  • b) 대표적인 방법론

    • Nearest Neighbor Matching (가장 가까운 사람과 짝짓기)

    • Propensity Score Matching (처치를 받을 확률이 비슷한 사람끼리 짝짓기)

  • c) 장점

    • 직관적이고 설명이 쉬움

    • 복잡한 모형 가정이 없어도 됨

  • d) 단점

    • 고차원 특성에서는 “비슷한 사람” 찾기가 어려움

    • 짝을 못 찾는 데이터는 버림 → 표본 손실


(2) 회귀 (Regression Adjustment)

  • a) 목표: 처치와 결과 간 관계를 통계 모델(선형 회귀 등)로 추정
  • b) 핵심: “confounder를 함께 포함“해서 통제

  • c) 예시
    • 회복률 = β₀ + β₁*(신약 복용) + β₂*(나이) + β₃*(건강 상태) + ...
    • β₁이 신약의 인과 효과 (다른 변수 “통제 후”의 순수한 효과)
  • d) 장점

    • 통제하고 싶은 변수들을 모두 포함 가능

    • 변수 간 영향도 수치화 가능

  • e) 단점

    • 모형이 잘못되면 추정이 왜곡됨 (예: 비선형 효과인데 선형 모델 사용)

    • 변수 간 상호작용을 놓치면 편향 발생


(3) 도구 변수 (Instrumental Variables, IV)

  • a) 목표:
    • 처치(Treatment)에 영향을 주지만
    • 결과(Outcome)에 직접 영향을 주지 않는
    • 제3의 변수(도구)를 이용해 인과 효과 추정
  • b) 예시: 신약 복용 여부는 의사의 성향에 따라 결정

    • 의사 A: 신약을 자주 처방

    • 의사 B: 신약 처방을 거의 안 함

      ( 하지만 의사의 성향이 직접 환자의 회복에는 영향을 주지 않음 )

  • c) 장점
    • 통제 불가능한 confounder가 있을 때도 인과 추정 가능
  • d) 단점
    • 좋은 도구 변수 찾기 매우 어려움
    • 도구가 약하면(instrument가 treatment를 약하게 설명하면) 추정 불안정
  • e) Summary
요소 의미
X 처치 (예: 신약 복용)
Y 결과 (예: 회복 여부)
ε confounder 영향 포함된 오차
Z 도구 변수: X에는 영향을 주지만 Y에는 직접 영향 없는 변수
2SLS Z → X → Y 경로만 따라 인과 효과 추정


(4) 이중차분법 (Difference-in-Differences, DiD)

  • a) 목표: 정책 개입 전후의 변화를 실험군과 통제군 모두에서 비교
  • b) 예시
    • 실험군: 신약 도입 O한 병원
    • 통제군: 신약 도입 X한 병원
병원 2019 회복률 2021 회복률 변화량
병원 A (신약) 60% 80% +20%
병원 B (비신약) 60% 65% +5%
→ 순수한 신약 효과 = 20% - 5% = 15%      
  • c) 장점

    • 시간 흐름에 따라 confounder가 고정되어 있을 때 효과적

    • 비교적 간단하고 강력한 정책평가 도구

  • d) 단점

    • 두 집단이 동일한 추세(Parallel Trend)를 따른다는 가정 필요

      (도입 전의 변화가 비슷해야 함)

    • 외부 충격이 한 집단에만 영향 줬다면 편향 가능


(5) Summary

방법 언제 사용하나 전제 조건 장점 단점
매칭 유사한 비교 대상을 찾을 수 있을 때 유사한 특성 변수 필요 직관적 고차원에 약함
회귀 confounder가 잘 관측될 때 모형이 잘 지정되어야 함 유연함 모형 의존
도구 변수 관측되지 않은 confounder가 있을 때 좋은 도구 변수 필요 숨은 편향 제거 가능 도구 찾기 어려움
이중차분 시간 전후 비교가 가능할 때 평행추세 가정 간단하고 강력 외부 충격 민감

Categories: ,

Updated: