[통계 기초] 관측 연구(Observational Study)와 실험 연구(Experiment)의 차이 및 분석 기법

1. 실험 연구 vs. 관측 연구
연구 유형 | 설명 | 목적 |
실험(Experiment) | 연구자가 실험 참가자를 임의로 다양한 조건하에 배치하여 설명 변수(Explanatory Variable)가 반응 변수(Response Variable)에 미치는 영향을 분석 | 인과성(Causality) 검증 |
관측 연구(Observational Study) | 연구자가 자료를 단순히 관찰하여 수집하며, 자료 생성 과정에는 개입하지 않음 | 연관성(Association) 분석 |
⚠️ 중요한 개념:
연관성(Association)은 인과성(Causation)을 의미하는 것이 아니다!
(예: 아이스크림 판매량 증가와 익사 사고 증가 → 둘 다 여름철과 관련 있음)
2. 연구 진행 방식에 따른 분류
(1) 전향적 연구 (Prospective Study)
미래 데이터를 추적 관찰하면서 정보를 얻음.
예시:
- 비만이 질병에 미치는 영향을 연구하기 위해 117,700명의 간호사를 현재 비만 여부(BMI)로 그룹화한 후 미래에 질병이 얼마나 발생하는지 추적 관찰.
👉 특징
✅ 실험 연구 & 관측 연구 모두 적용 가능
✅ 시간이 오래 걸리지만, 인과관계 분석이 상대적으로 용이
(2) 후향적 연구 (Retrospective Study)
이미 발생한 사건의 데이터를 분석하는 방식.
예시:
- 폐암 환자 500명과 건강한 500명을 조사하여 과거 흡연 여부를 확인하여 폐암과 흡연의 연관성을 분석.
👉 특징
✅ 빠르게 연구 가능하지만, 인과성 증명 어려움
✅ 주로 관측 연구에서 사용
✅ 편향(Bias)이 개입될 가능성이 높음
3. 연관성(Association)과 인과성(Causation)의 차이
연관성(Association): 두 변수가 통계적으로 관련이 있지만, 원인-결과 관계를 의미하지는 않음.
인과성(Causation): 한 변수가 다른 변수에 직접적인 영향을 준다는 것을 의미.
✅ 예시
연관성: 아이스크림 판매량이 증가하면 익사 사고도 증가 → 하지만 인과성 없음(여름이라는 공통 요인 때문)
인과성: 흡연 → 폐암 발병 (1950년대 리처드 돌 & 오스틴 힐 연구)
➡ 연관성은 인과성을 증명하는 중간 과정일 수 있지만, 추가적인 실험 연구가 필요함.
4. 관측 연구 사례 분석
(1) 심근경색 예방 약의 효능 연구
실험 개요
대상: 심장질환이 있는 8,341명의 중년 남성
설계: 실험군(5,552명) & 대조군(2,789명) 무작위 할당
조건: 실험군 → 심근경색약(Colfibrate), 대조군 → 위약(Placebo) 복용
결과
그룹 | 사망률 |
실험군 (약 복용자) | 20% |
대조군 (위약 복용자) | 21% |
➡ 약의 효과가 미미함을 보임.
(2) 추가 분석: 약 복용 습관과 사망률의 관계 (관측 연구)
➡ 결론
Colfibrate는 효과 없음 (실험 연구 결과)
약을 꾸준히 복용하는 사람은 사망률이 낮음 (관측 연구 결과)
→ 하지만, 이는 "약 때문"이 아니라 "건강 관리 습관이 좋은 사람"의 특성 때문일 가능성이 있음.
5. 심슨의 역설 (Simpson's Paradox)
1970년대 버클리 대학 대학원 입시 성차별 문제
남학생 합격률: 44%, 여학생 합격률: 30%
→ "여학생이 차별을 받는다?" 라고 결론 내릴 수 있을까?
학과별 분석
➡ 실제 원인:
남학생은 합격률이 높은 학과(A, B)에 많이 지원
여학생은 합격률이 낮은 학과(C, D, E)에 많이 지원
즉, 성차별이 아니라 "선택한 학과의 차이" 때문
심슨의 역설(Simpson’s Paradox)
전체 데이터를 보면 남학생 합격률이 높음.
하지만 개별 학과별로 보면 여학생 합격률이 더 높음!
→ 제3의 변수(학과 선호도 차이)에 의해 전체 결론이 왜곡되는 현상.
6. 교락 효과 (Confounder Effect)
교락 요인(Confounder)이란?
- 반응 변수(결과)와 설명 변수(요인) 모두에 영향을 미치는 숨겨진 변수.
✅ 버클리 대학 사례에서 교락 요인
설명 변수: 성별 (남/여)
반응 변수: 대학원 합격 여부 (합격/불합격)
교락 요인: 학과 (지원 학과에 따라 합격률 차이 발생)
➡ 교락 요인을 통제하지 않으면 데이터 해석이 잘못될 수 있음!
7. 교락 요인을 통제하는 방법
서브그룹 분석 (Subgroup Analysis)
- 교락 요인(학과)에 따라 그룹을 나눈 후 성별 영향을 따로 분석.
가중 평균 (Weighted Average)
- 전체 지원자의 학과별 비율을 가중치로 사용하여 성별 합격률을 다시 계산.
✅ 예제: 남학생 가중 합격률 계산
➡ 실제 남학생의 가중 합격률은 39% → 44%보다 낮음
➡ 실제 여학생의 가중 합격률은 43% → 30%보다 높음! (차별이 아니다!)
8. 결론
실험 연구는 인과관계를 검증할 수 있지만, 관측 연구는 연관성만 분석 가능.
연관성이 있다고 해서 인과성이 있는 것은 아니다.
심슨의 역설처럼 숨겨진 변수가 결론을 바꿀 수 있다.
교락 효과를 통제하기 위해 서브그룹 분석과 가중 평균을 활용해야 한다.
Subscribe to my newsletter
Read articles from KiwiChip directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by

KiwiChip
KiwiChip
I'm currently learning Python and studying RAG (Retrieval-Augmented Generation).