베이즈 통계학 기초
조건부 확률이란?
베이즈 통계학을 이해하기 위해서는 조건부 확률의 개념을 이해해야 한다. 조건부 확률 $P(A|B)$
는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
조건부 확률을 계산하는 방법은 두 개의 사건 A와 B가 있을 때 두 사건의 교집합이 일어날 확률을 특정 사건으로 나눠주게 되면 계산할 수 있다.
이 수식을 다음과 같이 정리하면 베이즈 정리를 유도할 수가 있고, 조건부 확률을 이용해서 정보를 갱신하는 방법을 알 수 있다.
베이즈 정리: 예제
베이즈 정리는 다음과 같은 용어로 구별할 수 있다.
데이터가 주어졌을 때 파라미터
$\theta$
가 성립할 확률을 사후확률이라 부른다.사전확률은 데이터가 주어지지 않은 상황에서 즉, 모델링을 하기 이전 사전에 주어진 파라미터
$\theta$
에 대한 확률이다. 모델링 하고자 하는 타겟에 대해서 사전에 가설로 깔아둔 확률분포라고 이해하면 된다.가능도는 주어진 파라미터
$\theta$
가정에서 데이터가 관찰될 확률들을 계산한 것이다.Evidence는 데이터 자체의 분포를 의미한다.
이 가능도와 Evidence를 통해서 사전확률을 사후확률로 업데이트할 수 있게 된다.
(문제) COVID-99의 발병률이 10%</u>로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
발병률이 10%를 사전확률
$P(\theta) = 0.1$
로 정의할 수 있다.실제로 걸렸을 경우가
$\theta$
, 검진된 확률 즉 검진된 경우로 관찰이 된 경우를$\mathcal{D}$
라고 표시 했을 때$P(\mathcal{D}|\theta) = 0.99$
이다.반대로 실제로 걸리지 않았을 때(
$\theta$
가 아닌 상황에서)는$P(\mathcal{D}|ㄱ\theta) = 0.99$
이다. 여기서$ㄱ$
은 부정을 표시하는 것이다.Evidience를 계산할때는 주변확률분포를 계산하는 방식(
$P(X)=\sum_yP(X,y)$
)과 조건부확률을 이용하여 다음과 같이 정리할 수 있다.마지막으로 주어진 값들을 이용해서 사후확률을 계산할 수 있다.
만약 실제로 걸리지 않았을 때, 즉 1종 오류가 0.1%로 오르게 되면 다음과 같이 된다.
즉, 베이즈 정리를 통해 알 수 있는 것은 1종 오류가 오르게 되면 이 테스트의 정밀도 precision가 떨어지는 것을 관찰할 수 있다.
여기서 precision은 실제 질병에 걸렸다고 양성이 나왔을 때 이 병에 걸렸을 확률이다.
위 결과를 confusion matrix로 정리하면 다음과 같다.
데이터 분석의 성격에 따라 1종 오류를 줄일지 2종 오류를 줄일지가 민감하다.
질병이 아니라고 판정을 내렸을 때 실제 질병인 2종 오류는 의료 문제에서 굉장히 타격이 큰 문제이다.
베이즈 정리를 통한 정보의 갱신
새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99 에 걸렸을 확률은?
- 이렇게 데이터가 새로 들어올 때마다 사후 환경을 업데이트 할 수 있는 장점이 있다.
조건부 확률은 인과관계?
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안된다.
- 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
- 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
참고자료
Subscribe to my newsletter
Read articles from Sunghoon Kim directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by