조건부 확률이란?

베이즈 통계학을 이해하기 위해서는 조건부 확률의 개념을 이해해야 한다. 조건부 확률 $P(A|B)$ 는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.

조건부 확률을 계산하는 방법은 두 개의 사건 A와 B가 있을 때 두 사건의 교집합이 일어날 확률을 특정 사건으로 나눠주게 되면 계산할 수 있다.
이 수식을 다음과 같이 정리하면 베이즈 정리를 유도할 수가 있고, 조건부 확률을 이용해서 정보를 갱신하는 방법을 알 수 있다.

베이즈 정리: 예제

베이즈 정리는 다음과 같은 용어로 구별할 수 있다.

데이터가 주어졌을 때 파라미터 $\theta$ 가 성립할 확률을 사후확률이라 부른다.
사전확률은 데이터가 주어지지 않은 상황에서 즉, 모델링을 하기 이전 사전에 주어진 파라미터 $\theta$ 에 대한 확률이다. 모델링 하고자 하는 타겟에 대해서 사전에 가설로 깔아둔 확률분포라고 이해하면 된다.
가능도는 주어진 파라미터 $\theta$ 가정에서 데이터가 관찰될 확률들을 계산한 것이다.
Evidence는 데이터 자체의 분포를 의미한다.
이 가능도와 Evidence를 통해서 사전확률을 사후확률로 업데이트할 수 있게 된다.

(문제) COVID-99의 발병률이 10%</u>로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?

발병률이 10%를 사전확률 $P(\theta) = 0.1$ 로 정의할 수 있다.
실제로 걸렸을 경우가 $\theta$ , 검진된 확률 즉 검진된 경우로 관찰이 된 경우를 $\mathcal{D}$ 라고 표시 했을 때 $P(\mathcal{D}|\theta) = 0.99$ 이다.
반대로 실제로 걸리지 않았을 때( $\theta$ 가 아닌 상황에서)는 $P(\mathcal{D}|ㄱ\theta) = 0.99$ 이다. 여기서 $ㄱ$ 은 부정을 표시하는 것이다.
Evidience를 계산할때는 주변확률분포를 계산하는 방식( $P(X)=\sum_yP(X,y)$ )과 조건부확률을 이용하여 다음과 같이 정리할 수 있다.
마지막으로 주어진 값들을 이용해서 사후확률을 계산할 수 있다.