# 1. 베이지안 이론 (Bayesian Theory)

빈도 확률 (Frequentist Probability) VS 베이지안 확률 (Bayesian Probability)

빈도 확률 (Frequentist Probability)
- 동전의 앞면이 나올 확률은 몇일지 궁금하다고 가정한다.
- 10번을 던져서 4번이 앞면이 나온경우 0.4의 확률을 가지고
- 더 높은 신뢰도를 위해 100번을 던져서 45번이 앞면이 나온 경우 0.45로 생각할 수 있다.
- 이러한 수행을 반복하여 빈도(Frequency)를 측정하여 빈도 확률을 계산할 수 있다.
베이지안 확률 (Bayesian Probability)
- 하지만, 현실에서는 동전을 던지는 것만큼 간단하게 수행할 수 없는 현상들이 존재한다.
- 이렇게 일어나지 않은 사건에 대한 확률을 추정하는 것이 베이지안 확률이다.

베이즈 정리 (Bayesian Probability Definition)

베이지안 확률은 일어나지 않은 사건에 대한 조건부확률을 추정하는 것이라고 했다.
정확하는 특정 데이터가 주어졌을 때를 기반으로 특정 클래스를 분류(Classification)하는 조건부확률을 구하는데에 용이하다.
- 이진 분류(Binary Classification) 혹은 멀티 클래스 분류(Multi-Class Classification)
베이즈 정의의 유도 과정은 다음과 같다.
- $P(A|B) = \frac{P(A \cap B)}{P(B)} \rightarrow P(A \cap B) = P(A|B)P(B)$
- $P(B|A) = \frac{P(A \cap B)}{P(A)} \rightarrow P(A \cap B) = P(B|A)P(A)$
- $P(A|B)P(B) = P(B|A)P(A) \rightarrow P(A|B) = \frac{P(B|A)P(A)}{P(B)}$
- $P(A|B) = \frac{P(B|A)P(A)}{P(B)} \rightarrow Posterior\ Probability = \frac{Likelihood \times Prior\ Probability}{Evidence}$
  - $P(A)$ 는 사전 확률(Prior Probability)라고 불리며, 특정 공간 B가 정해지기 이전에 미리 정의된 사건 A에 대한 확률을 의미한다.
  - $P(B|A)$ 는 우도(Likelihood)라고 불리며, 사건 A가 특정 공간 B에 나타날 확률을 의미한다.
  - $P(A|B)$ 는 사후 확률(Posterior Probability)라고 불리며, 특정 공간 B가 정해지고 난 뒤에 사건 A가 발생할 확률을 의미한다.
  - $P(B)$ 는 관찰값(Evidence)라고 한다.

이제 베이즈 정리를 이진 분류에 맞게끔 수식을 유도해보자.
- 사건 A가 발생했냐 안했냐의 여부에 따라 경우의 수는 2가지 $A$ 와 $A^c$ 가 있을 것이다.
- 고로, $P(B)$ 는 다음과 같이 정의될 수 있다.
  - $P(B) = P(B \cap A) + P(B \cap A^c) = P(A \cap B) + P(A^c \cap B)$
- 유도된 $P(B)$ 를 사후 확률 수식에 대입하면 다음과 같이 변형할 수 있다.
  - $P(A|B) = \frac{P(B|A)P(A))}{P(A \cap B) + P(A^c \cap B)} = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}$

베이즈 정리의 이진 분류 예시를 들어보자.
- 일반 여성의 유방암의 발병률은 0.1%라고 합니다. 유방암 검사는 실제 유방암에 걸린 사람의 99%에 대해서 양성반응을 나타내고, 건강한 사람에 대해서는 2%만이 양성반응을 보입니다. 이때 어떤 사람의 검사 결과가 양성 반응을 보였다면 이 사람이 실제로 유방암에 걸렸을 확률은 얼마일까요?
- 유방암 발병하는 사건을 A, 양성반응이 나타나는 사건을 B라고 하자.
- 일반 여성의 유방암의 발병률은 0.1%라고 합니다.
  - $\rightarrow$ 사전 확률에 해당하며, $P(A)=0.001$
- 유방암 검사는 실제 유방암에 걸린 사람의 99%에 대해서 양성반응을 나타내고
  - $\rightarrow$ 우도에 해당하며, $P(B|A)=0.99$
- 건강한 사람에 대해서는 2%만이 양성반응을 보입니다.
  - $\rightarrow$ 반대 사건에 대한 우도에 해당하며, $P(B|A^c)=0.02$
- 이때 어떤 사람의 검사 결과가 양성 반응을 보였다면 이 사람이 실제로 유방암에 걸렸을 확률은 얼마일까요?
  - $\rightarrow$ 최종적으로, $P(A|B)$ 조건부확률을 묻는 문제이다.
- 위에서 유도한 베이즈 정리 수식에 예제에서 얻어낸 정보들을 대입해보자.
  - $P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}$
  - $= \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.02 \times (1 - 0.001)} = \frac{0.00099}{0.00099 + 0.01998} = \frac{0.00099}{0.02097} = 0.0472$

마지막으로 베이즈 정리를 멀티 클래스 분류에 맞게끔 수식을 유도해보자.
- 이진 분류에서 최종적으로 유도된 수식은 다음과 같다.
  - $P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}$
- 이를 일반화 하면 다음과 같이 수식을 변형할 수 있다.
  - $P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_j{P(B|A_j)}P(A_j)}$
- 여기서 날카로운 분들은 눈치챘겠지만 사건 $A_j$ 들은 서로 베타적이며 전부 합했을 때, 표본 집단의 공간을 이룬다.
  - $A_j \cap A_k = \emptyset$
- 머신러닝 관점으로 해석하면 $A_i$ 들은 분류해야할 클래스들로 해석할 수 있다.

'[Mathematics] - Statistical' 카테고리의 다른 글

# 0. 기초통계 - 확률, 우도, 조건부확률 (0)	2023.06.09

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

뱁새zip

# 1. 베이지안 이론 (Bayesian Theory)

빈도 확률 (Frequentist Probability) VS 베이지안 확률 (Bayesian Probability)

베이즈 정리 (Bayesian Probability Definition)

'[Mathematics] - Statistical' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

# 1. 베이지안 이론 (Bayesian Theory)

빈도 확률 (Frequentist Probability) VS 베이지안 확률 (Bayesian Probability)

베이즈 정리 (Bayesian Probability Definition)

'[Mathematics] - Statistical' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역