빈도 확률 (Frequentist Probability) VS 베이지안 확률 (Bayesian Probability)
- 빈도 확률 (Frequentist Probability)
- 동전의 앞면이 나올 확률은 몇일지 궁금하다고 가정한다.
- 10번을 던져서 4번이 앞면이 나온경우 0.4의 확률을 가지고
- 더 높은 신뢰도를 위해 100번을 던져서 45번이 앞면이 나온 경우 0.45로 생각할 수 있다.
- 이러한 수행을 반복하여 빈도(Frequency)를 측정하여 빈도 확률을 계산할 수 있다.
- 베이지안 확률 (Bayesian Probability)
- 하지만, 현실에서는 동전을 던지는 것만큼 간단하게 수행할 수 없는 현상들이 존재한다.
- 이렇게 일어나지 않은 사건에 대한 확률을 추정하는 것이 베이지안 확률이다.

베이즈 정리 (Bayesian Probability Definition)
- 베이지안 확률은 일어나지 않은 사건에 대한 조건부확률을 추정하는 것이라고 했다.
- 정확하는 특정 데이터가 주어졌을 때를 기반으로 특정 클래스를 분류(Classification)하는 조건부확률을 구하는데에 용이하다.
- 이진 분류(Binary Classification) 혹은 멀티 클래스 분류(Multi-Class Classification)
- 베이즈 정의의 유도 과정은 다음과 같다.
- P(A|B)=P(A∩B)P(B)→P(A∩B)=P(A|B)P(B)P(A|B)=P(A∩B)P(B)→P(A∩B)=P(A|B)P(B)
- P(B|A)=P(A∩B)P(A)→P(A∩B)=P(B|A)P(A)P(B|A)=P(A∩B)P(A)→P(A∩B)=P(B|A)P(A)
- P(A|B)P(B)=P(B|A)P(A)→P(A|B)=P(B|A)P(A)P(B)P(A|B)P(B)=P(B|A)P(A)→P(A|B)=P(B|A)P(A)P(B)
- P(A|B)=P(B|A)P(A)P(B)→Posterior Probability=Likelihood×Prior ProbabilityEvidenceP(A|B)=P(B|A)P(A)P(B)→Posterior Probability=Likelihood×Prior ProbabilityEvidence
- P(A)P(A)는 사전 확률(Prior Probability)라고 불리며, 특정 공간 B가 정해지기 이전에 미리 정의된 사건 A에 대한 확률을 의미한다.
- P(B|A)P(B|A)는 우도(Likelihood)라고 불리며, 사건 A가 특정 공간 B에 나타날 확률을 의미한다.
- P(A|B)P(A|B)는 사후 확률(Posterior Probability)라고 불리며, 특정 공간 B가 정해지고 난 뒤에 사건 A가 발생할 확률을 의미한다.
- P(B)P(B)는 관찰값(Evidence)라고 한다.
- 이제 베이즈 정리를 이진 분류에 맞게끔 수식을 유도해보자.
- 사건 A가 발생했냐 안했냐의 여부에 따라 경우의 수는 2가지 AA와 AcAc가 있을 것이다.
- 고로, P(B)P(B)는 다음과 같이 정의될 수 있다.
- P(B)=P(B∩A)+P(B∩Ac)=P(A∩B)+P(Ac∩B)P(B)=P(B∩A)+P(B∩Ac)=P(A∩B)+P(Ac∩B)
- 유도된 P(B)P(B)를 사후 확률 수식에 대입하면 다음과 같이 변형할 수 있다.
- P(A|B)=P(B|A)P(A))P(A∩B)+P(Ac∩B)=P(B|A)P(A)P(B|A)P(A)+P(B|Ac)P(Ac)P(A|B)=P(B|A)P(A))P(A∩B)+P(Ac∩B)=P(B|A)P(A)P(B|A)P(A)+P(B|Ac)P(Ac)
- 베이즈 정리의 이진 분류 예시를 들어보자.
- 일반 여성의 유방암의 발병률은 0.1%라고 합니다. 유방암 검사는 실제 유방암에 걸린 사람의 99%에 대해서 양성반응을 나타내고, 건강한 사람에 대해서는 2%만이 양성반응을 보입니다. 이때 어떤 사람의 검사 결과가 양성 반응을 보였다면 이 사람이 실제로 유방암에 걸렸을 확률은 얼마일까요?
- 유방암 발병하는 사건을 A, 양성반응이 나타나는 사건을 B라고 하자.
- 일반 여성의 유방암의 발병률은 0.1%라고 합니다.
- →→ 사전 확률에 해당하며, P(A)=0.001P(A)=0.001
- 유방암 검사는 실제 유방암에 걸린 사람의 99%에 대해서 양성반응을 나타내고
- →→ 우도에 해당하며, P(B|A)=0.99P(B|A)=0.99
- 건강한 사람에 대해서는 2%만이 양성반응을 보입니다.
- →→ 반대 사건에 대한 우도에 해당하며, P(B|Ac)=0.02P(B|Ac)=0.02
- 이때 어떤 사람의 검사 결과가 양성 반응을 보였다면 이 사람이 실제로 유방암에 걸렸을 확률은 얼마일까요?
- →→ 최종적으로, P(A|B)P(A|B) 조건부확률을 묻는 문제이다.
- 위에서 유도한 베이즈 정리 수식에 예제에서 얻어낸 정보들을 대입해보자.
- P(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|Ac)P(Ac)P(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|Ac)P(Ac)
- =0.99×0.0010.99×0.001+0.02×(1−0.001)=0.000990.00099+0.01998=0.000990.02097=0.0472=0.99×0.0010.99×0.001+0.02×(1−0.001)=0.000990.00099+0.01998=0.000990.02097=0.0472
- 마지막으로 베이즈 정리를 멀티 클래스 분류에 맞게끔 수식을 유도해보자.
- 이진 분류에서 최종적으로 유도된 수식은 다음과 같다.
- P(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|Ac)P(Ac)
- 이를 일반화 하면 다음과 같이 수식을 변형할 수 있다.
- P(Ai|B)=P(B|Ai)P(Ai)∑jP(B|Aj)P(Aj)
- 여기서 날카로운 분들은 눈치챘겠지만 사건 Aj들은 서로 베타적이며 전부 합했을 때, 표본 집단의 공간을 이룬다.
- Aj∩Ak=∅
- 머신러닝 관점으로 해석하면 Ai들은 분류해야할 클래스들로 해석할 수 있다.
- 이진 분류에서 최종적으로 유도된 수식은 다음과 같다.
'[Mathematics] - Statistical' 카테고리의 다른 글
# 0. 기초통계 - 확률, 우도, 조건부확률 (0) | 2023.06.09 |
---|
댓글