ML/확률론

수학스터디[확률통계] [독립][조건부확률][전확률][몬티홀][심슨의 역설]

KAU 2020. 8. 1. 13:14

 

독립

정의: P(A∩B)=P(A)P(B)이 성립할 때, 사건 A와 B는 독립이다.

※ disjoint(서로소) != independence(독립)

A와 B가 서로소인 경우는 A가 발생하면 B는 발생할 수 없다. 반면에 A와 B가 독립이라면 A의 발생은 B 발생에 어떠한 영향도 끼치지 않는다. 

 

조건부 확률

새로운 정보를 얻었을 때, 기존의 ‘믿음/불확실성(uncertainty)’을 어떻게 업데이트할 지 대한 문제다. 

조건부확률의 정의

직관적인 이해를 돕기 위해 '조약돌 세계'를 생각해보자.

 

독립과 조건부 확률을 통해 3가지 공리를 끌어낼 수 있다.

1. 조건부 확률의 정의에 P(B) 혹은 P(A)를 곱해주면 된다.

2. Chain Rule을 적용하면 아래처럼 증명할 수 있다. 

3. 1번의 P(A∩B) = P(A|B)P(B) = P(B∩A) = P(B|A)P(A)를 P(B)로 나누면 위의 식이 나온다. 

 


전체 확률의 법칙(Law of Total Probability)

전체확률의 법칙이란 큰 범위로 보기엔 어려운 문제를 작은 단위로 나누어 푸는 것이다. 위의 사진처럼 표본공간 S를 A1,A2,...,An의 서로소인 분할들로 나누었다고 했을 때,

P(B)=P(B∩A1)+P(B∩A2)+...+P(B∩An)

=P(B|A1)P(A1)+P(B|A2)P(A2)+...+P(B|An)P(An) <--- 공리 1번 적용

표현이 가능하다. 예제를 한 번 살펴보자. 

 

예제)인구의 1%가 걸리는 병이 있고, 이 병의 검사 결과가 ‘95%의 정확도를 갖고 있다’고 하자. 검사가 양성으로 나왔을 때, 실제로 이 병에 걸렸을 경우는?

==> 병에 걸리는 사건 D, 검사 결과가 양성으로 나오는 사건 T라고 하자. 

문제에서 병에 걸릴 확률 P(D)=0.01라고 하였고,

'95%의 정확도를 갖고 있다 '

=병에 걸렸고 양성으로 진단한 확률 병에 걸리지 않았고 음성으로 진단할 확률로 표현할 수 있다.

=>P(T|D)=P(T^|D^)=0.95로 표현할 수 있다. 

그러면 우리가 구하고자 하는 확률인 P(D|T) (검사 양성일 때 실제로 걸린확률)은 아래와 같다.

 

조건부 독립 : 'A'와 'B'는 조건 'C'하에서 독립이다. 

정의: P(A∩B|C)=P(A|C)P(B|C)

      조건부 독립 ==> 독립 성립? No

      독립 ==> 조건부 독립 성립? No

 

 


Monty Hall 

몬티홀 문제는 영화와 많은 책들에 소개된 문제다. 몬티홀은 세 개의 문 중에 하나 뒤에는 자동차가 있고, 나머지 두 개 뒤에는 염소가 있다. Monty가 내가 고르지 않은 문 중 하나를 열어 염소가 있는 것을 보여줬다면, 나는 처음 고른 문에서 바꾸는 것이 유리한가, 그렇지 않은가?에 대한 내용이다. 

수형도로 문제를 표현하면 다음과 같다.

두 개의 문 중에 하나를 고르는 것이니 1/2의 확률을 가질 것 같았으나 바꾸는 것이 2/3로 우승할 확률이 높아짐을 알았다. 

 

Simpson pardox 

각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지 않다는 의미로 영국의 통계학자 에드워드 심슨이 정리한 역설이다. 이 역설은 각각 변수에 대해 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류다. 

예제를 한 번 보자. 심슨 가족이 사는 스프링필드에 두 명의 의사 Hibbert와 Nick 있고 두 가지 수술(심장 수술, 반창고 제거 수술)을 할 수 있다고 하자. 수술의 성공률을 나타내면 아래와 같다. 

 

심장수술에서 Hibbert는 77.8%, Nick은 20%이고 반창고 제거 수술의 경우 Hibbert는 100%, Nick은 90%로 두 수술에서 모두 Hibbert의 성공 확률이 높게 나온다. 그러나 전체 수술 성공률을 봤을 땐 80%, 83%로 Nick의 성공확률이 더 높다.

 

이론적으로 살펴보면 

     A: 수술이 성공하는 사건

B: Dr. Nick가 수술을 집도하는 사건

C: 심장 수술을 받는 사건

심장)  P(A|B,C) < P(A|B^,C)            : H의 심장 수술 성공 확률이 높음 

반창고)  P(A|B,C^) < P(A|B^,C^)     :H의 반창고 수술 성공 확률이 높음 

Dr.Hibbert가 각각의 수술이라는 조건부 확률에서는 더 좋은 성적을 보일 수 있지만,

무조건부 확률은 P(A|B) > P(A|B^)    :N의 전체 수술 성공 확률이 높음 

 

왜 부등호가 바뀌었을까?

 

P(AlB)   = P(AlB,C)P(ClB)     + P(AlB,C^)P(C^lB)            (닉이 집도했을 때 수술에 성공할 확률) 
P(AlB^) = P(AlB^,C)P(ClB^) + P(AlB^,C^)P(C^lB^)       (히버트가 집도했을 때 수술에 성공할 확률)

 

빨간색 글씨로 쓰여진 확률을 가중치라고 생각해보자.

P(A|B,C) < P(A|B^,C)  

P(A|B,C^) < P(A|B^,C^) 

성공확률은 비교 가능하지만 

 

P(CIB)  =닉이 심장수술을 집도할 확률      P(C^IB)  =닉이 반창고 수술을 집도할 확률 

P(CIB^)=히버트가 심장수술을 집도할 확률,P(C^IB^)  =히버트가 반창고 수술을 집도할 확률 

 

가중치는 변하기 때문에 오류가 일어날 수 있다는 것이다.

 

!! 여기서 C(수술의 종류)는 confounder (교란변수)라고 하며, 이렇게 적절하지 않은 confounder를 사용하면 상황에 대해 그릇된 판단을 내릴 위험이 있다.  

 

그럼 전체확률의 정의로 심슨의 역설이 틀렸음을 증명이 가능할까??

전체 확률 정의로 Nick이 집도해 성공하는 확률을 나누어 보자.

P(AB)=P(AB,C)P(CB)+P(A|B,C^)P(C^|B)

그러나 Nick이 심장, 반창고 수술을 집도할 확률 P(C|B),P(C^|B)는 알 수가 없다.

때문에 위 식처럼 좌항과 우항에 P(C|B),P(C^|B)를 곱해 전확률을 구하는 방법으로는 증명이 불가하다.