ML/확률론

[확률변수] [베르누이 확률변수] [이항학률변수][지시확률변수][CDF][PMF]

KAU 2020. 8. 12. 19:14

확률변수(Random Variable): 표본공간 S로부터 실수 체계 R로 '맵핑' 하는 함수

베르누이 확률변수

X가 실패(0) 성공(1) 두 가지의 값만 가질 수 있으며,

 

P(X=1)=p

P(X=0)=1-p

 

X는 Bernoulli(p) 분포를 따른다고 한다.

 

이항 확률변수

n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포Bin(n,p) 를 따른다고 한다.

 

이항확률변수의 확률질량변수(PMF)

이항확률변수의 특징

X ~ Bin(n,p), Y ~ Bin(m,p) 일 때,

X+Y ~ Bun(n+m,p) 를 따른다.

 

이항분포 Bin(n,p)

parameter n,p(n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨

확률분포를 해석하는 방법

X~Bin(n,p)

 

의미

n번의 독립적인 Bernoulli(p) 시행에서 성공한 횟수 

 

지시확률변수(indicator random variables)

X=X1+X2+...+Xn

X1,...Xn~iid Bern(p)

 

Xj=성공(1) or 실패(0)

 

확률질량함수(PMF)

사건의 발생확률을 구할 수 있다.

누적분포함수(CDF)

X<=x 라는 사건의 확률을 구할 수 있다.

F(X) = P(X<=x) 확률질량함수(이산확률변수에서만)

 

X+YBin(m+n,p) 

의미

n번과 m번의 독립적인 Bern(p) 시행 중 성공 횟수

 

지시확률변수

X=X1+X2+...+Xn

Y=Y1+Y2+...+Ym

X+Y=ΣXj+ΣYi

 

PMF

<이항정리> X+Y가 이항확률변수의 PMF 형태를 따른다는것을 보여 X+Y 또한 이항확률분포를 따름을 증명했다.

 

초기하분포(hypergeometric distribution)로, 복원을 하지 않은 표본추출이라는 점에서 이항분포와 다르다.

 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.

문제 풀어보기

더보기

 

도박꾼은 각 라운드에서 1/3 확률로 1 달러를 얻고 2/3 확률로 1 달러를 잃는 게임을 반복합니다. 
그의 전략은 "그가 $ 2보다 앞서면 그만두는 것"입니다. 
그가 백만 달러로 시작한다고 가정 해 봅시다. 

그가 $ 2 앞당길 확률이 1/4 미만임을 보여줍니다.

 

p_i​​: A가 i 달러로 시작하여 게임을 이길 확률, p=이길 확률,q=질 확률

월드 시리즈에서 두 팀 (A와 B라고 부름)이 순서대로 게임을 진행하고

4 게임을 먼저이긴 팀이 시리즈에서 승리합니다.

p를 A가 개별 게임에서 이길 확률이고 게임이 독립적이라고 가정합니다.

A 팀이 시리즈에서 이길 확률은 얼마입니까?