ML/확률론

기댓값,지시확률변수와 선형성

KAU 2020. 8. 12. 20:18

누적분포함수(CDF): F(X) = P(X<=x), 실수 x에 대한 함수 

 

CDF F 를 이용하여 P(1<=x<=3) 구하기

P(X<=3)=P(X<=1)+P(1<X<=3)

P(1<X<=3)=F(3)-F(1)

P(aXb)=F(b)F(a) 

 

CDF의 특성 (필요충분조건)

 

증가함수

우연속함수

F(X) -> 0 as X->-infinite,F(X)->1 as X-> infinite

 

독립 확률변수

모든 x,y 값에 대하여 P(X<=x,Y<=y)=P(X<=x)P(Y<=y) 등식이 성립할 때,

확률변수 X,Y가 독립이라고 할 수 있다.

 

이산확률변수의 경우 

P(X=x,Y=y)=P(X=x)P(Y=y) 

평균을 구하는 방법

전부 더해서 나누기

가중평균(weighted average)

 

1,1,1,1,1,3,3,5 → (5/8)*1 +(2/8)*3 +(1/8)*5

5/8,2/8,1/8 는 가중치.

가중치는 전부 더해서 1이다.

이산확률변수의 기댓값

E(X)=Σ*X*P(X=x), (P(X=x)>0)

=>Σ 값*확률질량함수

 

베르누이 확률변수의 기댓값

X~Bern(p)

E(X)=1⋅P(X=1)+0⋅P(X=0)

=p

 

E(X) = P(A)E(X)=P(A)

 

이항확률분포의 기댓값

기댓값의 선형성(linearity)

 E(X+Y) = E(X) +E(Y)E(X+Y)=E(X)+E(Y)       →  X, YX,Y가 서로 독립이 아닌 경우에도 성립!

 E(cX) = cE(X)E(cX)=cE(X)      (cc는 상수) 

기하확률변수(geometric random variable)

Geom(p): 여러 번의 Bern(p) 독립시행에서 첫 번째 성공까지의 실패 수

X~Geom(p), (q=1-p)라고 할 때,

X의 확률질량함수: P(X=k)=q^k*p  (k{0,1,...})

기하확률변수의 기댓값

기하확률변수의 기댓값(Story proof(2강) 이용)

 c = E(X)c=E(X) 

 c = 0\cdot p + (1+c) \cdot qc=0p+(1+c)q          

 = q+cq=q+cq 

 c = \displaystyle \frac{q}{1-q} = \frac{q}{p}c=1qq=pq 

선형성 증명

T=X+Y 일 때

E(T)=E(X)+E(Y)

->∑tP(T=t)=∑xP(X=x)+∑yP(Y=y)

 

음이항분포(Negative Binomial)

NegBin(r,p)--> 모수(population parameter)

 

의미: 여러 번의 Bern(p) 독립시행 중에서 r번째 성공까지의 실패 횟수

PMF

지시확률변수

가장 간단한 상황:r=1 일 때 X~Geom(p)

E(X)=q/p

 

E(X)=E(X1+X2+...+Xr)=E(X1)+...+E(Xr)

 

Xj는 j-1번째와 j번째 성공 사이의 실패 횟수라 할 때,

Xj~Geom(p)이므로 

E(X)=r*(q/p)

 

첫 번째 성공까지 걸린 시도 수 'First Success' 분포: X~FS(p)

Y=X-1라 하였을 때 (성공 빼기), Y ~ Geom(p)

E(X)=E(Y)+1

=q/p+1=1/p