ML/확률론

수학스터디[확률통계] [기대값][기하분포][음이항분포]

KAU 2020. 8. 19. 16:52

평균을 구하는 두 가지 방법

1. 요소별 총합을 총 개수로 나눔

2. 각 요소에 빈도 수(가중치)를 곱함

이 때, 가중치의 합은 1

확률변수의 기대값(Average, Mean, Expected Value)

1.이산확률변수X의 기대값은 다음과 같다. 

 

이 정의를 이용하여 다양한 종류의 이산확률변수의 기대값을 구해보자.

 

2. 베르누이 확률변수의 기대값

 

(Recap) 확률변수 X가 베르누이 분포를 따른다는 것은 X가 0과 1 값만을 가질 수 있을 경우를 말하고,
          이 때의 X가 베르누이 확률변수

 

P(X=1)=p, P(X=0)=1-p

 

3. 지시확률변수의 기대값

 

지시확률변수(Indicated Random Variable)란?

 

: 사건 A의 발생 여부에 종속하여 특정 값(1, 0)을 갖는 변수

표본공간 S의 사건 A가 주어졌을 때, 확률변수 I_A를 다음과 같이 정의할 수 있을 때, I_A를 지시확률변수라고 함.

 

사건 A가 일어나면 1, 그 외에는 0

 

이 때, 지시확률변수의 기대값은 사건 A가 일어날 확률과 같은데, 이를 근본적인 다리라고 한다.

 

Fundamental Bridge

 

4. 이항확률변수의 기대값

 

너무 복잡하다

기대값의 선형성을 이용하면 간편하다.

기대값의 선형성 (Linearity)

X,Y가 독립이 아닌 경우에도 성립. c는 상수

기대값의 선형성 증명

 

1. T=X+Y 일 때, E(T)=E(X)+E(Y)를 증명

 

양쪽 항이 같음을 증명하면 됨

평균을 구하는 두 가지 방법 중 첫 번째 방법을 떠올려 보자.

 

 

위와 같이 확률변수 X가 0,1,2,3 에 대응하는 조약돌 세계에서 각각의 조약돌(s)의 합을 구하고 질량P({s})과 곱하면,

 

평균은 0*(1/10) + 0*(1/10) + ... + 3*(1/10) = (0+0+0+0+1+1+2+2+2+3)/10 이 됨. 

 

이와 같은 방법으로 E(X+Y)를 구하면 E(X)+E(Y)

 

2. E(cX)에서 c는 상수이므로 시그마 밖으로 빼면 cE(X)가 됨.

 

 

선형성을 이용하여 이항확률변수의 기대값 구하기

 

이항분포를 따르는 확률변수 X는 독립적으로 동일하게 분포된 n의 베르누이 확률변수 Bern(p) 들 (X1,...,Xn)의 합으로 표현될 수 있음. 각각의 베르누이 확률변수 Xj의 기대값은 p이고, 총 n개가 있으므로 선형성에 의해 E(X)=np 가 됨.

 

기하분포 (Geometric Distribution)

 X~Geom(p), p는 0과 1사이의 실수

1. 정의: 독립적인 베르누이 시행에서 처음 성공까지 시도(=실패)한 횟수 X의 분포

2. 기하확률변수의 확률질량함수(PMF)

성공확률은 p, 실패확률은 q (=1-p) 라 하고, 사건 A를 FFFFFS (5번의 실패 후 성공하는 사건) 라고 했을 때,

P(A)=q∧5 x p 와 같다.

이로부터 PMF를 유도하면 다음과 같다.

기하분포의 기대값

수식 없이 story proof로 이해하기 

 

: 동전을 던졌을 때 앞면이 나올 때까지의 시도 횟수(실패 횟수)를 X라고 하면, X~Geom(p).

이 때 E(X)는 첫 성공까지의 평균적인 실패 횟수를 나타냄(c로 단순화)

 

도박꾼의 파산 문제와 같이 첫 시행에서의 결과(성공 또는 실패)로 조건화하면(first step analysis),

첫 시행에서 성공했을 때는 0*p.첫 시행에서 실패하면 실패하고 나서 성공할 때까지 같은 행동을 반복하므로 (1+c)*q

 

따라서 다음과 같이 수식을 전개하면 c=q/p

 

음이항분포(Negative Binomial): X~NegBin(r,p)

: 여러 번의 베르누이 독립 시행에서 r번째 성공까지의 실패 횟수 

음이항분포는 기하분포의 일반화된 형태 (기하분포는 음이항분포에서 r=1인 경우를 말함)

1. 음이항분포의 확률질량함수

r=5 일 때의 예시를 들어보자.

5번째 성공까지의 실패 횟수가 11번

5번째 성공 이전 4번의 성공은 (n+r-1)C(r-1) 가지로 존재할 수 있다.

 

이로부터 확률질량함수를 유도하면 다음과 같음.

음이항분포의 기대값

지시확률변수 Xj를 j-1번째  성공과 j번째 성공 사이의 실패 횟수라고 하면,

 

전체 실패 횟수 X=X1+...+Xr로 나타낼 수 있고, 선형성과 대칭성에 의해 r*(q/p)가 됨.

 

상트페테르부르크의 역설(St. Petersburg Paradox)

카지노에서 공정한 동전을 앞면이 나올 때까지 반복하여 던지는 게임이 있을 때, 첫번째에 앞면이 나오면 2달러, 두번째에 앞면이 나오면 4달러 .... n번째에 앞면이 나오면 2^n 달러를 획득한다. 이 게임을 하기 위한 판돈은 얼마가 적당할까?

  • 확률 변수 X는 처음으로 앞면이 나올 때를 포함하여 동전 던지기를 시도한 횟수이다.
  • Y=2^n이라고 했을 때, 게임에 참가하여 획득할 수 있는 금액의 평균 E(Y)를 구하면,
    k: 던진 횟수, (k-1)번째 까지는 뒷면이 나오다가 마지막 k번째에 앞면이 나와야 하므로 다음과 같이 전개됨.

 

  • 즉, 아무리 많은 판돈을 걸더라도 무한대의 돈을 얻을 수 있으므로 게임에 참가하는것이 무조건 유리함.
  • 하지만 실제로는 그 누구도 무한히 큰 액수의 판돈을 내려 하지 않을 뿐더러, 참가비가 25달러 정도가 되어도 참가하지 않을 것이라는 데 많은 사람들이 동의함.

상트페테르부르크의 역설 : youtu.be/D2_P52_1Phk