ML/확률론

수학스터디[확률통계]확률변수

KAU 2020. 8. 7. 19:07

Gambler's Ruin(도박꾼의 파산): A와 B 두 명의 도박꾼이 매 라운드 $1씩 걸고 도박을 한다. 이긴 사람은 상대방의 $1을 가져가고, 둘 중 한 명이 가지고 온 돈이 바닥날 때까지 이 과정을 반복한다

그렇다면 ,

 

이 게임은 영원히 진행될까 ? 아닐까?

 

 

문제풀이 전략: 첫 단계에서 조건을 세운다

 

정의:

p의 확률로 A가 1달러를 더 얻고, q의 확률로 1달러를 잃는다.
0, N은 흡수상태(absorbing state)라 하여, 게임 종료를 나타낸다.

P(i) : A가 i달러로 게임을 이길 확률

 

이 문제의 경우에는 특정 수를 정하고 생각하기 보다는 일반적인 경우를 찾는것이 더 쉽다.

 

P(i) = p * p(i+1) + q * P(i-1)

 


guessing을 통한 풀이

 

더보기

Pi=xi라 추측을 하고 이형태의 해를 찾는다.

 

x = p x¹ + q x¹

 

이 방정식의 한해는 x=0일때이다

 

하지만, 이 해는 경계조건을 만족하지 않습니다.

 

x=!0 일떄 의 해를 보도록 하겟습니다.

 

p x² - x + q = 0이된다.

 

x = (1± √1-4pq)/2p 가된다.

 

Q=1-p가 되고, 4p² - 4p + 1가된다.

 

x = 1아니면 q/p가 된다     

 

 

두 해가 다른경우  일반해는 특수해의 선형조합이기 때문에 아래와 같은 식이 성립합니다.

pi=A1**​**i+B(p/q)**i​  (p!=q)

여기에 조건 p0=0, pN=1 을 대입하면, 

p0 = A+B , p0=A+B=0   B=-AB=A 

pN = A + (p/q)**N = A(1-(q/p)**N)

 

(p!=q)

x=q/p 라고 놓고 x->1의 극한을 살펴보았을 때,

 

ff

d

Pi=xi라 추측을 하고 이형태의 해를 찾는다.

 

x = p x¹ + q x¹

 

이 방정식의 한해는 x=0일때이다

 

하지만, 이 해는 경계조건을 만족하지 않습니다.

 

x=!0 일떄 의 해를 보도록 하겟습니다.

 

p x² - x + q = 0이된다.

 

x = (1± √1-4pq)/2p 가된다.

 

Q=1-p가 되고, 4p² - 4p + 1가된다.

 

x = 1아니면 q/p가 된다     

 

 

두 해가 다른경우  일반해는 특수해의 선형조합이기 때문에 아래와 같은 식이 성립합니다.

pi=A1**​**i+B(p/q)**i​  (p!=q)

여기에 조건 p0=0, pN=1 을 대입하면, 

p0 = A+B , p0=A+B=0   B=-AB=A 

pN = A + (p/q)**N = A(1-(q/p)**N)

 

(p!=q)

x=q/p 라고 놓고 x->1의 극한을 살펴보았을 때,

 

ff

d

 

 

​N

 

 

결론적으로 이러한 해를 구할수 있게 됩니다.

 

 

그럼 , 이게 무슨 뜻인가?

 

i = N-i 라고 하겠습니다.

P = 0.49 라 놓겠습니다.

이는 , A,B 즉 하우스와 플레이어 가 같은 돈을 가지고 시작함을 말합니다.

N=20 ->  P(i) = 0.40

N =100-> P(i) = 0.12

N = 200 -> P(i) = 0.02

 

하우스와 같은 돈을 가지고 시작하고, 1%정도로만 불공평한 게임이라고 해도 게임을 계속하다 보면 이길 확률이 매우 적어지게 된다. ('도박꾼의 파산')

 

 

dddd확인할 점: 게임이 끝나지 않고 영원히 계속될 확률이 있는가?

게임이 공평한 상황에서 (p = q) B가 (N-i 달러를 갖고) 이길 확률은  N​//Ni 이다.

i/N + N-i/N = 1 이므로 게임이 계속될 확률은 0이다.

 

 

 

확률변수 : 표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수

 

 

 

 

EX)베르누이 확률변수

X가 0(실패), 1(성공) 두 가지의 값만 가질 수 있으며,

P(x=1)=p,P(x=1)=p,  P(X=0) = 1-pP(X=0)=1p 일 때

XX는 Bernoulli(p)Bernoulli(p) 분포를 따른다고 한다.

 

 

예시) 이항(Binomial) 확률변수

n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는 Bin(n,p)Bin(n,p) 를 따른다고 한다.

  • 이항확률변수의 확률질량변수(PMF):  (P(X=k)=nkP(X=k)=(​k​n​​)pk(1−p)n−kp​k​​(1−p)​n−k​​)
  • 이항확률변수의 특징:  XBin(n,p),  Y ~Bin(m,p)  일 때,  X+Y ~ Bin(n+m,p) 를 따른다.

 

 

확률분포를 해석하는 방법

 

1.)의미

더보기

n개의 독립적인 시행이 있고 , 각 시행의 결과가 성공 또는 실패일 때

이항분포는 성공한 횟수이다.

X n개의 독립적인 시행에서 성공한횟수라 생각할 수 잇다.

각 시행이 독립적이야 한다는건 중요하다.

매개 변수 p의 베르누이 시행 : 성공또는실패 결과를 p의 확률로 갖는 시행

성공: 우리가 원하는대로 정의

실패로 정의할수도 있고 , 실패를 성공으로 정의할수도있고

중요한 것은 각시행의 결과는 성공 또는 실패이지 둘다일수는 없다.

n개의 독립적인 시행이 있고 , 각 시행의 결과가 성공 또는 실패일 때

이항분포는 성공한 횟수이다.

X n개의 독립적인 시행에서 성공한횟수라 생각할 수 잇다.

각 시행이 독립적이야 한다는건 중요하다.

매개 변수 p의 베르누이 시행 : 성공또는실패 결과를 p의 확률로 갖는 시행

성공: 우리가 원하는대로 정의

실패로 정의할수도 있고 , 실패를 성공으로 정의할수도있고

중요한 것은 각시행의 결과는 성공 또는 실패이지 둘다일수는 없다.

 

 

2.지시확률변수

 

더보기

지시확률의변수의 합의 꼴로 해석

X X + X + ... + Xn 으로 생각할 수 있다는 점이죠

 

Xj j번쨰 실행이 성공일떄 1이다.아닌경우에는0이다.

지시확률변수라고불리는이유는 j번쨰 시행이 성공이었는지 실패였는지를 알려주기 때문이다

이공식이 의미하는바는 성공할떄마다 1을더하고, 실패하는 경우를 0을 더하라는 

우리가 한건 조금 복잡한 분포를 01같이 매우 간단한 수들의 합으로 만든 것

          

X1에서부터Xn까지 모두 독립적이다.

 

이 의미는 시행이 독립적이고, 확률 변수들이 각시행의 지표라고 가정했기 때문에

각 확률변수는 독립이다

동일하게 분포되었다는 X가 같은 분포를 가진다는 뜻

X1 ,, Xn는 모두Bern(p)이다.

지시확률의변수의 합의 꼴로 해석

X X + X + ... + Xn 으로 생각할 수 있다는 점이죠

 

Xj j번쨰 실행이 성공일떄 1이다.아닌경우에는0이다.

지시확률변수라고불리는이유는 j번쨰 시행이 성공이었는지 실패였는지를 알려주기 때문이다

이공식이 의미하는바는 성공할떄마다 1을더하고, 실패하는 경우를 0을 더하라는 

우리가 한건 조금 복잡한 분포를 01같이 매우 간단한 수들의 합으로 만든 것

          

X1에서부터Xn까지 모두 독립적이다.

 

이 의미는 시행이 독립적이고, 확률 변수들이 각시행의 지표라고 가정했기 때문에

각 확률변수는 독립이다

동일하게 분포되었다는 X가 같은 분포를 가진다는 뜻

X1 ,, Xn는 모두Bern(p)이다.

3.PMF

더보기

확률질량함수는 단순하게 X가 특정값을 가질 확률을 뜻한다.

이항분포의 확률질량함수는 nCk × p × q 이고

확률질량함수는 단순하게 X가 특정값을 가질 확률을 뜻한다.

이항분포의 확률질량함수는 nCk × p × q 이고

PMF, CDF

 

CDF

F(x) = P(X<=x)

PMF

F(X) = P(X=x)

 

PMF는 이산확률변수에 대해서만  정의됩니다.

이산확률변수는 정수값을 가지는 확률변수라 생각하면 됩니다.

 

하지만 , 일반화하자면 가능한값들이 정수가 되어야할 필요는 없다.

열거할 수 있어야 한다.  

 

 

누적분포함수를 사용하는 이유는 더 일반적이기 때문입니다.

 

누적분포함수는 모든 확률변수에 적용할 수 있습니다.

 

이항분포의 합

1.)의미

더보기

X+Y를 수학적으로 얘기하면 두함수의 합이다.

두함수를 합하기 위해서는 같은 정의역을 가져야한다.

 

두 함수는 같은 표본공간을 가지므로 더할 수 있다.

X+Y를 수학적으로 얘기하면 두함수의 합이다.

두함수를 합하기 위해서는 같은 정의역을 가져야한다.

 

두 함수는 같은 표본공간을 가지므로 더할 수 있다.

 

2.)지시확률변수

더보기

X1 + .. Xn 으로 두었다.

Y Y1 + Y2 .. Ym으로 둔다.

이는 단순히 n+m개의 독립적인 베르누이 P확률변수의 합이다.

식에 따르자면 n개의 독립적인 베르누이 p 확률변수를 합한 것이 이항변수Bin(n,p)이다

n+m개의 확률변수를 합하므로 Bin(n+m,p)가 된다.

X1 + .. Xn 으로 두었다.

Y Y1 + Y2 .. Ym으로 둔다.

이는 단순히 n+m개의 독립적인 베르누이 P확률변수의 합이다.

식에 따르자면 n개의 독립적인 베르누이 p 확률변수를 합한 것이 이항변수Bin(n,p)이다

n+m개의 확률변수를 합하므로 Bin(n+m,p)가 된다.

3.PMF

더보기

 

X=j라는 조건으로 확률을 나눠서 계산하겠다.(LOT) 

X,Y는 독립이므로 X가 Y에 영향을 주지 못한다.

 

X=j라는 조건으로 확률을 나눠서 계산하겠다.(LOT) 

X,Y는 독립이므로 X가 Y에 영향을 주지 못한다.

초기하분포 vs 이항분포

 

예제 1) 5장의 카드를 뽑을 때, 그 중 에이스 카드 수

 

 

예제2)

 

위 예제 3개 모두 표본에서  추출후 복원을 하지 않는 추출이여서 이항분포와는 다르다.

 

이러한 확률분포를 초기하분포라고 부른다.

 

 

→ 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.

 

 

https://freshrimpsushi.tistory.com/893

전체확률의 법칙?==>

베르누이 확률 변수는 0, 1 두 가지 값 중 하나만 가질 수 있으므로 이산 확률 변수(discrete random variable)이다. 따라서 확률 질량 함수(pmf: probability mass function)와 누적 분포 함수(cdf:cumulataive distribution function)으로 정의할 수 있다.

베르누이 확률 변수는 1이 나올 확률 θ 라는 하나의 모수(parameter)만을 가진다. 0이 나올 확률은 1θ1−θ 로 정의된다.

베르누이 확률 분포의 확률 질량 함수는 다음과 같다.

 

지시확률변수에서 X=성공횟수