ML/확률론

확률론 [Coupon Collector 문제] [보편성(universality)] [선형성(linearity)]

KAU 2020. 9. 2. 16:53

Coupon Collector 문제

n 가지 장난감을 모아야 전체를 모은다고 할 때,

장난감 전부를 모으는 데까지 걸리는 시간 

T(뽑아야 하는 장난감 수)의 기댓값을 구하시오

 

n 종류 

각각의 장난감을 구분하기 위함이죠

나올 확률이 모두 같다고 합시다.

 

얼마나 많은 장난감을 사야하는지에 대한 척도가 될것이다. 

모든 종류의 장난감을 모으기 위한 척도

 

 

T (뽑아야 하는 장난감 수)

 

T1= 첫번 째에 이전에 가지고 있지 않았던 장난감을 모으는데 걸리는 시간

T2= 새로운 두번째 장난감이 나올 때까지 걸린 추가 시간

T3= 새로운 세번째 장난감이 나올 때까지 걸린 추가 시간

 

T2-1 ~ Geom(n-1/n)

Tj -1 ~ Geom(n-(j-1)/n)

 

위의 경우에 위의 T들은 독립이지만 

선형성은 이들이 독립이 아니어도 성립할거에요 

두 번째 새로운 장난감을 얻는데 걸린시간 같은것인데 

이건 추가적으로 얼마의 시간이 걸렸는지와는 상관이 없기 때문입니다.

하지만 이들이 독립이 아니더라도 아래와 같은 식은 성립합니다.

 

E(T) = E(T1) + ... E(Tn)

=1 + n/(n-1) + n/(n-2) + ... + n/1 = n(1+1/2+...+1/n)

=n(1+1/2+1/3+....1/n) ==>조화급수

 

조화급수는 로그로 근사할 수 있다는것이죠

 

충분히 n이 크다면 nlogn으로 근사할 수 있습니다.

 

균등의 보편성

x축 위의 점을 랜덤하게 고른다고 해봅시다

X ~ F 라고 할 때 

X는 확률변수이고 F는 누적분포함수라고 했을 때

X를 자신의 누적분포함수에 집어 넣으면 균등분포를 얻게 될 것입니다.

 

F(x0)=1/3

P(F(X)<=1/3)

=P(X<=x0)

=F(x0)=1/3

 

==> 균등분포가 된다. 

균등분포는 확률과 길이가 비례한다고 했었죠

 

Unif(0,1)에 대해서는 

확률이 길이와 같게 되는겁니다.

0과 1 사이에서 말이죠

 

F(X)~Unif(0,1)

 

이를 기하학적으로 이야기하면 

x축 위의 임의의 점과

0과 1 사이의 임의의 수를 고르는 것을 연관짓는 것입니다.

 

로지스틱 분포

누적분포함수를 갖는데

모든 실수 x에 대하여 F(x) = eˣ / (1 + eˣ)입니다.

 

시뮬레이션을 위해서 U ~ Unif(0,1)이라고 하고

F^-1(U)를 생각해보면 

이를 U와 같다고 하고 

이를 x에 대해서 나타낸 U라고 하면 

이를 풀어내서 역으로 나타내면

U에 대해 나타낸 x를 구할 수 있습니다.

 

F^-1(u)=log(u-(1-u)) ~ logistic

 

대칭성과 선형성

X,Y,Z를 독립적이고 같은 분포를 따르는 양의 확률 변수라고 했을 떄

확률 변수끼리의 선형성이 적용이 될까?

 

대칭성이란 무엇인가?

완전히 대칭이라면 

이들이 독립이고 같은 분포를 갖기 때문입니다

X와 Y가 같다는것이 아닙니다.

어떤 문제든 구조가 같다는 것을 말하고 있는 것입니다.

대칭성에 의해 같아야만 하죠