ML 67

확률론 [Coupon Collector 문제] [보편성(universality)] [선형성(linearity)]

Coupon Collector 문제 n 가지 장난감을 모아야 전체를 모은다고 할 때, 장난감 전부를 모으는 데까지 걸리는 시간 T(뽑아야 하는 장난감 수)의 기댓값을 구하시오 n 종류 각각의 장난감을 구분하기 위함이죠 나올 확률이 모두 같다고 합시다. 얼마나 많은 장난감을 사야하는지에 대한 척도가 될것이다. 모든 종류의 장난감을 모으기 위한 척도 T (뽑아야 하는 장난감 수) T1= 첫번 째에 이전에 가지고 있지 않았던 장난감을 모으는데 걸리는 시간 T2= 새로운 두번째 장난감이 나올 때까지 걸린 추가 시간 T3= 새로운 세번째 장난감이 나올 때까지 걸린 추가 시간 T2-1 ~ Geom(n-1/n) Tj -1 ~ Geom(n-(j-1)/n) 위의 경우에 위의 T들은 독립이지만 선형성은 이들이 독립이 아니..

ML/확률론 2020.09.02

정규분포 (Normal Distribution)

균등분포의 보편성 F가 증가하는 CDF라고 할 때, u가 0에서 1까지의 균등분포이면==U∼Unif(0,1)이면 X^-1(U) ~ F이다. 이론상으로는 0에서 1까지의 균등분포를 가지는 확률변수로 우리가 원하는 어떠한 형태의 분포를 가지는 확률변수를 만들 수 있는 겁니다. 시뮬레이션할 때 쓰인다고 합니다. F의 분포를 가진 제비뽑기를 모의로 실행할 때 다른 연속분포보다 만들기 쉬운 균등분포를 만든 후 F^-1(u)를 계산하면 되는것 입니다. 하지만 F의 역함수를 찾는것이 쉽지는 않습니다. 이론상으론 균등분포에서 모든 형태의 분포로 전환할 수 있습니다. 반대로 X를 알고 있을 때 X ~ F이면 F(X) ~ Unif(0,1)이다. X가 F의 분포를 가질 때 F(X)를 계산하면 0~1까지의 균등분포가 나오는것..

ML/확률론 2020.08.26

포아송분포 (The Poisson distribution)

확률변수와 확률질량함수는 엄연히 다른것이다. P(X=x)+P(Y=y) x에 관한 함수 y에 관한 함수 x+y의 확률질량함수를 구하고 싶으면 x+y가 확률변수여야 합니다. x+y에 관한 함수가 필요한 것 입니다. '지도는 영토가 아니다' 확률변수는 집이다. 분포는 집의 설계도 입니다. 하나의 설계도를 가지고 여러개의 집을 만들 수 있습니다. 아주 많은 다른 확률 변수들이 같은 분포를 가질 수 있습니다. 독립적일 수도 있고 독립적이 아닐 수도 있습니다. 이제 이걸 확률 집이라고 할 겁니다. 분포가 확률 집을 지을 때 쓰이는 설계도라고 하면 확률변수는 그 확률 집 중의 하나인 겁니다. 설계도는 문의 위치나 방의 구조를 말해준다기 보다는 특정 확률을 가지고 무작위로 문의 색을 빨강 혹은 파랑으로 정하는 겁니다...

ML/확률론 2020.08.19

수학스터디[확률통계] [기대값][기하분포][음이항분포]

평균을 구하는 두 가지 방법 1. 요소별 총합을 총 개수로 나눔 2. 각 요소에 빈도 수(가중치)를 곱함 이 때, 가중치의 합은 1 확률변수의 기대값(Average, Mean, Expected Value) 1.이산확률변수X의 기대값은 다음과 같다. 이 정의를 이용하여 다양한 종류의 이산확률변수의 기대값을 구해보자. 2. 베르누이 확률변수의 기대값 (Recap) 확률변수 X가 베르누이 분포를 따른다는 것은 X가 0과 1 값만을 가질 수 있을 경우를 말하고, 이 때의 X가 베르누이 확률변수 P(X=1)=p, P(X=0)=1-p 3. 지시확률변수의 기대값 지시확률변수(Indicated Random Variable)란? : 사건 A의 발생 여부에 종속하여 특정 값(1, 0)을 갖는 변수 표본공간 S의 사건 A가..

ML/확률론 2020.08.19

[확률변수] [베르누이 확률변수] [이항학률변수][지시확률변수][CDF][PMF]

확률변수(Random Variable): 표본공간 S로부터 실수 체계 R로 '맵핑' 하는 함수 베르누이 확률변수 X가 실패(0) 성공(1) 두 가지의 값만 가질 수 있으며, P(X=1)=p P(X=0)=1-p X는 Bernoulli(p) 분포를 따른다고 한다. 이항 확률변수 n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는 Bin(n,p) 를 따른다고 한다. 이항확률변수의 확률질량변수(PMF) 이항확률변수의 특징 X ~ Bin(n,p), Y ~ Bin(m,p) 일 때, X+Y ~ Bun(n+m,p) 를 따른다. 이항분포 Bin(n,p) parameter n,p(n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨 확률분포를 해석하는 방법 X~Bin(n,p) 의미 n번의 독립적인 ..

ML/확률론 2020.08.12

수학스터디[확률통계]확률변수

Gambler's Ruin(도박꾼의 파산): A와 B 두 명의 도박꾼이 매 라운드 $1씩 걸고 도박을 한다. 이긴 사람은 상대방의 $1을 가져가고, 둘 중 한 명이 가지고 온 돈이 바닥날 때까지 이 과정을 반복한다 그렇다면 , 이 게임은 영원히 진행될까 ? 아닐까? 문제풀이 전략: 첫 단계에서 조건을 세운다 정의: p의 확률로 A가 1달러를 더 얻고, q의 확률로 1달러를 잃는다. 0, N은 흡수상태(absorbing state)라 하여, 게임 종료를 나타낸다. P(i) : A가 i달러로 게임을 이길 확률 이 문제의 경우에는 특정 수를 정하고 생각하기 보다는 일반적인 경우를 찾는것이 더 쉽다. P(i) = p * p(i+1) + q * P(i-1) guessing을 통한 풀이 더보기 Pi=xi라 추측을 ..

ML/확률론 2020.08.07

수학스터디[확률통계] [독립][조건부확률][전확률][몬티홀][심슨의 역설]

독립 정의: P(A∩B)=P(A)P(B)이 성립할 때, 사건 A와 B는 독립이다. ※ disjoint(서로소) != independence(독립) A와 B가 서로소인 경우는 A가 발생하면 B는 발생할 수 없다. 반면에 A와 B가 독립이라면 A의 발생은 B 발생에 어떠한 영향도 끼치지 않는다. 조건부 확률 새로운 정보를 얻었을 때, 기존의 ‘믿음/불확실성(uncertainty)’을 어떻게 업데이트할 지 대한 문제다. 직관적인 이해를 돕기 위해 '조약돌 세계'를 생각해보자. 독립과 조건부 확률을 통해 3가지 공리를 끌어낼 수 있다. 1. 조건부 확률의 정의에 P(B) 혹은 P(A)를 곱해주면 된다. 2. Chain Rule을 적용하면 아래처럼 증명할 수 있다. 3. 1번의 P(A∩B) = P(A|B)P(B)..

ML/확률론 2020.08.01

Git 브랜치 기초

모든 버전 관리 시스템은 브랜치를 지원한다. 개발을 하다 보면 코드를 여러 개로 복사해야 하는 일이 자주 생긴다. 코드를 통째로 복사하고 나서 원래 코드와는 상관없이 독립적으로 개발을 진행할 수 있는데, 이렇게 독립적으로 개발하는 것이 브랜치다. Git은 브랜치를 만들어 작업하고 나중에 Merge 하는 방법을 권장한다. 브랜치란 무엇인가 Git은 데이터를 Change Set이나 변경사항(Diff)으로 기록하지 않고 일련의 스냅샷으로 기록한다는 것을 알것이다. 커밋하면 Git은 현 Staging Area에 있는 데이터의 스냅샷에 대한 포인터, 저자나 커밋 메시지 같은 메타데이터, 이전 커밋에 대한 포인터 등을 포함하는 커밋 개체(커밋 Object)를 저장한다. 이전 커밋 포인트가 있어서 현재 커밋이 무엇을..

ML/Git 2020.07.27