베르누이 분포
동전 던지기 이진 확률 변수 x ∈ {0,1}을 고려해 보자. x=0은 뒷면, x=1은 앞면이다. 동전이 망가져서 앞면, 뒷면이 나올 확률이 동일하지 않다고 가정하자. 이때 x=1일 확률은 매개변수 µ를 통해 다음과 같이 표현 가능하다.
여기에 다음 조건이 추가된다.
0 <= µ <= 1
p(x = 0|µ) = 1 - µ
따라서 x에 대한 확률 분포를 다음 형태로 적을 수 있다.
이를 베르누이 분포라고 한다. 매개변수 µ에 의해 제어되는 x의 확률을 나타낸다. 베르누이 분포는 정규화되어 있으며 그 평균과 분산이 다음과 같이 주어진다는 것을 쉽게 증명할 수 있다.
x의 관측값 데이터 집합 D = {x1, ... , xN}이 주어졌다고 하자. 관측값들이 p(x|µ)에서 독립적으로 추출되었다는 가정 하에 µ의 함수로써 가능도함수를 구성할 수 있다.
빈도적 관점에서는 가능도 함수를 최대화하는 µ를 찾아 µ의 값을 추정할 수 있다. 베르누이 분포의 경우 로그 가능도 함수는 다음으로 주어진다.
ln p(D|µ)을 µ에 대해 미분하고 이를 0으로 놓고풀면 다음과 같은 최대 가능도 추정값을 구할 수 있다.
위의 식을 표본 평균이라 부른다. 표본 추출된 D의 평균이라는 의미이다.
이항 분포
이제 동전을 N번 던진다고 가정하자. 그렇다면 x=1 즉, 동전이 앞면인 경우의 횟수가 몇번인지에 대한 분포를 생각할 수 있을 것이다.
총 시행 N번에서 x=1이었던 횟수 m에 대한 분포가 위에 나타난 이항 분포로 표현된다. (N m)은 다음과 같다.
위의 식은 N개의 물체들 중 m개의 물체를 선별하는 가짓수를 구한 것이다. 이 과정이 필요한 이유는 우리가 구하고자 하는 m이 가능한 경우의 수가 몇 개인지 구하고 곱해주는 과정이 필요하기 때문이다. 예를 들어 5번 던져서 앞면이 3번 나왔다고 가정하자. 그렇다면 앞면 3번 뒷면 2번의 결과가 있을 것이다.
○ ○ ○ ● ●
왼쪽이 첫 번째 시행, 오른쪽이 마지막 시행이라고 가정하자. 5번 던져서 3번이 앞면이 나오는 경우는 위의 경우처럼 연달아 3번 앞면이 나오고 그 이후 연달아 2번 뒷면이 나오는 경우가 있을 것이다. 혹은 이와 다르게 순서가 섞여서 나타날 수도 있다. 우리는 이러한 모든 가능한 경우의 수를 구해야 한다. 이를 위해 일단 모든 동전이 개별적으로 가정하자. 그러면 가능한 경우의 수는 5!일 것이다. 그런데 여기서 앞면인 동전 3개와 뒷면인 동전 2개는 동일하므로 순서가 상관 없다. 따라서 여기에 3!과 2!를 나누게 될 것이다. 즉 모든 경우의 수는 5!/3!*2!이 될 것이다. 이 예시는 위의 (N m)과 같은 것을 확인할 수 있다.
만약 µ가 0.25일 경우 이항 분포의 히스토그램은 다음과 같이 그려진다.
사건들이 서로 독립적인 경우 사건들의 합의 평균값은 평균값들의 합과 같으며, 사건들의 합의 분산은 분산들의 합과 같다. 따라서 이항 분포의 기댓값과 분산은 다음과 같다.
'Mathematics > Statistics' 카테고리의 다른 글
다항 분포 (0) | 2023.01.30 |
---|---|
베타 분포 (0) | 2023.01.29 |
상대 엔트로피, 쿨백 라이블러 발산(Kullback-Leibler divergence) (0) | 2023.01.29 |
정보 이론 (0) | 2023.01.28 |
차원의 저주 (0) | 2023.01.27 |