Mathematics/Statistics

다항 분포

진성01 2023. 1. 30. 19:27

지금까지는 두 가지 가능한 값들 중 하나를 취하는 수량을 설명하였다. 그러나 많은 경우 이진 변수가 아닌 서로 다른 K개의 값들 중 하나를 취할 수 있다. 여기서 이런 변수를 표현하는 대표적인 방법인 원-핫 인코딩을 알아보고, 이를 이용하여 다항 분포에 대해 설명한다.

 

원-핫 인코딩 예시

원-핫 인코딩은 다음과 같이 벡터로 표현된다. 위의 예시는 총 6개의 값들 중 하나를 취할 수 있는 변수 x에 대해 나타낸 것이다. 이러한 벡터들은다음과 같은 성질을 만족한다.

만약 우리가 xk = 1이 될 확률을 µk라고 한다면, x의 분포는 다음과 같이 주어진다.

여기서 µ = (µ1, ... , µk)T이다. µk는 k번째 값을 가질 확률을 나타내게 된다. 이 분포에 대해 다음 두 가지 식을 쉽게 증명할 수 있다.

여기서 N개의 독립적인 관측값 x1, ... ,xN을 가진 데이터 집합 D를 고려해 보자. 해당 가능도 함수는 다음 형태를 띄는 것을 알 수 있다.

가능도 함숫값이 K값을 통해서만 N개의 데이터 포인트와 연관되어 있음을 확인할 수 있다.

따라서 위의 식이 이 분포의 충분 통계량이 된다. 위 식은 xk = 1인 관측값의 숫자에 해당한다.

µ값의 최대 가능도 해를 찾기 위해서는 µk의 합이 1이라는 제약 조건하에 ln p(D|µ)의 최대값을 찾아야 한다. 이를 위해 라그랑주 승수법을 사용해 다음 식의 최댓값을 구할 수 있다.

그 결과 최대가능도의 해는 다음 형태를 띄게 된다. 이는 N개의 관측값 중 xk = 1인 경우의 비율이다.

 

매개변수 µ와 관측값의 숫자 N에 의해 결정되는 수량 m1, ... , mk의 결합 분포를 고려해 보자. 이는 다음의 형태를 띄게 된다.

다항 분포

이를 다항 분포(multinomial distrbution)라고 한다. 정규화 계수는 N개의 물체를 각각 m1, ... ,mk의 수량을 가지는 K개의 집단으로 나누는 가짓수에 해당하며 다음과 같다.

변수 mk는 다음의 제약 조건을 가진다.