베이지안 네트워크 - 이산 변수
노드들이 이산 변수인 경우에 대해 살펴보자.
K개의 상태를 가질 수 있는 단일 이산 변수 x(원-핫 인코딩)의 확률 분포 p(x|µ)를 다음과 같이 표현할 수 있다.
그리고 이 확률 분포는 매개변수 µ = (µ1, ... , µK)T에 의해 조절된다. 또한 µ 의 모든 원소를 합하면 1이므로 K-1개의 µk값만 설정하면 된다.
이번에는 변수를 한 개 더 늘려보자. K개의 상태를 가지는 두 개의 이산 변수 x1, x2를 고려해 보자. 그리고 이들의 결합 분포를 모델링한다고 하자. x1k = 1과 x2l = 1를 둘 다 관측할 확률을 µkl이라고 하자. 여기서 x1k는 x1의 k번째 성분, x2l은 x2의 l번째 성분을 의미한다.
µkl이 제약 조건 으로 다음을 가진다.
따라서 이 분포는 K^2-1개의 매개변수에 의해 조절된다. 이를 바탕으로 변수가 M개인 경우에는 필요한 전체 매개변수의 숫자가 K^M - 1이라는 것을 알 수 있다. 즉 M의 값이 커짐에 따라 기하급수적으로 매개변수의 수가 늘어난다.
확률의 곱 법칙을 적용하면 p(x1, x2)를 p(x2|x1)p(x1)으로 인수분해 할 수 있다. 이는 방향성 그래프에 해당한다. 이 경우 p(x1)은 K-1개의 매개변수에 의해 조절되고, p(x2|x1)은 K개의 가능한 각 x1값들마다 K-1개의 매개변수가 필요하므로 전체 매개변수의 숫자는 (K-1) + K(K-1) = K^2 - 1이 된다.
그런데 만약 x1과 x2가 독립적이라고 가정해 보자. 이 경우 각각 K-1개의 매개변수가 필요하므로 총 2(K-1)개의 매개변수가 필요하다. M개의 이산 변수 분포의 경우에는 M(K-1)개로 일반화 할 수 있다. 따라서 이경우 M에 대해 매개변수의 숫자가 선형적으로 증가한다. 그래프의 입장에서 보면 노드사이의 링크를 없앰으로써 필요한 매개변수의 숫자를 줄인 대신 더 제한적인 종류의 분포만 표현하게 되었다. 이는 그래프로 다음과 같이 표현된다.
(a)의 경우 링크로 연결되어 있고 (b)의 경우 연결되어 있지 않다. (b)가 상대적으로 적은 정보를 가지고 있는 것으로 해석할 수 있다. 대신, (a)의 경우 K^M - 1개의 매개변수를 가지므로 (b)보다 많은 매개변수를 필요로 한다.
더 일반적인 경우를 고려해보자. M개의 이산 변수 x1, ... ,xM을 가정하자. 만약 그래프가완전 연결 되어있다면 매개변수는 앞서 살펴봤듯이 K^M - 1개의 매개변수를 가지게 된다. 반대로, 그래프의 링크가 하나도 없을 경우 M(K-1)개의 매개변수를 가진다. 추가로 연결 밀집도가 중간정도 되는 다음의 그래프를 생각해보자.
이는 완전 연결된 그래프에 비해 적은 매개변수를 가지며, 독립적인 그래프보다 많은 정보를 담게 된다. 매개변수의 경우 x1은 K-1개, x1외의 모든 노드는 K(K-1)개의 매개변수를 가지므로 전체 매개변수는 K-1 + (M-1)K(K-1)가 된다. 이는 K에 대해선 이차식으로, 사슬 길이 M에 대해서는 선형적으로 증가하게 된다.
여기서 그래프를 베이지안 모델로 변경하자. 매개변수에 디리클레 사전 분포를 도입함으로써 이산 변수에 대한 그래프를 베이지안 모델로 전환할 수 있다. 이 경우 각 노드들은 매개변수에 대한 디리클레 분포를 지칭하는 부모 노드를 가지게 된다. 따라서 다음과 같이 표현 가능하다.
모델의 매개변수 수를 줄이는 또 다른 방법은 공유(매듭) 매개변수를 이용하는 것이다. 만약 위의 사슬 그래프에서 모든 조건부 분포(즉, x2부터 xM까지)를 각각 다른 K(K-1)개의 매개변수를 사용하는 것이 아니라 모두 같은 K(K-1)개의 매개변수를 사용한다고 가정하자. 이 경우 매개변수의 수는 K-1 + K(K-1) = K^2 - 1이 된다. 이를 다음과 같이 표현할 수 있다.