Machine Learning/Graph model

베이지안 네트워크 - 이산 변수

진성01 2023. 2. 4. 21:30

노드들이 이산 변수인 경우에 대해 살펴보자. 

K개의 상태를 가질 수 있는 단일 이산 변수 x(원-핫 인코딩)의 확률 분포 p(x|µ)를 다음과 같이 표현할 수 있다.

그리고 이 확률 분포는 매개변수 µ = (µ1, ... , µK)T에 의해 조절된다. 또한 µ 의 모든 원소를 합하면 1이므로 K-1개의 µk값만 설정하면 된다.

 

이번에는 변수를 한 개 더 늘려보자. K개의 상태를 가지는 두 개의 이산 변수 x1, x2를 고려해 보자. 그리고 이들의 결합 분포를 모델링한다고 하자. x1k = 1과 x2l = 1를 둘 다 관측할 확률을 µkl이라고 하자. 여기서 x1k는 x1의 k번째 성분, x2l은 x2의 l번째 성분을 의미한다.

 

µkl이 제약 조건 으로 다음을 가진다.

따라서 이 분포는 K^2-1개의 매개변수에 의해 조절된다. 이를 바탕으로 변수가 M개인 경우에는 필요한 전체 매개변수의 숫자가 K^M - 1이라는 것을 알 수 있다. 즉 M의 값이 커짐에 따라 기하급수적으로 매개변수의 수가 늘어난다.

 

확률의 곱 법칙을 적용하면 p(x1, x2)를 p(x2|x1)p(x1)으로 인수분해 할 수 있다. 이는 방향성 그래프에 해당한다. 이 경우 p(x1)은 K-1개의 매개변수에 의해 조절되고, p(x2|x1)은 K개의 가능한 각 x1값들마다 K-1개의 매개변수가 필요하므로 전체 매개변수의 숫자는 (K-1) + K(K-1) = K^2 - 1이 된다.

 

그런데 만약 x1과 x2가 독립적이라고 가정해 보자. 이 경우 각각 K-1개의 매개변수가 필요하므로 총 2(K-1)개의 매개변수가 필요하다. M개의 이산 변수 분포의 경우에는 M(K-1)개로 일반화 할 수 있다. 따라서 이경우 M에 대해 매개변수의 숫자가 선형적으로 증가한다. 그래프의 입장에서 보면 노드사이의 링크를 없앰으로써 필요한 매개변수의 숫자를 줄인 대신 더 제한적인 종류의 분포만 표현하게 되었다. 이는 그래프로 다음과 같이 표현된다.

a는 완전히 연결된 그래프, b는 독립적 노드의 그래프이다.

(a)의 경우 링크로 연결되어 있고 (b)의 경우 연결되어 있지 않다. (b)가 상대적으로 적은 정보를 가지고 있는 것으로 해석할 수 있다. 대신, (a)의 경우 K^M - 1개의 매개변수를 가지므로 (b)보다 많은 매개변수를 필요로 한다.

 

더 일반적인 경우를 고려해보자. M개의 이산 변수 x1, ... ,xM을 가정하자. 만약 그래프가완전 연결 되어있다면 매개변수는 앞서 살펴봤듯이 K^M - 1개의 매개변수를 가지게 된다. 반대로, 그래프의 링크가 하나도 없을 경우 M(K-1)개의 매개변수를 가진다. 추가로 연결 밀집도가 중간정도 되는 다음의 그래프를 생각해보자.

연결 밀집도 중간 정도의 사슬 그래프

이는 완전 연결된 그래프에 비해 적은 매개변수를 가지며, 독립적인 그래프보다 많은 정보를 담게 된다. 매개변수의 경우 x1은 K-1개, x1외의 모든 노드는 K(K-1)개의 매개변수를 가지므로 전체 매개변수는 K-1 + (M-1)K(K-1)가 된다. 이는 K에 대해선 이차식으로, 사슬 길이 M에 대해서는 선형적으로 증가하게 된다.

 

여기서 그래프를 베이지안 모델로 변경하자. 매개변수에 디리클레 사전 분포를 도입함으로써 이산 변수에 대한 그래프를 베이지안 모델로 전환할 수 있다. 이 경우 각 노드들은 매개변수에 대한 디리클레 분포를 지칭하는 부모 노드를 가지게 된다. 따라서 다음과 같이 표현 가능하다.

모델의 매개변수 수를 줄이는 또 다른 방법은 공유(매듭) 매개변수를 이용하는 것이다. 만약 위의 사슬 그래프에서 모든 조건부 분포(즉, x2부터 xM까지)를 각각 다른 K(K-1)개의 매개변수를 사용하는 것이 아니라 모두 같은 K(K-1)개의 매개변수를 사용한다고 가정하자. 이 경우 매개변수의 수는 K-1 + K(K-1) = K^2 - 1이 된다. 이를 다음과 같이 표현할 수 있다.