Mathematics/Statistics

정보 이론

진성01 2023. 1. 28. 21:44

정보 이론은 확률론 결정 이론 등과 함께 머신러닝 & 패턴인식에서 중요한 개념이다. 이번 글에서는 정보이론에 대해 소개한다.

 

이산확률 변수 x를 고려해보자. 이 변수가 특정 값을 가지고 있는 것을 확인했을 때 전달되는 정보의 양은 얼마만큼일까? 여기서 정보의 양은 '놀라움의 정도'로 생각할 수 있을 것이다. 매우 일어날 가능성이 높은 사건이 일어났다는 사실을 전해들었을 때보다 일어나기 매우 힘든 사건이 발생했다는 사실을 전해 들었을 때 더 많은 정보를 전달받는게 된다. 따라서 우리가 사용하게 될 정보량의 측정 단위는 해당 사건이 일어날 확률 p(x)의 종속적이게 된다. p(x)에 단조 함수인 정보량을 표현하는 함수 h(x)에 대해 살펴보도록 하자.

서로 연관되어 있지 않은(독립적인) 두 사건 x, y가 함께 일어났을 때, 총 정보량은 각 정보량의 합이 될 것이다. 따라서 h(x, y) = h(x) + h(y)이다. 독립적인 두 사건이 동시에 일어날 확률은 p(x, y) = p(x)p(y)이다. 이 두 식의 관계로부터 h(x)는 p(x)의 로그에 해당한다는 것을 알 수 있다. 로그의 성질이 곱을 합으로 바꿔주기 때문이다. 이에 따라 다음 식을 얻게 된다.

정보량

음의 부호는 정보량이 음의 값을 가지지 않도록 하기 위해 붙여졌다. 로그의 밑 2는 이진 부호인 '비트'가 된다.

 

송신자가 어떤 확률 변수 값을 수신자에게 전송하고자 할 때 전송에 필요한 정보량의 평균치는 p(x)에 대해 다음 식의 기댓값을 구함으로써 알아낼 수 있다.

이 값이 바로 확률 변수 x의 엔트로피(entropy)이다. 

 

엔트로피를 바탕으로 8개의 값을 같은 확률로 가지는 변수를 전송한다고 하자. 이 변수의 값 x에 대해 수신자에게 전달하기 위해 3비트 길이의 메시지를 전송해야 할 것이다.

그런데 만약 똑같이 8개의 값을 가질 수 있는데 각각의 값을 가질 확률이 (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)라고 해보자. 즉, 확률이 균일하지 않고 비균일 한 것이다. 이 경우 엔트로피는 다음과 같다.

비균일 분포의 엔트로피가 균일 분포의 엔트로피보다 낮은 것을 알 수 있다. 이는 엔트로피가 무질서의 척도를 나타낸다는 것을 알 수 있다. 실제로 엔트로피가 높다는 것은 무질서도가 높다는 것에 해당하며, 무질서도 즉, 정리가 되어있지 않은 정도는 균일할 때보다 비균일 할 때 더 낮다. 

예시로, 냉장고를 생각해보자. 냉장고는 내부의 온도와 외부의 온도가 다르다. 이러한 경우 엔트로피 즉, 무질서도는 낮다. 질서가 있게 전기에너지를 통해 온도를 분리하고 있기 때문이다. 만약 냉장고의 코드를 뽑는다면 냉장고 내부와 외부의 온도는 균일해질 것이며 무질서도는 높아지게 된다. 첨언하자면, 자연의 모든 현상은 외부의 개입이 있는 한 엔트로피가 높아지는 방향으로 일어난다(전기 에너지가 공급되지 않는데 냉장고 외부와 내부의 온도가 자연적으로 분리되지 않을 것이다).

 

송신자, 수신자 예시에서 엔트로피를 확률 변수의 상태를 결정짓는 데 필요한 정보량의 평균으로 정의하였다. 이러한 관점은 다음과 같이 이해할 수 있다.  

N개의 동일한 물체가 몇 개의 통 안에 담겨있다고 가정하자. 이 때 i번째 통에 ni개의 물체가 담기도록 할 것이다. 물체를 통 안에 담는 방법의 가짓수에 대해 고려해 보자. 첫 번째 물체를 선택하는 데는 N가지의 방법이, 두 번째 물체를 통에 나누어 담는 데는 N!개의 방법이 있다는 것을 알 수 있다. 하지만 여기서는 통에 담기는 물체의 순서가 고려되었다. 동일한 물체이므로 순서는 중요하지 않고 따라서 N개의 물체를 통에 넣는 가짓수는 다음과 같아진다.

다중도

위의 식을 다중도라고 한다. 엔트로피는 다중도의 로그를 취해서 적절한 상수로 나눈 것이다.

다중도에서 유도한 엔트로피

비율 ni/N을 그대로 유지시킨 상태에서 N ->∞을 취하고 여기에 스털링 근사식을 적용해 보자.

각각의 통을 확률 변수 X의 상태 xi라고 해석할 수 있다. 이 경우 확률 변수 X의 엔트로피는 다음과 같다.

확률 변수 X의 엔트로피

엔트로피에 따른 확률 분포를 다음과 같은 그림으로 나타낼 수 있다.

넓게 퍼진 분포의 엔트로피가 더 큰 것을 확인할 수 있다.

위의 그림은 30개의 계급 구간에 대한 히스토그램이다. 이 경우 엔트로피가 최대화 되는 경우는 균일 분포로서 H = -ln(1/30) = 3.40이다. 

 

지금까지는 이산 변수에 대해 엔트로피를 계산하였다. 이제는 연속 변수 x에 대한 분포 p(x)도 포함시키는 과정을 살펴보자.

위와 같은 식을 통해 연속 변수를 이산 분포화 시킬 수 있다. 이 경우 해당 엔트로피는 다음 형태를 띈다.

여기서 이산 분포를 연속 분포로 변경하기 위해 Δ->0으로 극한을 취한다. 이때 위의 식의 마지막 항dl lnΔ 이다. 만약 Δ->0으로 극한을 취하면 이 항은 무한대로 발산할 것이다 .따라서 해당 항을 제외하고 Δ->0을 고려해보자(사실 p(x)에 관한 엔트로피를 구하는 것이므로 중요한 항이 아니다).

연속 변수에 대한 미분 엔트로피는 다음과 같이 주어지는 것을 알 수 있다. 이산 분포의 경우 확률 분포가 변수가 가능한 모든 상태에 대해 같은 확률을 가질 때(균일할 때) 최대인 것을 확인하였다. 연속 변수의 경우에는 어떨까? 다음 세 가지 제약조건을 통해 라그랑주 승수법을 이용하여 최댓값을 구할 수 있다.

세 가지 정규화 제약 조건
라그랑주 승수법을 이용한 최댓값 구하기

최종 결과는 다음과 같다.

가우시안 분포

많이 익숙한 식이다. 바로 가우시안 분포이다. 즉, 미분 엔트로피의 값을 최대화하는 분포는 가우시안 분포라는 것을 알 수 있다. 여기서 한 가지 놀라운 사실을 발견할 수 있다. 앞서, 자연에서 발생하는 모든 사건은 엔트로피가 높아지는 방향으로 일어난다고 하였다. 그리고, 위의 유도를 통해 연속변수의 엔트로피를 최대화하는 것은 가우시안 분포라는 것을 알았다. 즉, 자연계의 모든 사건은(외부 개입이 없는 한) 정규분포를 따른다는 가정이 성립한다는 것이다.

우리는 보통 자연계의 어떠한 사건의 분포를 가정할 때 큰 고민 없이 정규분포를 따른다고 가정한다. 그에 대한 근거가 바로 여기서 증명된 것이다. 

 

다시 돌아와서, 가우시안 분포의 엔트로피를 구해보자.

분포가 더 넓게 퍼져있을수록 엔트로피가 증가한다는 것을 다시 한 번 확인할 수 있다.