Machine Learning/Regression

베이지안 선형 회귀 - 직선 피팅 예시

진성01 2023. 2. 2. 17:35

선형 회귀 파라미터 최적화 - 최대 가능도 (tistory.com)

 

선형 회귀 파라미터 최적화 - 최대 가능도

선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한 w 최적화 타깃 변수 t는 결정 함수 y(x,w)와 가우시안 노이즈의 합으로 주어진다고 가정하자. 여

mldiary.tistory.com

위의 글에서 빈도적 접근으로 선형 회귀 문제를 풀어보았다. 그러나 빈도적 접근에는 항상 따라붙는 문제가 있는데 바로 과적합(over fitting) 문제이다. 이를 극복하기 위해 정규화항을 추가하여 모델 복잡도를 조정하는 방법이 있었으나 이 마저도 문제인게, 이제는 과적합을 해결하기 위해 모델 복잡도를 잘 조정해야하는 문제가 생긴다. 따라서 빈도적 관점에서의 접근은 결국 과적합 문제를 완벽히 해결할 수 없다. 이런 경우 우리는 베이지안 접근법을 이용하여 과적합 문제를 해결하고는 한다. 빈도적 접근과 베이지안 접근의 차이는 아래 글에서 확인할 수 있다.

 

베이지안 확률 관점, 빈도적 확률 관점 (tistory.com)

 

베이지안 확률 관점, 빈도적 확률 관점

많은 경우에 우리는 확률을 '반복 가능한 임의의 사건의 빈도수'라는 측면에서 바라본다. 이러한 해석을 빈도적 관점(frequentist)이라 일컫는다. 이에 맞서는 개념으로 이번장에서 다룰 베이지안(B

mldiary.tistory.com

베이지안 접근법의 핵심은 사전 확률 p(w)를 도입하고, 관측된 데이터를 이용하여 사전 확률을 수정한다. 사전 지식이 모델에 포함되어있기 때문에 과적합 문제에서 자유롭다는 장점이 있다. 이제 베이지안 방법론을 이용하여 선형 회귀 문제를 해결해보자.

 

가능도와 켤레성을 고려한 사전 분포 정의

 

먼저 사전 분포의 켤레성을 지정하기 위해 가능도를 살펴보자. 가능도는 다음과 같이 나타난다.

가능도

위의 가능도 함수 p(t|w)는 가우시안 분포의 형태이므로  w의 이차 함수의 지수함수로 정의된다. 따라서 이에 해당하는 켤레 사전분포는 다음 형태의 가우시안 분포로 주어지게 된다.

사전 분포

여기서 m0은 평균, S0은 공분산이다.

이제 사후 분포를 계산하자. 사후 분포는 사전 분포와 가능도 함수의 곱에 비례한다. 켤레성을 띄도록 사전 분포를 선택하였으므로 사후 분포도 가우시안 분포일 것이다. 사후 확률은 다음과 같은 형태로 적을 수 있다.

여기서 사후 분포가 가우시안 분포이기 대문에 최빈값과 평균값이 일치한다. 따라서 wMAP = mN으로 주어지게 된다.

이 장에서는 계산을 간단히 하기 위해 평균을 0으로 가지고 정밀도 매개변수 α에 의해 결정되는 등방 가우시안 분포를 사용할 것이다. 이 경우 사전 분포는 다음과 같다.

이에 해당하는 w에 대한 사후 분포는 다음처럼 주어진다.

로그 사후 분포는 로그 사전 분포와 로그 가능도의 합으로 나타낼 수 있다.

 

베이지안 선형 회귀 - 직선 피팅

 

이제 단순한 직선 피팅 예시로 베이지안 선형 회귀의 학습 방법을 알아보자. 직선 피팅이므로 단일 입력 변수 x와 단일 타깃 변수 t를 가정하자. 그리고 y(x,w) = w0 + w1x의 형태를 가지는 선형 모델을 이용하여 피팅해보자. 실제 데이터셋을 생성하는데는 f(x,a) = a0 + a1x를 이용하였으며 a0 = -0.3, a1 = 0.5로 정하였다.

베이지안 방법론 학습 방법. 왼쪽은 데이터가 발견된 후 가능도 함수, 중간은 사후 분포이자 다음 업데이트에 있어서는 사전 분포이다. 오른쪽의 파란 점은 관측 데이터, 빨간 선은 사후 분포를 이용하여 6개의 직선을 그려본 것이다.

위의 그림을 통해 베이지안 학습의 파라미터 업데이터 방식을 알 수 있다. 위에서부터 순서대로 학습이 진행 된다. 

 

첫 번째 순서에는 데이터가 아직 발견되지 않았으므로 사전 분포만 존재한다. 사전 분포는 0을 평균으로하는 가우시안 분포를 사용한다고 하였으므로 그림과 같이 가운데가 밀도가 높고 원 모양의 가우시안 분포로 나타난다.

 

두 번째 순서에서 관측 데이터(파란 점)가 하나 생성되었다.이를 이용해 가능도함수를 구한 결과가 왼쪽에 나타나 있고 이를 사전 분포에 곱한 결과 대각선으로 길게 늘여진 정규 분포가 생성되었다. 아직 데이터가 1개밖에 관측되지 않아 다양한 모양의 직선(빨간 선)이 그려지는 것을 확인할 수 있다.

 

세 번째 순서에서 또 하나의 다른 데이터가 관측되었다. 이는 왼쪽과 같은 가능도 함수를 생성하였고, 두 번째 순서의 사후 분포를 사전 분포로 이용하여 여기에 가능도 함수를 곱한 결과 중간과 같은 사후 분포가 생성되었다. 이전 순서보다 훨씬 좁은 범위로 예측하고 있는 것을 확인할 수 있으며, 직선도 일관된 형태를 띄게 되었다.

 

마지막 순서에서는 여러 개의 추가 데이터를 관측하였다. 그 결과 사후 분포는 매우 좁은 영역을 추정하고 있었으며, 직선 역시 매우 겹쳐있는 모습을 확인할 수 있다.