Machine Learning/Regression

베이지안 선형 회귀 - 예측 분포(predictive distribution)

진성01 2023. 2. 2. 18:04

이전 글에서 직선 피팅 예시를 통해 베이지안 선형 회귀의 학습 방법을 알아 보았다.

 

베이지안 선형 회귀 - 직선 피팅 예시 (tistory.com)

 

베이지안 선형 회귀 - 직선 피팅 예시

선형 회귀 파라미터 최적화 - 최대 가능도 (tistory.com) 선형 회귀 파라미터 최적화 - 최대 가능도 선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한

mldiary.tistory.com

여기서는 w의 값을 알아내기 위해 학습을 반복했는데 실제 상황에서는 결국 새로운 x값에 대해 t의 값을 예측하는 것이 목표이다. 이를 위해서는 다음과 같이 정의되는 예측 분포(predictive distribution)를 고려해야 한다.

t는 훈련 데이터로으로 이루어진 벡터이다. 이는 정리하면 다음 형태를 띄는 것을 알 수 있다.

여기서 예측 분포의 분산은 다음과 같이 주어진다.

위의 분산의 첫 번째 항은 데이터의 노이즈를 표현하며 두 번째 항은 매개변수 w에 대한 불확실성을 표현한다. 

 

sin(2πx)로 인해 만들어진 관측 데이터를 이용하여 예측 분포를 생성해보자. 9개의 가우시안 기저 함수를 가진 모델을 사용하였다.

빨간색 음영 구간은 표준편차 1인 구역을 표현한 것이다. 파란색은 데이터 포인트, 녹색 선은 피팅해야할 목표 함수, 빨간 선은 우리의 모델이다.

데이터 포인트 근처에서 분산이 작아지며, 관측 데이터가 추가됨에 따라 빨간색 음영 구간이 줄어드는 것을 확인할 수 있다. 이 그림은 x에 대한 함수 하나에 대해 나타내고 있다. 다양한 여러 개의 예측 함수를 그려보면 다음과 같다.

데이터셋이 늘어 남에 따라 예측 곡선이 겹쳐지게 되는 것을 알 수 있다.