Machine Learning/Regression

확률적 측면에서의 곡선 피팅

진성01 2023. 1. 27. 21:21

앞선 글에서 다항식 곡선 피팅 문제를 오차 최소화의 측면에서 살펴보았다. 여기서는 같은 피팅 문제를 확률적 측면에서 살펴본다.

곡선 피팅 문제의 목표는 N개의 입력값 x = (x1, ... , xN)^T과 해당 표적값 t = (t1, ... , tN)^T가 주어진 상황에서 새로운 입력 변수 x가 주어졌을 때 그에 대한 타깃 변수 t를 예측해 내는 것이다. 여기서 확률 분포를 이용하여(여기서는 가우시안 분포를 이용한다)타깃 변수의 값에 대한 불확실성을 표현할 수 있다. 이는 주어진 x값에 대해 피팅한 곡선 y(x,w)를 평균으로 가지는 정규분포를 이용하여 불확실성을 표현한다. 아래 그림으로 위의 설명을 직관적으로 이해할 수 있다.

빨간색 그래프는 피팅한 곡선이며 파란색 그래프는 특정 값 x0에서 우리가 예측한 값의 불확실성을 나타낸다. 파란색 그래프가 평면에 누워있는 것이 아닌 또다른 축 z방향으로 솟아 있다고 생각하면 이해가 쉬울 것이다.

위의 그림을 보면 x0지점에서 우리가 피팅한 빨간색 곡선을 중심으로 하는 정규분포(파란색 그래프)로 나타낸 것을 확인할 수 있다. 

타깃t의 불확실성을 표현한 조건부 분포

따라서 위의 그림과 같이 다음의 조건부 분포로 표현할 수 있다.

이제 훈련 집합 {x, t}를 바탕으로 최대 가능도 방법을 이용해 알려지지 않은 매개변수 β를 구해보자.  위의 식을 바탕으로 가능도 함수는 다음과 같이 주어진다.

가능도 함수

로그는 단조함수이므로 위의 식의 양변에 로그를 취해도 최대값/최소값에는 변함이 없다. 따라서 다음과 같이 유도 가능하다.

여기서 첫 번째로 다항식 계수 w의 최대 가능도 해(wML)를 구해보자. 이는 w에 대해 위의 식을 최대로 만드는 값을 구하면 된다. 이 과정에서 뒤의 두 항은 w와 관련이 없기 때문에 제거해도 된다. 또한, 로그 가능도에 양의 상수를 곱해도 w에 대한 최대값은 변하지 않으르몰 첫 항의 β/2를 1/2로 바꿀 수 있다. 마지막으로 첫 항의 부호를 음에서 양으로 바꾸고 최대값이 아닌 최소값을 구하는 문제로 바꿀 수 있다. 이렇게 변경하고 나면 익숙한 식이 유도된다. 바로 제곱합 오차 함수(MSE)이다. 즉, 최대 가능도를 통해 w를 구하는 시도가 제곱합 오차 함수를 최소로 하는 w를 찾는 것과 같은 문제가 된 것이다.

 

마찬가지로 정밀도 매개변수 β를 결정하는 데도 최대 가능도 방법을 사용할 수 있다. 위의 식을 β에 대해 최대화하면 다음과 같은 식이 도출된다.

이제 매개변수 w와 β를 구했으니 이를 바탕으로 새로운 변수 x에 대해 예측값을 구할 수 있다. 우리는 이전 글에서 다룬 점 추정 방식(하나의 점으로 추정하는 것)이 아닌 확률 모델로 추정하였기 때문에 점 추정이 아닌 예측 분포로 나타나게 된다. 최대 가능도 매개변수들을 대입하면 다음을 얻을 수 있다.

여기서 베이지안 방식을 향해 한 걸음 나아가보자. 베이지안 방식은 추정에 사전 확률을 도입한다. 여기서는 다항 계수 w에 대한 사전 분포를 도입할 것이다. 문제의 단순화를 위해서 사전 분포는 다음 형태를 지닌 가우시안 분포를 이용할 것이다.

여기서 α는 분포의 정밀도이며, M+1은 M차수 다항식 벡터 w의 원소의 개수이다. 베이지안 정리에 따라 w의 사후 분포는 사전 분포와 가능도 함수의 곱에 비례할 것이다.

이제 주어진 데이터에 대해 가장 가능성 높은 w를 찾는 방식으로 w를 결정할 수 있다. 바꿔 말해, 사후 분포를 최대화하는 방식으로 w를 결정하는 것이다. 이것을 최대 사후 분포(maximum posterior, MAP)라 한다. 여기서 최대가능도 방법과 차별되는 점은, p(w|α)로 표현되는, 사전 확률이 도입되었다는 것이다. 위의 식들을 조합하면, 최대 사후 확률을 찾는 것이 다음 식의 최솟값을 찾는 것과 동일함을 알 수 있다.

따라서 사후 분포를 최대화하는 것이 정규화 매개변수 λ = α/β로 주어진 정규화된 제곱합 오차 함수를 최소화하는 것과 동일함을 알 수 있다.