선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자.
최대가능도를 이용한 w 최적화
타깃 변수 t는 결정 함수 y(x,w)와 가우시안 노이즈의 합으로 주어진다고 가정하자.
여기서 e는 0을 평균으로, β(분산의 역)을 정밀도로 가지는 가우시안 확률 변수이다. 따라서 다음과 같이 적을 수 있다.
위의 식은 t에 대한 확률 분포로, 우변을 보면 y(x,w)결정 함수와, 정밀도에 의해 정의 되는 가우시안 분포로 나타나는 것을 확인할 수 있다.
이제 여러 개의 입력 데이터셋을 가정해보자. X = {x1, ... , xN}이고 t ={t1, ... , tN}이라고 가정한다. 이 때 가능도 함수를 다음과 같이 구할 수 있다.
t의 가능도 함수는 입력 데이터셋의 가우시안 분포를 전부 곱한 것으로 나타난다.
이제 입력변수 x는 항상 조건부 변수 집합에 포함되어 있으므로 표기를 생략하고 나타낸다. 가능도 함수에 로그를 취하면 다음과 같이 정의된다.
여기서 ED(w)는 다음과 같다.
이제 가능도 함수를 적었으니, 최대 가능도 방법을 적용해 w와 β를 구할 수 있다. 먼저 w를 극대화하는 경우를 고려해 보자. 로그 가능도 함수를 w에 대해 미분하면 다음과 같다.
이 값을 0으로 두면 다음을 얻게 된다.
이를 w에 대해 풀면 다음을 얻을 수 있다.
위의 식을 정규 방정식(normal equation)이라고 부른다. 여기서 Φ는 N * M 행렬로, 설계 행렬(design matrix)이라고 불린다. 설계 행렬의 각 원소는 φj (xn)으로 나타난다.
그리고 아래 식을 행렬 Φ의 무어-펜로즈 유사-역(Moor-Penrose pseudo-inverse)라고 부른다.
이렇게 최대 가능도를 이용해 선형 회귀의 파라미터 w를 최적화 할 수 있다.
w0의 역할
w0의 역할에 대해 살펴보자. w0을 명시화 하면 위의 오류함수 ED(w)를 다음과 같이 나타낼 수 있다.
w0에 대한 미분값을 0으로 놓고 w0에 대해 풀면 다음을 구할 수있다.
여기서 다음을 정의하였다.
편향 w0가 훈련 집합의 타깃 변수들의 평균과 기저 함숫값 평균들의 가중 합 사이의 차이를 보상한다는 것을 알 수 있다.
β최적화
위의 로그 가능도 함수를 w가 아니라 β에 대해 최대화하면 다음을 얻게 된다.
노이즈 정밀도의 역이 회귀 함수 근처 타깃 변수들의 잔차 분산으로 주어진다는 것을 알 수 있다.
'Machine Learning > Regression' 카테고리의 다른 글
정규화된 최소 제곱법 (0) | 2023.02.01 |
---|---|
선형 회귀의 Gradient Descent (0) | 2023.02.01 |
선형 회귀 - 선형 기저 함수 모델 (0) | 2023.02.01 |
회귀에서의 손실 함수 (0) | 2023.01.28 |
확률적 측면에서의 곡선 피팅 (0) | 2023.01.27 |