오차 최소화 측면에서의 곡선 피팅 :: ML Note (tistory.com)
위의 글에서 과적합을 막기 위해 오류 함수에 정규화항을 추가하는 아이디어에 대해 소개했었다. 이를 포함한 오류 함수는 다음 형태를 띄게 된다.
여기서 λ는 데이터에 종속적인 에러 ED(w)와 정규화항 EW(w)의 상대적 중요도를 조절하기 위한 정규화 상수다. 가장 단순한 형태의 정규화항은 가중치 벡터 원소들의 제곱합이다.
이 경우 w의 값이 커질수록 정규화항의 값이 매우 커져 오차 함수의 값이 증폭하게 된다.
다음 형태로 주어지는 제곱합 오류 함수를 고려해 보자.
정규화항을 함께 고려하면 전체 오류 함수는 다음과 같이 된다.
해당 형태의 정규화항을 가중치 감쇠(weight decay)라고 불린다. 그 이유는 순차 학습 알고리즘에서 데이터에 의해 값이 지지되지 않는 이상 w의 값을 0으로 만들어 가기 때문이다. 이 정규화항을 쓰는 것의 한 가지 이점은 오류 함수가 w의 이차 함수의 형태로 유지되며, 따라서 오류 함수를 최소화하는 값을 닫힌 형태로 찾아낼 수 있다는 것이다. 즉, 미분을 통해 최소화하는 값을 찾아내기 쉽다는 것이다. w에 대한 기울기를 0으로 놓고 w에 대해 푸는 것으로 다음을 구할 수 있다.
정규화항을 일반화하여 다음과 같이 표현할수도 있다.
q=2일 경우 위에서 살펴본 이차 정규화항이 된다.
q=1일 경우 라쏘(lasso)라고 일컫는다. 라쏘 정규화항을 시행할 경우 λ값을 충분히 크게 설정하면 몇몇 계수 wj가 0이 된다. 이런 모델을 희박한(sparse) 모델이라고 한다. 이때 계수가 0이 된 해당 항의 기저 함수는 더이상 사용되지 않는다.
다음 그림을 통해 라쏘가 희박해를 가지게 되는 이유를 시각적으로 알 수 있다.
'Machine Learning > Regression' 카테고리의 다른 글
베이지안 선형 회귀 - 직선 피팅 예시 (0) | 2023.02.02 |
---|---|
편향 분산 트레이드 오프 (0) | 2023.02.01 |
선형 회귀의 Gradient Descent (0) | 2023.02.01 |
선형 회귀 파라미터 최적화 - 최대 가능도 (0) | 2023.02.01 |
선형 회귀 - 선형 기저 함수 모델 (0) | 2023.02.01 |