Machine Learning/Regression

회귀에서의 손실 함수

진성01 2023. 1. 28. 20:48

분류 문제 결정 이론

 

세 가지 결정 이론(오분류 비율 최소화, 기대 손실 최소화, 거부 옵션)

결정 이론(decision theory)란 불확실성이 존재하는 상황에서 최적의 의사결정을 내리는 방법에 대한 이론이다. 특히 분류 문제에서 여러가지 label값들 중 하나의 값의 확률이 100%로 나타나는 것이

mldiary.tistory.com

 

위의 글에서 분류 문제를 기준으로 결정 이론을 살펴보았다. 회귀 문제에서도 결정 이론이 존재한다. 회귀 문제의 결정 단계에서는 각각의 x에 대해 t의 추정값 y(x)를 선택해야 한다. 이 과정에서 손실L(t,y(x))가 발생한다고 가정하자. 그러면 평균 기대 손실은 다음과 같이 주어진다.

회귀에서의 기대 손실

분류 문제에서는 손실 값이 손실 행렬으로써 이산적으로 표현되었으나 회귀 문제에서는 L(t,y(x)) = {y(x) - t}^2로 주어지는 제곱 손실을 사용한다. 즉 시그마가 아닌 적분 기호를 사용한다. 이 경우 기대 손실은 다음과 같다.

우리의 목표는 E[L]을 최소화하는 y(x)를 선택하는 것이다. 만약 완벽하게 유연한 함수 y(x)를 결정할 수 있다면 다음과 같이 적을 수 있다(미분 후 0이되는 지점을 찾아 E[L]을 최소화한다).

y(x)에 대해 해를 구하고 확률의 합과 곱의 법칙을 적용하면 다음을 얻게 된다(계산은 생략 되었다).

식 1.89

위의 식은 x가 주어졌을 때 t의 조건부 평균으로써 회귀 함수(regression function)라고 한다. 이 결과는 다음 그림과 같이 표현된다.

분류 문제에서와 마찬가지로 회귀 문제에서도 적절한 확률값들을 먼저 구한 후 최적의 결정을 내릴 수도 있고, 결정을 직접 내리는 모델을 만들 수도 있다. 

 

(a) 결합 밀도 p(x,t)를 우선 구한다. 다음 이를 정규화하여 조건부 밀도 p(t|x)를 구하고 최종적으로 식1.89에 해당하는 조건부 평균을 구한다.

(b) 조건부 밀도 p(t|x)를 직접 구하고 식1.89를 구한다.

(c) 데이터셋으로부터 회귀 함수 y(x)를 직접 구한다.

 

각각의 장단점은 분류문제의 세 가지 방법과 일맥 상통한다.

 

회귀 문제의 손실함수로 제곱 손실 이외에 다른 것을 사용할수도 있다. 제곱 손실을 일반화한 예시인 민코프스키 손실의 기댓값은 다음과 같이 주어진다.

민코프스키 손실