Machine Learning/Regression

편향 분산 트레이드 오프

진성01 2023. 2. 1. 18:53

이번 글에서는 편향 분산 트레이드 오프(bias various trade off)에 대해 알아본다.

 

과적합 문제는 최대 가능도 방법을 사용할 경우에 동반될 수밖에 없는 성질이다. 최대 가능도와 같은 빈도주의 관점 모델은 이러한 문제를 항상 고려해야 하는데, 이러한 모델의 복잡도에 대해 편향 분산 트레이드 오프라 일컫는다.

 

회귀 문제에서 최적의 예측치 h(x)를 구한다고 하자. h(x)는 다음과 같이 나타난다.

이를 이용하여 기대 제곱 오류를 다음 형태로 적을 수 있음을 이전 글에서 증명했다.

기대 제곱 오류

여기서 두 번째 항은 y(x)와 독립적으로, 데이터의 내재적 노이즈로부터 생겨난 것이며, 기대 오륫값이 도달할 수 있는 가장 최소의 값에 해당한다. 첫 번째 항의 값은 함수 y(x)로 어떤 것을 선택하느냐에 따라 결정된다. 우리 목표는 첫 번째 항의 값을 최소화하는 y(x)를 찾아내는 것이다. 여기서 데이터는 데이터 집합 D로 주어지고, D는 유한한 개수의 데이터 집합을 나타내게 된다.

 

위의 식의 첫 번째 항의 피적분함수를 살펴보자.

이 값은 데이터 집합 D의 선택에 대해 종속적이다. 따라서 각 데이터 집합으로부터 구한 값들을 평균내어 사용할 수 있다. 이 특성을 이용해 전개하면 다음을 얻을 수 있다.

D에 대해 기댓값을 구하면 다음과 같이 정리된다.

y(x;D)와 회귀 함수 h(x)간의 기대 제곱 차가 제곱 편향과 분산으로 나타나는 것을 확인할 수 있다.

편향은 전체 데이터 집합에 대해 평균 예측이 회귀 함수와 얼마나 차이가 나는지를 표현한 것이다.

분산은 데이터 집합에서의 해가 전체 평균에서 얼마나 차이가 나는지를 표현한 것이다.

편향과 분산 사이에는 트레이드 오프 관계가 존재한다. 아주 유연한 모델은 낮은 편향값, 높은 분산값을 가지며, 상대적으로 엄격한 모델은 높은 편향값과 낮은 분산값을 가진다. 두 값 모두 높일수 있는 것이 아니기 때문에 그 사이의 최적의 밸런스를 가지는 모델이 최적의 예측치를 내는 모델이다. sin함수의 피팅 예시를 통해 이를 더 자세히 알아보자.

정규화 계수 λ에 따른 그래프 개형

 

왼쪽 그래프는 각각의 데이터집합 100개를  25개의 매개변수를 가지는 그래프로 나타낸 것이다. 가시성을 위해 100개중 20개만을 빨간색 그래프로 나타내었다. 오른쪽의 초록색 그래프는 데이터를 생성하는데 사용한 함수 h(x) = sin(2πx)이며, 오른쪽의 빨간색 그래프는 왼쪽의 빨간 그래프 100개의 평균을 낸 그래프이다.

그래프를 보면 λ가 높을 수록 즉, 정규화 항을 많이 반영할수록 각 그래프들의 차이가 적은 대신, 완벽하게 피팅하지 못한 것을 알 수 있다. 즉, 분산이 낮은 대신 편향이 높다. 반대로 λ가 낮을수록 즉, 정규화항을 적게 반영할수록 완벽하게 그래프를 피팅하는 대신 각 그래프들의 차이가 매우 크게 나타난다. 즉 분산이 높은 대신 편향이 낮다.

 

이 예시에 대해 편향 분산 트레이드 오프를 수치적으로 확인해 볼 수 있다. 평균 예측치는 다음과 같다.

그리고 적분된 제곱 편향값과 적분된 분산값은 다음과 같다.

다음 그래프를 통해 λ에 따른 편향, 분산의 추이를 쉽게 파악할 수 있다.

위의 예시들을 보면 편향값이 낮고 분산값이 높은 모델을 선택하는 것이 유리하다고 판단할 수 있다. 어쨌든 평균낸 결과 정확도가 높게 나타나기 때문이다. 그러나 이는 충분히 많은 데이터셋을 가지고 있다는 가정 하의 결론이고, 실제 상황에서는 100개의 데이터셋으로 나누어 주어지는 것이 아니라 하나의 큰 데이터셋이 주어지기 마련이다. 이 경우에 대해 분산값이 높으면 그래프가 일관되지 않고 튀는 모습을 보일 수 있다. 따라서 분산과 편향의 밸런스를 가지는 모델을 선택하는 것이 바람직하다.