Machine Learning 43

선형 회귀 파라미터 최적화 - 최대 가능도

선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한 w 최적화 타깃 변수 t는 결정 함수 y(x,w)와 가우시안 노이즈의 합으로 주어진다고 가정하자. 여기서 e는 0을 평균으로, β(분산의 역)을 정밀도로 가지는 가우시안 확률 변수이다. 따라서 다음과 같이 적을 수 있다. 위의 식은 t에 대한 확률 분포로, 우변을 보면 y(x,w)결정 함수와, 정밀도에 의해 정의 되는 가우시안 분포로 나타나는 것을 확인할 수 있다. 이제 여러 개의 입력 데이터셋을 가정해보자. X = {x1, ... , xN}이고 t ={t1, ... , tN}이라고 가정한다. 이 때 가능도 함수를 다음과 같이 구할 수 있다. t의 가능도 함수는 입력 데이터셋의 가우시안 분포를 전부 곱한 것으로..

선형 회귀 - 선형 기저 함수 모델

가장 단순한 형태의 선형 회귀 모델은 입력 변수들의 선형 결합을 바탕으로 한 모델이다. 이를 선형 회귀(linear regression) 모델이라고 부른다. 선형 회귀의 가장 중요한 성질은 매개변수 w0, ... , wD의 선형 함수라는 것이다. 또한 이 모델은 입력 변수 xi의 선형 함수이기도 한데, 바로 이 성질 때문에 선형 회귀 모델에는 심각한 한계점이 존재한다. 이러한 한계점을 극복하기 위해 다음처럼 입력 변수에 대한 고정 비선형 함수들의 선형 결합을 사용할 수 있다. 여기서 φj (x)가 기저 함수(basis function)이다. 이 모델의 배개변수의 총 숫자는 M-1 + 1(w0) = M이 된다. 매개변수 w0은 데이터에 있는 편향을 표현할 수 있게 해준다. 따라서 편향 매개변수라고 부르기도..

회귀에서의 손실 함수

분류 문제 결정 이론 세 가지 결정 이론(오분류 비율 최소화, 기대 손실 최소화, 거부 옵션) 결정 이론(decision theory)란 불확실성이 존재하는 상황에서 최적의 의사결정을 내리는 방법에 대한 이론이다. 특히 분류 문제에서 여러가지 label값들 중 하나의 값의 확률이 100%로 나타나는 것이 mldiary.tistory.com 위의 글에서 분류 문제를 기준으로 결정 이론을 살펴보았다. 회귀 문제에서도 결정 이론이 존재한다. 회귀 문제의 결정 단계에서는 각각의 x에 대해 t의 추정값 y(x)를 선택해야 한다. 이 과정에서 손실L(t,y(x))가 발생한다고 가정하자. 그러면 평균 기대 손실은 다음과 같이 주어진다. 분류 문제에서는 손실 값이 손실 행렬으로써 이산적으로 표현되었으나 회귀 문제에서는..

추론과 결정

세 가지 결정 이론 세 가지 결정 이론(오분류 비율 최소화, 기대 손실 최소화, 거부 옵션) 결정 이론(decision theory)란 불확실성이 존재하는 상황에서 최적의 의사결정을 내리는 방법에 대한 이론이다. 특히 분류 문제에서 여러가지 label값들 중 하나의 값의 확률이 100%로 나타나는 것이 mldiary.tistory.com 지금까지 분류 문제를 두 개의 단계로 나누어 보았다. 첫 번째는 추론 단계(inference stage)로 훈련 데이터셋을 활용하여 p(Ck|x)에 대한 모델을 학습시키는 단계이다. 두 번째는 결정 단계(decision stage)로 학습된 사후 확률들을 이용해서 최적의 클래스 할당을 시행하는 것이다. 두 가지 문제를 한 번에 풀어내는 방법을 생각해 볼 수도 있는데, x..

세 가지 결정 이론(오분류 비율 최소화, 기대 손실 최소화, 거부 옵션)

결정 이론(decision theory)란 불확실성이 존재하는 상황에서 최적의 의사결정을 내리는 방법에 대한 이론이다. 특히 분류 문제에서 여러가지 label값들 중 하나의 값의 확률이 100%로 나타나는 것이 아니라면 예측 결과가 틀릴 수도 있는 위험에 처하게 된다. 이러한 불확실성이 존재하는 상황에서 결정을 내리는 3가지 방법론에 대해 소개한다. 결정 이론을 이해하고 비교하기 위해 다음과 같은 예시를 생각해보자. 환자의 엑스레이 이미지를 바탕으로 그 환자가 암에 걸렸는지 아닌지 판단하는 진단 문제를 고려해보자. 이 경우 입력 벡터 x는 이미지의 픽셀 강도 집합에 해당할 것이며, t는 환자가 암에 걸렸는지 아닌지를 나타내는 출력 변수일 것이다. 여기서는 환자에게 암이 있다고 판단할 경우에는 클래스 C1..

확률적 측면에서의 곡선 피팅

앞선 글에서 다항식 곡선 피팅 문제를 오차 최소화의 측면에서 살펴보았다. 여기서는 같은 피팅 문제를 확률적 측면에서 살펴본다. 곡선 피팅 문제의 목표는 N개의 입력값 x = (x1, ... , xN)^T과 해당 표적값 t = (t1, ... , tN)^T가 주어진 상황에서 새로운 입력 변수 x가 주어졌을 때 그에 대한 타깃 변수 t를 예측해 내는 것이다. 여기서 확률 분포를 이용하여(여기서는 가우시안 분포를 이용한다)타깃 변수의 값에 대한 불확실성을 표현할 수 있다. 이는 주어진 x값에 대해 피팅한 곡선 y(x,w)를 평균으로 가지는 정규분포를 이용하여 불확실성을 표현한다. 아래 그림으로 위의 설명을 직관적으로 이해할 수 있다. 위의 그림을 보면 x0지점에서 우리가 피팅한 빨간색 곡선을 중심으로 하는 정..

오차 최소화 측면에서의 곡선 피팅

곡선 피팅 N개의 관찰값 x로 이루어진 훈련 집합 x ≡ (x1,...,xN )T와 그에 해당하는 표적값 t ≡ (t1,...,tN )T가 주어졌다고 가정하자. 다음 그래프는 N=10 이고, sin(2πx) 함수에 가우시안 노이즈를 첨가하여 만든 타겟값들이다. 우리의 목표는 훈련 집합 x를 이용하여 새로운 입력값 x가 들어왔을 때 타겟 변수 t를 예측하는 것이다. 해당 곡선을 피팅하는 데 있어 다음과 같은 형태의 다항식을 활용한다. 다항함수 y(x,w)는 x에 대해서는 비선형이지만, 계수 w에 대해서는 선형이다. 우리는 위의 그래프에 파란 점에 해당하는 학습 데이터를 이용하여 새로운 x값이 들어왔을 때 t를 예측할 것이다. 따라서 위의 다항식을 이용하여 데이터가 어떤 형태로 분포하는지 표현하는 것이 목표..

SMOTE 오버샘플링

Over Sampling 분류 문제 중 간혹 클래스의 데이터 양이 균등하지 않은 경우가 있다. 예를들어 신용카드 기록 중 정상 기록과 신용카드 사기 기록을 분류한다고 할 때 모든 데이터셋에서 정상 기록이 월등히 많을 수 밖에 없다. 이렇게 불균등한 데이터셋으로 학습을 진행할 경우 모델이 bias를 가지게 되거나 데이터가 적은 클래스의 다양한 유형을 학습하지 못하는 문제가 있다. 이를 해결하기 위한 방법이 오버샘플링(Over Sampling)이다. 오버샘플링은 적은 데이터를 가진 클래스의 데이터를 다른 클래스와 동일한 크기로 증식시키는 방법이다.  언더 샘플링(under sampling, 오버샘플링과는 반대로 많은 데이터를 가진 클래스의 데이터를 적은 데이터를 가진 클래스와 동일한 크기로 감소시키는 방법)..

스태킹 앙상블 (Stacking Ensemble)

이번 글에서는 앙상블 모델의 한 종류인 스태킹 앙상블(Stacking Ensemble)에 대해 소개한다. Stacking Ensemble 스태킹 앙상블은 여러 모델을 이용하여 결과를 도출한 후 이를 종합하여 최종 예측을 한다는 점에서 보팅, 배깅 등의 다른 앙상블과 공통점이 있다. 스태킹 앙상블의 가장 중요한 차이점은 다음과 같다. 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다 왼쪽 그림이 보팅, 오른쪽 그림이 스태킹이다. 보팅은 학습데이터를 이용해 개별 모델들을 학습하고, 학습된 모델들을 기반으로 검증데이터의 label을 예측하여 예측결과를 합산하는 방식이다. 스태킹은 반면, 학습데이터를 이용하여 개별 모델을 학습하고, 학습 과정 중에 예측했던 개별 모델의 예측값을 모두 취합하여 최종..

하이퍼 파라미터 튜닝 기법 (Grid Search, 베이지안 최적화)

머신러닝 알고리즘의 성능을 가장 간단하게 올릴 수 있는 방법은 하이퍼 파라미터를 적절하게 튜닝하는 것이다. 이번 글에서는 대표적인 하이퍼 파라미터 튜닝 기법인 Grid Search와 베이지안 최적화에 대해 소개한다. Hyper Parameter 하이퍼 파라미터란 학습 모델의 '설정'과도 같다. 모델 선언시 각각의 모델이 가진 설정을 변경하지 않는다면 기본값으로 설정되고, 모델은 이 설정을 참고하여 학습을 진행한다. 대표적인 하이퍼 파라미터로는 학습률(Learning Rate), 반복 횟수(Epoch, 주로 딥러닝에서 사용) 등이 있다. 각각의 학습 모델은 특정 하이퍼 파라미터 값의 조합에서 가장 높은 성능을 발휘한다. 이 조합은 같은 종류의 모델이더라도 데이터셋의 크기나 종류에 따라 완전히 다른 조합이 ..