분류 전체보기 84

차원의 저주

오차 최소화 측면에서의 곡선 피팅 오차 최소화 측면에서의 곡선 피팅 곡선 피팅 N개의 관찰값 x로 이루어진 훈련 집합 x ≡ (x1,...,xN )T와 그에 해당하는 표적값 t ≡ (t1,...,tN )T가 주어졌다고 가정하자. 다음 그래프는 N=10 이고, sin(2πx) 함수에 가우시안 노이즈를 첨가 mldiary.tistory.com 확률적 측면에서의 곡선 피팅 확률적 측면에서의 곡선 피팅 앞선 글에서 다항식 곡선 피팅 문제를 오차 최소화의 측면에서 살펴보았다. 여기서는 같은 피팅 문제를 확률적 측면에서 살펴본다. 곡선 피팅 문제의 목표는 N개의 입력값 x = (x1, ... , xN)^T과 해 mldiary.tistory.com 앞서 소개한 다항식 곡선 피팅에서는 입력 변수가 오직 x 하나였다. ..

확률적 측면에서의 곡선 피팅

앞선 글에서 다항식 곡선 피팅 문제를 오차 최소화의 측면에서 살펴보았다. 여기서는 같은 피팅 문제를 확률적 측면에서 살펴본다. 곡선 피팅 문제의 목표는 N개의 입력값 x = (x1, ... , xN)^T과 해당 표적값 t = (t1, ... , tN)^T가 주어진 상황에서 새로운 입력 변수 x가 주어졌을 때 그에 대한 타깃 변수 t를 예측해 내는 것이다. 여기서 확률 분포를 이용하여(여기서는 가우시안 분포를 이용한다)타깃 변수의 값에 대한 불확실성을 표현할 수 있다. 이는 주어진 x값에 대해 피팅한 곡선 y(x,w)를 평균으로 가지는 정규분포를 이용하여 불확실성을 표현한다. 아래 그림으로 위의 설명을 직관적으로 이해할 수 있다. 위의 그림을 보면 x0지점에서 우리가 피팅한 빨간색 곡선을 중심으로 하는 정..

가우시안 분포

가우시안 분포는 단일 실수 변수 x에 대해 다음과 같이 정의된다(µ와 σ는 그래프의 개형을 결정짓는 변수이다). µ는 평균 σ^2은 분산, σ는 표준 편차에 해당한다. 또한 분산의 역수에 해당하는 값 β는 정밀도라고 한다(β = 1/σ^2) 위의 식으로부터 가우시안 분포가 두 조건을 만족한다는 것을 알 수 있다. 가우시안 분포를 따르는 x에 대한 함수의 기댓값은 다음과 같이 구할 수 있다. 연속 변수로 이루어진 D차원 벡터 x에 대한 가우시안 분포는 다음과 같다. D차원 벡터 µ는 평균값, D x D행렬 Σ는공분산이라 한다. |Σ|는 행렬식이다. 관측된 데이터 집합을 바탕으로 확률 분포의 매개변수를 결정하는 방법 중 하나는 가능도 함수를 최대화하는 매개 변수(µ, σ^2)를 찾는 것이다. 관측된 데이터 ..

베이지안 확률 관점, 빈도적 확률 관점

많은 경우에 우리는 확률을 '반복 가능한 임의의 사건의 빈도수'라는 측면에서 바라본다. 이러한 해석을 빈도적 관점(frequentist)이라 일컫는다. 이에 맞서는 개념으로 이번장에서 다룰 베이지안(Bayesian)관점이 존재한다. 어떤 불확실한 사건에 대해 고려해 보자. 예를 들어, '공룡은 운석 충돌로 인해 멸종했다.'와 같은 사건을 생각해 보자. 이러한 사건들은 여러 번 반복할 수 없다. 따라서 앞서 살펴본 과일 상자 예시처럼 확률을 정의하는 것이 불가능하다. 그러나 우리는 이러한 사건들에 대해 견해 즉, 사전 지식을 가지고 있다. 예를 들어 '몇 억년 전 운석 충돌의 흔적이 발견 되었다.'와 같은 증거가 있다. 이러한 증거의 발견으로 인해 우리는 가지고 있던 사전 지식을 수정해 나갈 수 있다. 그..

기댓값과 공분산

확률 밀도 p(x)하에서 어떤 함수 f(x)의 평균값은 f(x)의 기댓값이라 하며 E[f]라 적는다. 이산 분포의 경우 기댓값은 다음과 같이 주어진다. 연속 변수의 경우에는 해당 확률 밀도에 대해 적분을 시행해서 기댓값을 구할 수 있다. 위의 기댓값에 대한 이해를 쉽게하기 위해 키를 예로 들어보자. 우리 나라 남성의 키를 확률 밀도 함수 p(x)로 나타내면, 170 중반을 중심으로 하는 정규 분포 형태의 그래프가 그려질 것이다. 만약 키의 평균 즉, 기대값을 구한다고 하면 위의 공식에서 f(x)는 단순히 x로 나타날 것이고 이를 계산하면 예측대로 E[f]는 170 중반의 값을 띄게 된다. 다변수 함수의 기댓값을 구할 경우에는 어떤 변수에 대해 평균을 내는지 지정하여 계산할 수 있다. 위의 식은 함수 f(..

확률 밀도

때때로 변수는 오렌지의 개수, 박스의 종류와 같이 셀수있는 것이 아니라 키, 몸무게와 같이 연속적인 경우가 있다. 이러한 경우 확률을 표현하는 데 있어 다른 방식을 사용해야 할 것이다. 이러한 연속적인 변수의 확률 p(x)를 확률 밀도(probability density)라고 부른다. 위의 그래프는 확률 밀도 함수의 예시이다. P(x)는 누적 분포 함수라고 부르며 p(x)의 적분값으로 볼 수 있다. p(x)는 확률 밀도 함수라고 부르며 P(x)의 미분값으로 볼 수 있다. 연속형 변수에서 어떤 특정한 값을 가질 확률을 구하는 것은 쉽지 않다. 예를 들어, 키가 임의의 한 사람의 키가 180일 확률을 구한다고 치자. 실제로 그의 키가 정확히 180일 확률 극히 희박하다. 따라서 우리는 179.5~180.5 ..

조건부 확률과 베이즈 정리

확률의 기본적인 컨셉을 이해하기 위해 다음 예시를 살펴보자 다음과 같이 빨간색, 파란색 상자 안에 사과(초록색)와 오렌지(주황색)이 들어있다고 가정하자. 여기서 랜덤하게 상자 하나를 골라 임의로 과일 하나를 꺼내고, 어떤 과일인지 확인 후 꺼냈던 상자에 다시 집어 넣는다고 하자. 이를 여러번 반복할 것이다. 이 과정에서 빨간 상자를 고를 확률이 40%, 파란 상자를 고를 확률이 60%이라고 가정하자. 여기서 상자는 바로 확률 변수이다. 상자를 확률 변수 B라고 하면 이 확률 변수 B는 r, b 두 개의 값을 가질 수 있다. 또한 과일의 정체 역시 확률 변수이며, 이를 F라고 지칭하자. 확률 변수 F는 a(사과), o(오렌지) 두 개의 값을 가질 수 있다. 빨간 상자를 고를 확률이 40%, 파란 상자를 고..

합의 법칙(sum rule), 곱의 법칙(product rule)

합의 법칙 다음 그림과 같은 상황을 고려해보자 행 방향이 확률 변수 X가 가질 수 있는 값 xi이고 열 방향이 확률 변수 Y가 가질 수 있는 값 yj이다. 여기서, X=xi이면서 Y=yj일 확률을 p(X=xi, Y=yj)로 적고 결합 확률이라고 칭한다. 이 결합 확률은 다음과 같이 표현된다. 여기서 nij는 xi이면서 yi일 경우의 수를 뜻하고 N은 전체 가능한 경우의 수를 뜻한다. 위의 그림을 통해서 다음과 같은 식 또한 도출할 수 있다. 위의 두 식을 이용하여 다음을 도출할 수 있다. 이것이 확률의 합의 법칙이다. 때때로 p(X=xi)는 주변 확률이라고 불린다. 곱의 법칙 X=xi인 사례들만 고려해보자. 그 중 Y=yj인 사례들의 비율을 생각해 볼 수 있다. 이를 조건부 확률이라고 하며 p(Y=yj ..

오차 최소화 측면에서의 곡선 피팅

곡선 피팅 N개의 관찰값 x로 이루어진 훈련 집합 x ≡ (x1,...,xN )T와 그에 해당하는 표적값 t ≡ (t1,...,tN )T가 주어졌다고 가정하자. 다음 그래프는 N=10 이고, sin(2πx) 함수에 가우시안 노이즈를 첨가하여 만든 타겟값들이다. 우리의 목표는 훈련 집합 x를 이용하여 새로운 입력값 x가 들어왔을 때 타겟 변수 t를 예측하는 것이다. 해당 곡선을 피팅하는 데 있어 다음과 같은 형태의 다항식을 활용한다. 다항함수 y(x,w)는 x에 대해서는 비선형이지만, 계수 w에 대해서는 선형이다. 우리는 위의 그래프에 파란 점에 해당하는 학습 데이터를 이용하여 새로운 x값이 들어왔을 때 t를 예측할 것이다. 따라서 위의 다항식을 이용하여 데이터가 어떤 형태로 분포하는지 표현하는 것이 목표..

SMOTE 오버샘플링

Over Sampling 분류 문제 중 간혹 클래스의 데이터 양이 균등하지 않은 경우가 있다. 예를들어 신용카드 기록 중 정상 기록과 신용카드 사기 기록을 분류한다고 할 때 모든 데이터셋에서 정상 기록이 월등히 많을 수 밖에 없다. 이렇게 불균등한 데이터셋으로 학습을 진행할 경우 모델이 bias를 가지게 되거나 데이터가 적은 클래스의 다양한 유형을 학습하지 못하는 문제가 있다. 이를 해결하기 위한 방법이 오버샘플링(Over Sampling)이다. 오버샘플링은 적은 데이터를 가진 클래스의 데이터를 다른 클래스와 동일한 크기로 증식시키는 방법이다.  언더 샘플링(under sampling, 오버샘플링과는 반대로 많은 데이터를 가진 클래스의 데이터를 적은 데이터를 가진 클래스와 동일한 크기로 감소시키는 방법)..