분류 전체보기 84

베이지안 네트워크 - 이산 변수

노드들이 이산 변수인 경우에 대해 살펴보자. K개의 상태를 가질 수 있는 단일 이산 변수 x(원-핫 인코딩)의 확률 분포 p(x|µ)를 다음과 같이 표현할 수 있다. 그리고 이 확률 분포는 매개변수 µ = (µ1, ... , µK)T에 의해 조절된다. 또한 µ 의 모든 원소를 합하면 1이므로 K-1개의 µk값만 설정하면 된다. 이번에는 변수를 한 개 더 늘려보자. K개의 상태를 가지는 두 개의 이산 변수 x1, x2를 고려해 보자. 그리고 이들의 결합 분포를 모델링한다고 하자. x1k = 1과 x2l = 1를 둘 다 관측할 확률을 µkl이라고 하자. 여기서 x1k는 x1의 k번째 성분, x2l은 x2의 l번째 성분을 의미한다. µkl이 제약 조건 으로 다음을 가진다. 따라서 이 분포는 K^2-1개의 매개..

베이지안 네트워크 - 다항 근사 예시

베이지안 네트워크를 이해하기 위해 베이지안 다항 회귀 예시를 생각해 보자. 여기서 확률 변수는 다항 계수의 벡터 w와 t = (t1, ... , tN)T 이다. t, w의 결합 분포는 확률의 곱의 법칙에 의해 다음과 같이 표현된다. 이 결합 분포를 다음과 같은 그래프 모델로 표현할 수 있다. 그래프의 노드가 '.......' 으로 연결된 것을 볼 수 있다. 이는 타깃 집합 벡터 t를 개개의 데이터 tn으로 표현하고자 할 때 노드를 생략하기 위해 위와 같이 표현한다. 그러나 위와 같이 표현하는 것도 간결하지 못하다. 따라서 이제는 대표 노드 tn을 그리고 판으로 둘러쌈으로써 표현할 것이다. 위의 결합 확률 모델은 많은 매개 변수들이 생략되어 있다. t, w로만 확률 분포를 표현하였는데 사실 이 결합 확률에..

베이지안 네트워크

확률 분포를 그래프로 표현하기 위한 방법에 대해 알아보자. 세 개의 변수 a, b, c에 대한 결합 분포 p(a, b, c)를 고려해 보자. 확률의 곱 법칙을 사용하면 다음 형태로 적을 수 있다. 확률의 곱 법칙을 이용하여 조건부 분포로 만들었으나 아직 p(a, b)의 결합 분포가 존재한다. 한 번 더 곱의 법칙을 적용하자. 이제 다음 식을 그래프 모델로 만들어 보자. 조건부 분포를 방향성 링크로 하여 그래프에 추가하도록 하자. 예를 들어, p(b|a)의 경우 a -> b로 표현하는 것이다. 이렇게 표현한 그래프는 다음과 같다. 조건부 분포를 방향성 링크로 표현함으로써 확률 변수들의 조건부 성질들을 그래프가 표현하게 되었다. 여기서 중요한 점은 결합 분포 p(a, b, c)에서 확률 변수들은 대칭적이었으..

확률적 그래프 모델(probabilistic graphical model)

확률적 그래프 모델이란 확률 모델을 도식적으로 표현한 것이다. 이를 이용하면 다양한 장점이 존재한다. 확률 모델의 구조를 시각화하며, 새로운 모델 설계에 이용 조건부 독립 성질과 같은 모델에 대한 통찰을 얻을 수 있음 복잡한 계산들을 그래프 조작의 형태로 표현할 수 있다. 그래프 모델은 크게 두 가지로 나뉜다. 방향성 그래프 모델(directed graphical model) 비방향성 그래프 모델(undirected graphical model) 방향성 그래프 모델은 베이지안 네트워크(Bayesian network)라고도 부르며, 링크들이 방향성을 가지는 그래프 모델이다. 비방향성 그래프 모델은 마르코프 무작위장(Markov random field)이라고도 부르며, 링크가 방향성을 가지지 않는다. 앞으로..

베이지안 선형 회귀 - 예측 분포(predictive distribution)

이전 글에서 직선 피팅 예시를 통해 베이지안 선형 회귀의 학습 방법을 알아 보았다. 베이지안 선형 회귀 - 직선 피팅 예시 (tistory.com) 베이지안 선형 회귀 - 직선 피팅 예시 선형 회귀 파라미터 최적화 - 최대 가능도 (tistory.com) 선형 회귀 파라미터 최적화 - 최대 가능도 선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한 mldiary.tistory.com 여기서는 w의 값을 알아내기 위해 학습을 반복했는데 실제 상황에서는 결국 새로운 x값에 대해 t의 값을 예측하는 것이 목표이다. 이를 위해서는 다음과 같이 정의되는 예측 분포(predictive distribution)를 고려해야 한다. t는 훈련 데이터로으로 이루어진 벡터이다. 이..

베이지안 선형 회귀 - 직선 피팅 예시

선형 회귀 파라미터 최적화 - 최대 가능도 (tistory.com) 선형 회귀 파라미터 최적화 - 최대 가능도 선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한 w 최적화 타깃 변수 t는 결정 함수 y(x,w)와 가우시안 노이즈의 합으로 주어진다고 가정하자. 여 mldiary.tistory.com 위의 글에서 빈도적 접근으로 선형 회귀 문제를 풀어보았다. 그러나 빈도적 접근에는 항상 따라붙는 문제가 있는데 바로 과적합(over fitting) 문제이다. 이를 극복하기 위해 정규화항을 추가하여 모델 복잡도를 조정하는 방법이 있었으나 이 마저도 문제인게, 이제는 과적합을 해결하기 위해 모델 복잡도를 잘 조정해야하는 문제가 생긴다. 따라서 빈도적 관점에서의 접근은 ..

편향 분산 트레이드 오프

이번 글에서는 편향 분산 트레이드 오프(bias various trade off)에 대해 알아본다. 과적합 문제는 최대 가능도 방법을 사용할 경우에 동반될 수밖에 없는 성질이다. 최대 가능도와 같은 빈도주의 관점 모델은 이러한 문제를 항상 고려해야 하는데, 이러한 모델의 복잡도에 대해 편향 분산 트레이드 오프라 일컫는다. 회귀 문제에서 최적의 예측치 h(x)를 구한다고 하자. h(x)는 다음과 같이 나타난다. 이를 이용하여 기대 제곱 오류를 다음 형태로 적을 수 있음을 이전 글에서 증명했다. 여기서 두 번째 항은 y(x)와 독립적으로, 데이터의 내재적 노이즈로부터 생겨난 것이며, 기대 오륫값이 도달할 수 있는 가장 최소의 값에 해당한다. 첫 번째 항의 값은 함수 y(x)로 어떤 것을 선택하느냐에 따라 결..

정규화된 최소 제곱법

오차 최소화 측면에서의 곡선 피팅 :: ML Note (tistory.com) 오차 최소화 측면에서의 곡선 피팅 곡선 피팅 N개의 관찰값 x로 이루어진 훈련 집합 x ≡ (x1,...,xN )T와 그에 해당하는 표적값 t ≡ (t1,...,tN )T가 주어졌다고 가정하자. 다음 그래프는 N=10 이고, sin(2πx) 함수에 가우시안 노이즈를 첨가 mldiary.tistory.com 위의 글에서 과적합을 막기 위해 오류 함수에 정규화항을 추가하는 아이디어에 대해 소개했었다. 이를 포함한 오류 함수는 다음 형태를 띄게 된다. 여기서 λ는 데이터에 종속적인 에러 ED(w)와 정규화항 EW(w)의 상대적 중요도를 조절하기 위한 정규화 상수다. 가장 단순한 형태의 정규화항은 가중치 벡터 원소들의 제곱합이다. 이..

선형 회귀의 Gradient Descent

최대가능도 선형 회귀 파라미터 최적화 - 최대 가능도 선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한 w 최적화 타깃 변수 t는 결정 함수 y(x,w)와 가우시안 노이즈의 합으로 주어진다고 가정하자. 여 mldiary.tistory.com 위의 글에서 살펴본 것처럼 최대 가능도 해와 같이 일괄 처리 테크닉을 활용하기 위해서는 전체 데이터셋을 한 번에 처리해야 한다. 하지만 큰 데이터셋에 있어 이러한 방식이 계산적으로 어려울 수 있다. 이런 경우 순차적 알고리즘을 활용하는 것이 나을 수 있다. 이러한 방식을 확률적 경사 하강법(Stochastic Gradient Descent)이라고 부른다. 이 방법으로 w를 다음과 같이 업데이트 할 수 있다. 여기서 τ는 반..

선형 회귀 파라미터 최적화 - 최대 가능도

선형 회귀의 파라미터 w를 최적화하기 위해 최대 가능도 방법을 이용해보자. 최대가능도를 이용한 w 최적화 타깃 변수 t는 결정 함수 y(x,w)와 가우시안 노이즈의 합으로 주어진다고 가정하자. 여기서 e는 0을 평균으로, β(분산의 역)을 정밀도로 가지는 가우시안 확률 변수이다. 따라서 다음과 같이 적을 수 있다. 위의 식은 t에 대한 확률 분포로, 우변을 보면 y(x,w)결정 함수와, 정밀도에 의해 정의 되는 가우시안 분포로 나타나는 것을 확인할 수 있다. 이제 여러 개의 입력 데이터셋을 가정해보자. X = {x1, ... , xN}이고 t ={t1, ... , tN}이라고 가정한다. 이 때 가능도 함수를 다음과 같이 구할 수 있다. t의 가능도 함수는 입력 데이터셋의 가우시안 분포를 전부 곱한 것으로..