Mathematics/probability 6

가우시안 분포

가우시안 분포는 단일 실수 변수 x에 대해 다음과 같이 정의된다(µ와 σ는 그래프의 개형을 결정짓는 변수이다). µ는 평균 σ^2은 분산, σ는 표준 편차에 해당한다. 또한 분산의 역수에 해당하는 값 β는 정밀도라고 한다(β = 1/σ^2) 위의 식으로부터 가우시안 분포가 두 조건을 만족한다는 것을 알 수 있다. 가우시안 분포를 따르는 x에 대한 함수의 기댓값은 다음과 같이 구할 수 있다. 연속 변수로 이루어진 D차원 벡터 x에 대한 가우시안 분포는 다음과 같다. D차원 벡터 µ는 평균값, D x D행렬 Σ는공분산이라 한다. |Σ|는 행렬식이다. 관측된 데이터 집합을 바탕으로 확률 분포의 매개변수를 결정하는 방법 중 하나는 가능도 함수를 최대화하는 매개 변수(µ, σ^2)를 찾는 것이다. 관측된 데이터 ..

베이지안 확률 관점, 빈도적 확률 관점

많은 경우에 우리는 확률을 '반복 가능한 임의의 사건의 빈도수'라는 측면에서 바라본다. 이러한 해석을 빈도적 관점(frequentist)이라 일컫는다. 이에 맞서는 개념으로 이번장에서 다룰 베이지안(Bayesian)관점이 존재한다. 어떤 불확실한 사건에 대해 고려해 보자. 예를 들어, '공룡은 운석 충돌로 인해 멸종했다.'와 같은 사건을 생각해 보자. 이러한 사건들은 여러 번 반복할 수 없다. 따라서 앞서 살펴본 과일 상자 예시처럼 확률을 정의하는 것이 불가능하다. 그러나 우리는 이러한 사건들에 대해 견해 즉, 사전 지식을 가지고 있다. 예를 들어 '몇 억년 전 운석 충돌의 흔적이 발견 되었다.'와 같은 증거가 있다. 이러한 증거의 발견으로 인해 우리는 가지고 있던 사전 지식을 수정해 나갈 수 있다. 그..

기댓값과 공분산

확률 밀도 p(x)하에서 어떤 함수 f(x)의 평균값은 f(x)의 기댓값이라 하며 E[f]라 적는다. 이산 분포의 경우 기댓값은 다음과 같이 주어진다. 연속 변수의 경우에는 해당 확률 밀도에 대해 적분을 시행해서 기댓값을 구할 수 있다. 위의 기댓값에 대한 이해를 쉽게하기 위해 키를 예로 들어보자. 우리 나라 남성의 키를 확률 밀도 함수 p(x)로 나타내면, 170 중반을 중심으로 하는 정규 분포 형태의 그래프가 그려질 것이다. 만약 키의 평균 즉, 기대값을 구한다고 하면 위의 공식에서 f(x)는 단순히 x로 나타날 것이고 이를 계산하면 예측대로 E[f]는 170 중반의 값을 띄게 된다. 다변수 함수의 기댓값을 구할 경우에는 어떤 변수에 대해 평균을 내는지 지정하여 계산할 수 있다. 위의 식은 함수 f(..

확률 밀도

때때로 변수는 오렌지의 개수, 박스의 종류와 같이 셀수있는 것이 아니라 키, 몸무게와 같이 연속적인 경우가 있다. 이러한 경우 확률을 표현하는 데 있어 다른 방식을 사용해야 할 것이다. 이러한 연속적인 변수의 확률 p(x)를 확률 밀도(probability density)라고 부른다. 위의 그래프는 확률 밀도 함수의 예시이다. P(x)는 누적 분포 함수라고 부르며 p(x)의 적분값으로 볼 수 있다. p(x)는 확률 밀도 함수라고 부르며 P(x)의 미분값으로 볼 수 있다. 연속형 변수에서 어떤 특정한 값을 가질 확률을 구하는 것은 쉽지 않다. 예를 들어, 키가 임의의 한 사람의 키가 180일 확률을 구한다고 치자. 실제로 그의 키가 정확히 180일 확률 극히 희박하다. 따라서 우리는 179.5~180.5 ..

조건부 확률과 베이즈 정리

확률의 기본적인 컨셉을 이해하기 위해 다음 예시를 살펴보자 다음과 같이 빨간색, 파란색 상자 안에 사과(초록색)와 오렌지(주황색)이 들어있다고 가정하자. 여기서 랜덤하게 상자 하나를 골라 임의로 과일 하나를 꺼내고, 어떤 과일인지 확인 후 꺼냈던 상자에 다시 집어 넣는다고 하자. 이를 여러번 반복할 것이다. 이 과정에서 빨간 상자를 고를 확률이 40%, 파란 상자를 고를 확률이 60%이라고 가정하자. 여기서 상자는 바로 확률 변수이다. 상자를 확률 변수 B라고 하면 이 확률 변수 B는 r, b 두 개의 값을 가질 수 있다. 또한 과일의 정체 역시 확률 변수이며, 이를 F라고 지칭하자. 확률 변수 F는 a(사과), o(오렌지) 두 개의 값을 가질 수 있다. 빨간 상자를 고를 확률이 40%, 파란 상자를 고..

합의 법칙(sum rule), 곱의 법칙(product rule)

합의 법칙 다음 그림과 같은 상황을 고려해보자 행 방향이 확률 변수 X가 가질 수 있는 값 xi이고 열 방향이 확률 변수 Y가 가질 수 있는 값 yj이다. 여기서, X=xi이면서 Y=yj일 확률을 p(X=xi, Y=yj)로 적고 결합 확률이라고 칭한다. 이 결합 확률은 다음과 같이 표현된다. 여기서 nij는 xi이면서 yi일 경우의 수를 뜻하고 N은 전체 가능한 경우의 수를 뜻한다. 위의 그림을 통해서 다음과 같은 식 또한 도출할 수 있다. 위의 두 식을 이용하여 다음을 도출할 수 있다. 이것이 확률의 합의 법칙이다. 때때로 p(X=xi)는 주변 확률이라고 불린다. 곱의 법칙 X=xi인 사례들만 고려해보자. 그 중 Y=yj인 사례들의 비율을 생각해 볼 수 있다. 이를 조건부 확률이라고 하며 p(Y=yj ..