디랙 델타(Dirac delta) 함수 \( \delta (x) \)를 이용하면 확률밀도함수 \( p_X (x) \)를 다음과 같이 근사화할 수 있다.
\[ p_X (x) \approx \sum_{i=1}^N \omega_i \delta (x-x^{(i) } ) \]
여기서 \( x^{(i)} \)는 확률밀도함수가 \( p_X (x) \)인 모집단에서 추출한 샘플이다.
\( N \)개의 샘플이 독립적이고 공평하게 추출됐다면 각 샘플이 추출될 확률 \( \omega_i \)는 다음과 같이 동일하게 주어진다.
\[ \omega_i = P \{ X=x^{(i) } \} = \frac{1}{N} \]
그러면 랜덤변수(random variable) \( X \)의 함수인 \( f(X) \)의 기댓값 \( \mathbb{E} [f(X)] \)를 다음과 같이 샘플 함수의 평균으로 추정할 수 있다.
\[ \begin{align} \mathbb{E} [f(X)] &= \int_{-\infty}^{\infty} f(x) p_X (x) dx \\ \\ & \approx \int_{-\infty}^{\infty} f(x) \sum_{i=1}^N \frac{1}{N} \delta (x-x^{(i) } ) dx \\ \\ &= \frac{1}{N} \sum_{i=1}^N f(x^{(i) }) \end{align} \]
여기서 \( f(X)=X \)로 놓으면 랜덤변수 \( X \)의 기댓값 \(\mu_X \)를 다음과 같이 추정할 수 있다.
\[ \begin{align} \mu_X &= \mathbb{E} [X] \approx \frac{1}{N} \sum_{i=1}^N x^{(i) } \\ \\ &= \bar{x} \end{align} \]
여기서 \( \bar{x} \)를 샘플 평균(sample mean)이라고 한다.
만약 \( f(X)=(X-\mu_X )^2 \)로 놓으면 랜덤변수 \( X \)의 분산 \( \sigma_X^2 \)를 다음과 같이 추정할 수 있다.
\[ \begin{align} \sigma_X^2 &= var(X) = \mathbb{E}[(X-\mu_X )^2 ] \\ \\ & \approx \frac{1}{N} \sum_{i=1}^N (x^{(i) } - \mu_X )^2 \\ \\ &= \hat{\sigma}^2 \end{align} \]
여기서는 물론 \( X \)의 기댓값 \( \mu_X \)를 알고 있다는 가정이 필요하다. 기댓값 대신에 샘플 평균 \( \bar{x} \)를 이용해서 다음과 같이 분산을 계산하면 어떨까.
\[ s^2= \frac{1}{N} \sum_{i=1}^N (x^{(i) } -\bar{x} )^2 \]
먼저 \( \sigma^2 \)과 \( s^2 \)의 크기를 비교해 보자.
\[ \begin{align} \hat{\sigma}^2 &= \frac{1}{N} \sum_{i=1}^N (x^{(i) } - \mu_X )^2 \\ \\ &= \frac{1}{N} \sum_{i=1}^N (x^{(i) }-\mu_X+\bar{x}-\bar{x} )^2 \\ \\ & =\frac{1}{N} \sum_{i=1}^N \left[ (x^{(i) }- \bar{x} )^2+2(x^{(i) }-\bar{x}) (\bar{x}-\mu_X)+(\bar{x}-\mu_X)^2 \right] \end{align} \]
위 식의 오른쪽에서 두번째 항은,
\[ \begin{align} \frac{1}{N} \sum_{i=1}^N 2(x^{(i) }-\bar{x} )(\bar{x} -\mu_X) &= 2 \left[ \frac{1}{N} \sum_{i=1}^N (x^{(i) }-\bar{x} ) \right] (\bar{x}-\mu_X) \\ \\ &=0 \end{align} \]
이므로, 원래 식은 다음과 같이 된다.
\[ \hat{\sigma}^2=s^2 +\frac{1}{N} \sum_{i=1}^N (\bar{x}-\mu_X )^2 \]
따라서
\[ \hat{\sigma}^2 \ge s^2 \]
이 된다. 즉, 샘플 평균을 이용해서 계산한 분산이 기댓값을 이용해서 계산한 분산보다도 항상 작다는 것을 알 수 있다. 이를 샘플 분산의 과소 추정 문제라고 한다.
또한 샘플 평균을 이용해서 계산한 분산은 실제 분산의 바이어스된(biased) 추정값이다. 증명해 보자.
\( X_i \)를 랜덤변수 \( X \)로부터 샘플을 독립적이고 공평하게 선택하는 랜덤변수라고 하자. 랜덤변수 \(X \)와 \( X_i \)의 확률밀도함수는 동일하다. 그러면 샘플 평균의 기댓값은 다음과 같이 랜덤변수 \( X \)의 기댓값과 동일하게 계산된다.
\[ \begin{align} \mathbb{E} [ \bar{X} ] &= \mathbb{E} \left[ \frac{1}{N} \sum_{i=1}^N X_i \right] \\ \\ &= \frac{1}{N} \sum_{i=1}^N \mathbb{E} [X_i ] \end{align} \]
여기서 \( X \)와 \( X_i \)의 확률밀도함수는 동일하므로 \( \mathbb{E} [X_i ] = \mathbb{E}[X] \)다. 따라서
\[ \begin{align} \mathbb{E}[ \bar{X} ] &= \frac{1}{N} \sum_{i=1}^N \mathbb{E}[X] \\ \\ &= \mathbb{E} [X] \end{align} \]
가 되어서 샘플 평균은 바이어스없이 기댓값을 추정한다고 할 수 있다.
이번에는 샘플 분산 \( S^2 \)의 기댓값을 구해보자.
\[ \begin{align} \mathbb{E} [S^2 ] &= \mathbb{E}\left[ \frac{1}{N} \sum_{i=1}^N (X_i-\bar{X} )^2 \right] \\ \\ &= \mathbb{E} \left[ \frac{1}{N} \sum_{i=1}^N ( X_i^2-2X_i \bar{X}+ \bar{X}^2 ) \right] \\ \\ &= \mathbb{E} \left[ \frac{1}{N} \sum_{i=1}^N X_i^2 -2 \left( \frac{1}{N} \sum_{i=1}^N X_i \right) \bar{X} + \bar{X}^2 \right] \\ \\ & = \mathbb{E} \left[ \frac{1}{N} \sum_{i=1}^N X_i^2 -\bar{X}^2 \right] \\ \\ &= \mathbb{E} \left[ \frac{1}{N} \sum_{i=1}^N X_i^2 - \left( \frac{1}{N} \sum_{i=1}^N X_i \right)^2 \right] \\ \\ & = \frac{1}{N} \sum_{i=1}^N \left[ var(X_i)+(E[X_i ])^2 \right] - \frac{1}{N^2} \mathbb{E} \left[ \left( \sum_{i=1}^N X_i \right)^2 \right] \end{align} \]
여기서 \( X \)와 \( X_i \)의 확률밀도함수는 동일하므로 \( \mathbb{E} [X_i ] = \mathbb{E} [X], var(X_i )=var(X) \)이다. 한편, \( X_i \)는 서로 독립이고 동일 분포이므로 \( i \ne j \)이면 \( \mathbb{E} [X_i X_j ] = \mathbb{E} [X_i ] \mathbb{E}[X_j ] = \mu_X^2 \)이기 때문에
\[ \begin{align} \mathbb{E} \left[ \left( \sum_{i=1}^N X_i \right)^2 \right] &= \mathbb{E} [X_1^2+X_1 X_2+ \cdots +X_1 X_N+X_2 X_1+X_2^2+ \cdots +X_N^2 ] \\ \\ &= N (\sigma^2+\mu_X^2 )+ N(N-1) \mu_X^2 \end{align} \]
이다. 따라서 \( \mathbb{E} [S^2 ] \) 식은 다음과 같이 된다.
\[ \begin{align} \mathbb{E} [S^2 ] &= \sigma_X^2+ \mu_X^2- \frac{1}{N^2} \left( N ( \sigma^2+\mu_X^2 )+N(N-1) \mu_X^2 \right) \\ \\ & =\frac{(N-1)}{N} (\sigma_X^2+\mu_X^2 )-\frac{(N-1)}{N} \mu_X^2 \\ \\ &= \frac{(N-1)}{N} \sigma_X^2 \end{align} \]
결국 \( \mathbb{E} [S^2 ] \ne \sigma_X^2 \)이기 때문에 샘플 분산은 바이어스된 추정값이다. 하지만 위 식에서
\[ \mathbb{E} \left[ \frac{1}{(N-1)} \sum_{i=1}^N (X_i-\bar{X} )^2 \right] = \sigma_X^2 \]
가 성립하므로, 바이어스 없는 분산값을 얻기 위해서는 샘플 분산 계산시에 \( N \)대신에 \( (N-1) \)로 나누면 된다.
정리하면 바이어스 없는 샘플 평균과 샘플 분산은 다음과 같이 계산하면 된다.
\[ \begin{align} & \bar{x}= \frac{1}{N} \sum_{i=1}^N x^{(i) } \\ \\ & s_N^2 = \frac{1}{(N-1)} \sum_{i=1}^N \left( x^{(i) }- \bar{x} \right)^2 \end{align} \]
'AI 수학 > 랜덤프로세스' 카테고리의 다른 글
랜덤변수의 함수와 샘플링 - 1 (0) | 2020.12.22 |
---|---|
반복적인 기댓값 계산 (0) | 2020.12.12 |
베이즈(Bayes) 정리 (0) | 2020.11.13 |
IID 샘플 (0) | 2020.11.04 |
조건부 확률 (0) | 2020.10.27 |
댓글