본문 바로가기
AI 수학/랜덤프로세스

샘플평균과 샘플분산

by 깊은대학 2020. 11. 12.

디랙 델타(Dirac delta) 함수 δ(x)를 이용하면 확률밀도함수 pX(x)를 다음과 같이 근사화할 수 있다.

 

pX(x)i=1Nωiδ(xx(i))

 

여기서 x(i)는 확률밀도함수가 pX(x)인 모집단에서 추출한 샘플이다.

 

 

N개의 샘플이 독립적이고 공평하게 추출됐다면 각 샘플이 추출될 확률 ωi는 다음과 같이 동일하게 주어진다.

 

ωi=P{X=x(i)}=1N

 

그러면 랜덤변수(random variable) X의 함수인 f(X)의 기댓값 E[f(X)]를 다음과 같이 샘플 함수의 평균으로 추정할 수 있다.

 

E[f(X)]=f(x)pX(x)dxf(x)i=1N1Nδ(xx(i))dx=1Ni=1Nf(x(i))

 

여기서 f(X)=X로 놓으면 랜덤변수 X의 기댓값 μX를 다음과 같이 추정할 수 있다.

 

μX=E[X]1Ni=1Nx(i)=x¯

 

여기서 x¯를 샘플 평균(sample mean)이라고 한다.

만약 f(X)=(XμX)2로 놓으면 랜덤변수 X의 분산 σX2를 다음과 같이 추정할 수 있다.

 

σX2=var(X)=E[(XμX)2]1Ni=1N(x(i)μX)2=σ^2

 

여기서는 물론 X의 기댓값 μX를 알고 있다는 가정이 필요하다. 기댓값 대신에 샘플 평균 x¯를 이용해서 다음과 같이 분산을 계산하면 어떨까.

 

s2=1Ni=1N(x(i)x¯)2

 

먼저 σ2s2의 크기를 비교해 보자.

 

σ^2=1Ni=1N(x(i)μX)2=1Ni=1N(x(i)μX+x¯x¯)2=1Ni=1N[(x(i)x¯)2+2(x(i)x¯)(x¯μX)+(x¯μX)2]

 

위 식의 오른쪽에서 두번째 항은,

 

1Ni=1N2(x(i)x¯)(x¯μX)=2[1Ni=1N(x(i)x¯)](x¯μX)=0

 

이므로, 원래 식은 다음과 같이 된다.

 

σ^2=s2+1Ni=1N(x¯μX)2

 

따라서

 

σ^2s2

 

이 된다. 즉, 샘플 평균을 이용해서 계산한 분산이 기댓값을 이용해서 계산한 분산보다도 항상 작다는 것을 알 수 있다. 이를 샘플 분산의 과소 추정 문제라고 한다.

 

 

또한 샘플 평균을 이용해서 계산한 분산은 실제 분산의 바이어스된(biased) 추정값이다. 증명해 보자.
Xi를 랜덤변수 X로부터 샘플을 독립적이고 공평하게 선택하는 랜덤변수라고 하자. 랜덤변수 XXi의 확률밀도함수는 동일하다. 그러면 샘플 평균의 기댓값은 다음과 같이 랜덤변수 X의 기댓값과 동일하게 계산된다.

 

E[X¯]=E[1Ni=1NXi]=1Ni=1NE[Xi]

 

여기서 XXi의 확률밀도함수는 동일하므로 E[Xi]=E[X]다. 따라서

 

E[X¯]=1Ni=1NE[X]=E[X]

 

가 되어서 샘플 평균은 바이어스없이 기댓값을 추정한다고 할 수 있다.

이번에는 샘플 분산 S2의 기댓값을 구해보자.

 

E[S2]=E[1Ni=1N(XiX¯)2]=E[1Ni=1N(Xi22XiX¯+X¯2)]=E[1Ni=1NXi22(1Ni=1NXi)X¯+X¯2]=E[1Ni=1NXi2X¯2]=E[1Ni=1NXi2(1Ni=1NXi)2]=1Ni=1N[var(Xi)+(E[Xi])2]1N2E[(i=1NXi)2]

 

여기서 XXi의 확률밀도함수는 동일하므로 E[Xi]=E[X],var(Xi)=var(X)이다. 한편, Xi는 서로 독립이고 동일 분포이므로 ij이면 E[XiXj]=E[Xi]E[Xj]=μX2이기 때문에

 

E[(i=1NXi)2]=E[X12+X1X2++X1XN+X2X1+X22++XN2]=N(σ2+μX2)+N(N1)μX2

 

이다. 따라서 E[S2] 식은 다음과 같이 된다.

 

E[S2]=σX2+μX21N2(N(σ2+μX2)+N(N1)μX2)=(N1)N(σX2+μX2)(N1)NμX2=(N1)NσX2

 

결국 E[S2]σX2이기 때문에 샘플 분산은 바이어스된 추정값이다. 하지만 위 식에서

 

E[1(N1)i=1N(XiX¯)2]=σX2

 

가 성립하므로, 바이어스 없는 분산값을 얻기 위해서는 샘플 분산 계산시에 N대신에 (N1)로 나누면 된다.

 

 

정리하면 바이어스 없는 샘플 평균과 샘플 분산은 다음과 같이 계산하면 된다.

 

x¯=1Ni=1Nx(i)sN2=1(N1)i=1N(x(i)x¯)2

 

 

'AI 수학 > 랜덤프로세스' 카테고리의 다른 글

랜덤변수의 함수와 샘플링 - 1  (0) 2020.12.22
반복적인 기댓값 계산  (0) 2020.12.12
베이즈(Bayes) 정리  (0) 2020.11.13
IID 샘플  (0) 2020.11.04
조건부 확률  (0) 2020.10.27

댓글