IID는 independent and identically distributed의 약자다. '독립적이고 동일하게 분포된'이라는 뜻이다. 샘플(sample)은 샘플링(sampling)을 통해 추출된 데이터를 뜻한다. 따라서 IID샘플은 ‘독립적이고 동일한 확률로 추출된 데이터’를 의미한다.
비슷한 용어로 IID프로세스가 있는데, IID 프로세스란 프로세스를 구성하는 랜덤변수가 서로 독립이고 모두 동일한 확률분포를 갖는 프로세스를 말한다.
데이터의 전반적인 모습을 파악하기 위해서는 데이터의 분포를 묘사하는 것이 필요하다. 데이터의 분포를 수학적으로 묘사하는 함수로, 데이터가 연속적인 값을 가질 경우에는 확률밀도함수(probability density function)가 사용되고 데이터가 불연속적인 값(또는 이산값)을 가질 경우에는 확률질량함수(probability mass function)가 사용된다.
확률밀도함수 또는 확률질량함수를 알고 있다면 데이터의 확률적 특성을 모두 알 수 있고 확률 분포 특성이 동일한 데이터를 인위적으로 생성할 수도 있다.
어떤 확률분포에서 데이터를 생성하는 과정을 샘플링이라고 한다. 그리고 샘플링을 통해 얻어진 데이터를 샘플 또는 파티클(particle)이라고 한다.
대부분의 경우에는 데이터의 확률분포함수를 알지 못한다. 이 경우에도 데이터를 수집하여 확률밀도함수를 추정할 수 있다면 이미 수집한 데이터의 분포에 대한 정보를 수학적으로 완벽하게 묘사할 수 있을 뿐만 아니라 다음에 수집될 데이터의 특성을 예측할 수도 있을 것이다. 수집된 데이터를 미지의 확률분포로부터 샘플링된 데이터라고 생각한다면, 수집된 데이터를 이용해서 미지의 확률분포를 추정하는 것과, 알고 있는 확률분포로부터 데이터를 생성하는 것은 반대의 과정이라고 볼 수 있다.
그렇다면 어떤 방식으로 샘플링해야(또는 데이터를 수집해야) 그 샘플이 원래의 확률밀도함수또는 확률질량함수가 묘사하는 데이터와 동일한 분포를 가질 수 있을까?
예를 들어 보자.
어떤 주머니에 크기와 모양이 똑같은 빨간색 공 40개와 파란색 공 10개가 들어 있다. 주머니 내부는 밖에서 보이지 않기 때문에 빨간색 공이 몇 개인지 파란색 공이 몇 개인지 모른다고 하자. 그래서 주머니에서 공을 여러 번 꺼내서 확인하고 다시 주머니 속에 넣는 통계적인 방법으로 분포를 알아보기로 했다. 이 경우 전제되어야 할 것은 ‘매번’ 각 공이 추출될 확률이 \( \frac{1}{50} \)로 ‘공평’해야 한다는 것이다. 예를 들어서 파란색 공만 유달리 잘 달라붙는 특수한 장갑을 끼고서 공을 추출한다면 주머니 속의 공의 색깔 분포를 정확히 추정할 수 없을 것이다. 또한 추출된 공을 주머니 속에 다시 넣을 때 색깔 별로 나누어서 배치한다면 이 또한 색깔 분포를 추정하는데 영향을 미친다. 즉 확률 분포를 추정하는데 전제되는 가정은 샘플이 공평하고 독립적으로 추출됐다는 것이다.
확률밀도함수가 \( p_X (x) \)인 모집단에서 추출한 \( N \)개의 샘플을 \( \{x^{(1)}, x^{(2)}, \cdots, x^{(N)} \} \)라고 하자. 각 샘플이 독립적이고 공평하게 추출됐다면 각 샘플이 추출될 확률은 다음과 같이 동일하게 주어진다.
\[ \omega_i = P \{ X=x^{(i)} \} = \frac{1}{N} \]
디랙 델타(Dirac delta) 함수 \( \delta (x) \)를 이용하면 확률밀도함수 \( p_X (x) \)를 다음과 같이 근사화할 수 있다.
\[ \begin{align} p_X (x) & \approx \sum_{i=1}^N \omega_i \delta(x-x^{(i) } ) \\ \\ & = \frac{1}{N} \sum_{i=1}^N \delta (x-x^{(i) } ) \end{align} \]
그러면 랜덤변수 \( X \)가 극소 구간 \( (x,x+\Delta x] \)에 속할 확률 \( P \{ x \lt X \le x+\Delta x \} \)을 다음과 같이 계산할 수 있다.
\[ \begin{align} \int_x^{x+\Delta x} p_X (x) dx & \approx \frac{1}{N} \int_x^{x+\Delta x } \sum_{i=1}^N \delta (x-x^{(i)} ) dx \\ \\ & = \frac{ (구간 (x,x+\Delta x ]에 속해있는 샘플의 갯수)}{N} \end{align} \]
임의의 구간(bin)에 속해있는 샘플의 개수를 그림으로 표시한 것이 히스토그램(histogram)이다. 위 식에 의하면 히스토그램은 확률밀도함수 \( p_X (x) \)의 근사식과 모양이 같다. 확률밀도함수가 히스토그램과 다른 점은 확률밀도함수의 면적이 \(1 \)이어야 한다는 것이다. 따라서 히스토그램의 면적을 \(1 \)로 정규화한다면 추출한 샘플의 히스토그램을 이용해 확률밀도함수의 모양을 근사적으로 얻을 수 있다. 추출된 샘플의 개수 \(N \)이 클수록 좀 더 실제 값에 근접한 확률밀도함수를 얻을 수 있을 것이다.
확률밀도함수 \( p_X (x) \)가 다음과 같이 평균이 \(0 \), 표준편차가 \(1 \)인 가우시안으로 주어졌을 때,
\[ p_X (x) = \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right) \]
100,000개의 샘플을 추출해 \( p_X (x) \)의 그림을 히스토그램을 이용해서 근사적으로 그린 것이다.
'AI 수학 > 랜덤프로세스' 카테고리의 다른 글
랜덤변수의 함수와 샘플링 - 1 (0) | 2020.12.22 |
---|---|
반복적인 기댓값 계산 (0) | 2020.12.12 |
베이즈(Bayes) 정리 (0) | 2020.11.13 |
샘플평균과 샘플분산 (0) | 2020.11.12 |
조건부 확률 (0) | 2020.10.27 |
댓글