IID는 independent and identically distributed의 약자다. '독립적이고 동일하게 분포된'이라는 뜻이다. 샘플(sample)은 샘플링(sampling)을 통해 추출된 데이터를 뜻한다. 따라서 IID샘플은 ‘독립적이고 동일한 확률로 추출된 데이터’를 의미한다.
비슷한 용어로 IID프로세스가 있는데, IID 프로세스란 프로세스를 구성하는 랜덤변수가 서로 독립이고 모두 동일한 확률분포를 갖는 프로세스를 말한다.
데이터의 전반적인 모습을 파악하기 위해서는 데이터의 분포를 묘사하는 것이 필요하다. 데이터의 분포를 수학적으로 묘사하는 함수로, 데이터가 연속적인 값을 가질 경우에는 확률밀도함수(probability density function)가 사용되고 데이터가 불연속적인 값(또는 이산값)을 가질 경우에는 확률질량함수(probability mass function)가 사용된다.
확률밀도함수 또는 확률질량함수를 알고 있다면 데이터의 확률적 특성을 모두 알 수 있고 확률 분포 특성이 동일한 데이터를 인위적으로 생성할 수도 있다.
어떤 확률분포에서 데이터를 생성하는 과정을 샘플링이라고 한다. 그리고 샘플링을 통해 얻어진 데이터를 샘플 또는 파티클(particle)이라고 한다.

대부분의 경우에는 데이터의 확률분포함수를 알지 못한다. 이 경우에도 데이터를 수집하여 확률밀도함수를 추정할 수 있다면 이미 수집한 데이터의 분포에 대한 정보를 수학적으로 완벽하게 묘사할 수 있을 뿐만 아니라 다음에 수집될 데이터의 특성을 예측할 수도 있을 것이다. 수집된 데이터를 미지의 확률분포로부터 샘플링된 데이터라고 생각한다면, 수집된 데이터를 이용해서 미지의 확률분포를 추정하는 것과, 알고 있는 확률분포로부터 데이터를 생성하는 것은 반대의 과정이라고 볼 수 있다.

그렇다면 어떤 방식으로 샘플링해야(또는 데이터를 수집해야) 그 샘플이 원래의 확률밀도함수또는 확률질량함수가 묘사하는 데이터와 동일한 분포를 가질 수 있을까?
예를 들어 보자.
어떤 주머니에 크기와 모양이 똑같은 빨간색 공 40개와 파란색 공 10개가 들어 있다. 주머니 내부는 밖에서 보이지 않기 때문에 빨간색 공이 몇 개인지 파란색 공이 몇 개인지 모른다고 하자. 그래서 주머니에서 공을 여러 번 꺼내서 확인하고 다시 주머니 속에 넣는 통계적인 방법으로 분포를 알아보기로 했다. 이 경우 전제되어야 할 것은 ‘매번’ 각 공이 추출될 확률이

확률밀도함수가
디랙 델타(Dirac delta) 함수
그러면 랜덤변수
임의의 구간(bin)에 속해있는 샘플의 개수를 그림으로 표시한 것이 히스토그램(histogram)이다. 위 식에 의하면 히스토그램은 확률밀도함수

확률밀도함수
100,000개의 샘플을 추출해

'AI 수학 > 랜덤프로세스' 카테고리의 다른 글
랜덤변수의 함수와 샘플링 - 1 (0) | 2020.12.22 |
---|---|
반복적인 기댓값 계산 (0) | 2020.12.12 |
베이즈(Bayes) 정리 (0) | 2020.11.13 |
샘플평균과 샘플분산 (0) | 2020.11.12 |
조건부 확률 (0) | 2020.10.27 |
댓글