차원축소2 [PCA–3] 주성분 분석 (PCA) 특징 n차원 공간 상의 m개 데이터 \(\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, ..., \mathbf{x}^{(m)} \in \mathbb{R}^n\) 에 대한 주성분 분석(PCA) 알고리즘을 정리하면 다음과 같다. (1) 데이터셋의 샘플 평균을 계산한다. \[ \mathbf{\mu} = \frac{1}{m} \sum_{i=1}^m \mathbf{x}^{(i)} \] (2) 모든 데이터셋을 다음과 같이 치환한다. \[ \mathbf{y}^{(i)}= \mathbf{x}^{(i)} - \mathbf{\mu} \] (3) 데이터셋의 스냅샷(snapshot) 행렬을 만든다. \[ Y = \begin{bmatrix} \mathbf{y}^{(1)} & \mathbf{y}^{(2) } & \cd.. 2021. 2. 20. [PCA–1] 주성분 분석 (PCA) 다음과 같이 2차원 공간(평면)상에 표현된 데이터 \(\mathbf{x}^{(i)}, \ i=1,...,m\) 이 있다. 데이터를 연결해 보니 데이터가 모두 직선상에 있다는 것을 알게 됐다고 하자. 이 직선으로 표현된 축(성분)을 \(z_1\)으로 한다면 애초에 \(x_1\)과 \(x_2\)의 두 축(성분)으로 이루어진 2차원 공간상의 데이터를 \(z_1\)축으로 이루어진 1차원 공간상에 표현할 수 있었을 것이다. 이와 같이 고차원 데이터를 저차원 데이터로 표현하는 것을 차원 축소(dimensionality reduction)라고 한다. 만약 데이터가 일직선 상에 있지 않고 약간 어긋나 있다면 어떨까. 그렇다고 하더라도 데이터가 나타내는 정보의 일부분을 잃는 것을 감수할 수 있다면 원래의 데이터 \(\m.. 2021. 2. 18. 이전 1 다음