그렇다면 n차원의 부분 공간인 d차원 (

우선 새로운 좌표축의 원점을
그리고 모든 데이터
위 식의 왼쪽항은 데이터셋이 주어지면 정해지는 값(상수)이며 오른쪽 항에서 첫번째 항은 투사된 데이터의 분산을 나타내고 두번째 항은 투사 오차(projection error)를 나타낸다.

따라서 투사 오차를 최소화하는 것은 곧 투사 분산을 최대화하는 것과 동일하다. 아래 그림과 같이 2차원 데이터 예에서는 데이터가 더 넓게 분포된 방향으로 새로운 좌표축을 설정하면 투사 오차가 최소화될 것 같다.

주성분 분석(PCA)은 투사 오차를 최소화하도록 또는 투사 분산을 최대화하도록 d차원 부분 공간의 좌표축 벡터인
여기서
이다.

여기서 문제는 투사 오차가 최소가 되도록 행렬

이 문제를 다음과 같이 최적화 문제로 정식화 해보자.
여기서
이제 평균점으로 조정된 데이터셋
그러면 함수
여기서
가 성립하므로 위 식은 다음과 같이 된다.
따라서 원래의 최적화 문제는 다음과 같이 쓸 수 있다.
그런데 여기서
정리하면 PCA문제는 다음 최적화 문제로 바꿀 수 있다.
라그랑지 곱수
여기서
이다. 최적화의 필요조건에 의하면 다음 미분식을 만족해야 한다.
여기서 다음 행렬에 관한 미분식을 이용하였다.
정리하면
따라서 라그랑지 곱수
이제 행렬
여기서
행렬
행렬
또는
따라서 행렬
그러면 좌표축
복원될 또는 투사된 데이터의 근사값
또한 투사 오차는 다음과 같이 계산된다.
여기서
일반적으로 축소 차원
'유도항법제어 > 데이터기반제어' 카테고리의 다른 글
[POD-2] 스냅샷 적합직교분해 (snapshot POD) (0) | 2021.03.01 |
---|---|
[POD-1] 고전 적합직교분해 (classical POD) (0) | 2021.02.28 |
[PCA–4] PCA 예제: Eigenfaces (0) | 2021.02.24 |
[PCA–3] 주성분 분석 (PCA) 특징 (0) | 2021.02.20 |
[PCA–1] 주성분 분석 (PCA) (0) | 2021.02.18 |
댓글