어떤 미지의 함수의 최대값을 구하는 문제를 생각해 보자.
이 함수는 블랙박스 함수라서 그 수학적 표현을 알지 못할 뿐만 아니라 그 미분 또한 당연히 모른다. 다만 특정 포인트

베이지안 최적화(BO, Bayesian optimization)는 이와 같은 조건하에서 함수의 최대값을 계산하기 위한 방법이다. 즉, 어떤 최적화 목적함수에 대한 수학적 표현식은 없지만 샘플링된 값을 얻을 수 있는 상황에 적용할 수 있는 최적화 방법인 것이다.
베이지안 최적화 방법에서는 샘플링된 학습 데이터를 사용하여 미지의 목적함수에 대한 가우시안 프로세스(GP) 모델을 구축하고, 목적함수의 불확실성을 최소화하거나 함수의 예측값을 최대화할 수 있을 것으로 기대되는 다음 포인트를 선정하여, 그 포인트에서 데이터를 샘플링하고, GP 모델을 업데이트하는 이터레이션(iteration) 작업을 통해서 목적함수의 최대값을 계산한다.
이터레이션 단계
여기서 평균함수
이다.
이제 가우시안 프로세스
첫번째 샘플링 전략을 탐색(exploration) 전략 또는 적극적 학습 전략이라고 한다. 함수의 공분산이 크다는 것은 곧 불확실성이 크다는 의미이므로, 이 전략에서는 공분산
예를 들어서 다음 그림에서 빨간색 실선은 미지의 목적함수, 파란색 점선은 가우시안 프로세스의 평균함수, 하늘색 영역은

적극적 학습 전략을 사용한다면 다음 샘플링 포인트는 표준편차가 가장 큰

반면에 활용 전략을 사용한다면 다음 샘플링 포인트는

그렇다고 활용 전략이 항상 유용한 전략은 아니다. 강화학습(reinforcement learning)에서와 마찬가지로 베이지안 최적화에서도 탐색과 활용의 적절한 균형을 잡는 것이 중요하다.
강화학습에서는 일반적으로 학습 초기에는 적극적인 탐색을 우선시하다가 점차로 활용에 비중을 더 주는 전략을 사용하곤 하는데, 베이지안 최적화 방법에서는 탐색과 활용의 특성을 적절히 섞어 만든 획득함수(acquisition function)라는 것을 이용한다. 일반적으로 획득함수는 불확실성과 예측값의 적절한 조합으로 설계되며, 이 획득값을 최대화하는 포인트를 다음 샘플링 포인트로 선정한다.
문헌에 의하면 획득함수로 몇가지 함수가 제안되었는데 가장 많이 사용되는 것으로는 PI(probability of improvement), EI(expected improvement)와 UCB(upper confidence bound) 가 있다. 어떤 논문에 의하면 한가지 획득함수를 사용하는 것보다 몇가지 획득함수를 동시에 활용하는 것이 좋은 성능을 발휘했다고도 한다.
가우시안 프로세스를 이용한 베이지안 최적화 알고리즘을 정리하면 다음과 같다.
1. 데이터셋
2. GP 모델을 업데이트 한다.
3. 획득함수(acquisition function)
4. 목적함수에서 측정값을 샘플링한다.
5. 데이터셋에 측정값을 편입한다.
'AI 딥러닝 > ML' 카테고리의 다른 글
[GP-3] GP 커널 학습 (0) | 2022.07.05 |
---|---|
[GP-2] GP 회귀 (GP Regression) (0) | 2022.06.30 |
[GP-1] 가우시안 프로세스 (Gaussian Process)의 개념 (0) | 2022.06.26 |
댓글