강화학습에서 에이전트(agent)가 최대화해야 할 누적 보상의 기댓값 또는 목적함수(또는 성능지수)는 다음과 같다.
여기서

보통 강화학습 논문이나 책에서는 상태변수를
심층강화학습(deep reinforcement learning)에서는 정책을 신경망으로 구현한다. 신경망의 파라미터, 즉 신경망의 모든 가중치(weight)와 바이어스(bias)를 파라미터
그러면 목적함수도
여기서
보통 신경망의 출력은 손실함수(loss function)로 연결된다. 신경망을 학습한다는 것은 이 손실함수

강화학습의 정책을 신경망으로 구성할 때는 몇 지 고려할 것이 있다.
우선 정책 신경망의 입력은 환경의 상태(
반면 행동이 연속공간 값이라면 출력은 확률밀도함수가 되야 한다. 출력이 '함수'라면 이를 표현하기 위한 출력 레이어의 뉴런 개수는 무한대가 되어야 한다. 이는 불가능하므로 보통 이 경우에는 확률밀도함수를 가우시안 분포로 가정하고 가우시안 분포의 평균과 공분산을 신경망의 출력으로 정한다. 그러면 출력 레이어의 뉴런 개수는 평균과 공분산의 개수와 같다.

손실함수는 정책이 최적의 파라미터

그렇다면 손실함수를 어떻게 정의해야 목적함수를 최대화할 수 있을까. 이에 대한 다양한 대답이 다양한 정책 그래디언트(policy gradient) 기반 강화학습의 알고리즘을 만들었다.
'AI 딥러닝 > RL' 카테고리의 다른 글
Tensorflow2로 만든 A2C 코드: Pendulum-v0 (0) | 2021.04.20 |
---|---|
A2C 알고리즘-2: 액터 신경망 (0) | 2021.04.20 |
A2C 알고리즘-1: 크리틱 신경망 (0) | 2021.04.20 |
강화학습 문제 (0) | 2020.11.08 |
강화학습의 한계 (0) | 2020.10.28 |
댓글