어떤 정책
그렇다면 최대 엔트로피 목적함수 문제에서 도입한 식 (1)의 탐욕적 정책으로
정책을
증명은 식 (2)의 소프트 벨만 방정식에서 출발한다.
식 (1)을 식 (2)의 기댓값 연산자 안에 있는 항에 대입하면,
이 된다. 위 식의 마지막 줄은
따라서 식 (3)에 의하면 다음 부등식이 성립한다.
이제 식 (4)를 식 (2)에 대입하면 다음과 같이 된다.
식 (5)의 오른쪽 항에 있는
식 (6)에 의하면 식 (1)의 정책으로 소프트 행동가치를 개선할 수 있다는 것이 증명되었다.

한편 정책
우선 소프트 행동가치 함수와 소프트 가치함수의 관계식이 다음과 같으므로
소프트 벨만 백업 연산자
탐욕적 정책 (1)에 대한 소프트 상태가치 함수가 다음과 같으므로,
식 (9)를 식 (8)에 대입하면 다음과 같이 된다.
소프트 벨만 백업을 두 개의 서로 다른 소프트 행동가치 함수에 적용했을 때 두 행동가치 함수의 거리(distance)가 더 줄어든다면, 소프트 행동가치는 이터레이션이 진행되면서 수렴할 것이다. 두 소프트 행동가치 함수의 거리는
그러면 다음 식이 성립한다.
식 (12)에 의해서
소프트 벨만 백업 연산자를 이용하면 식 (2)를 다음과 같이 표현할 수 있으므로
소프트 행동가치 함수가 유한하다면 행동가치 함수를 업데이트할 수록 점점 어떤 포인트로 수렴하게 된다는 것을 알 수 있다.

식 (2)로

'AI 딥러닝 > RL' 카테고리의 다른 글
Soft Actor Critic (SAC) 알고리즘 - 2 (0) | 2021.05.30 |
---|---|
Soft Actor Critic (SAC) 알고리즘 - 1 (0) | 2021.05.29 |
소프트 벨만 방정식 (Soft Bellman Equation) (0) | 2021.05.27 |
최대 엔트로피 목적함수 (0) | 2021.05.26 |
Tensorflow2로 만든 DDPG 코드: Pendulum-v0 (0) | 2021.05.14 |
댓글