소프트 정책 이터레이션

어떤 정책 $π_{o l d}$ 에 대해서 행동가치 함수가 주어지면 기존의 정책 보다 더 큰 행동가치 값을 갖는 새로운 정책 $π_{n e w}$ 를 계산할 수 있다. 이 과정을 정책 개선(policy improvement)이라고 한다.

그렇다면 최대 엔트로피 목적함수 문제에서 도입한 식 (1)의 탐욕적 정책으로

$\begin{matrix} (1) & π (u_{t} | x_{t}) = \frac{\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))}{\int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'}} \end{matrix}$

정책을 $π_{o l d}$ 에서 $π_{n e w}$ 로 업데이트하면 소프트 행동가치의 값이 증가, $Q_{s o f t}^{π_{n e w}} (x_{t}, u_{t}) \geq Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t})$ , 하는지 증명해 보자.

증명은 식 (2)의 소프트 벨만 방정식에서 출발한다.

$\begin{aligned} (2) & Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) & = r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t} | u_{t}), u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} \\ [Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) - α \log π_{o l d} (u_{t + 1} | x_{t + 1})] \end{aligned}$

식 (1)을 식 (2)의 기댓값 연산자 안에 있는 항에 대입하면,

$\begin{aligned} (2) & E_{u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} [\begin{array}{c} α \log π_{n e w} (x_{t + 1} | u_{t + 1}) \\ + α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'} \\ - α \log π_{o l d} (u_{t + 1} | x_{t + 1}) \end{array}] \\ = E_{u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} [\begin{array}{c} α \log \frac{π_{n e w} (x_{t + 1} | u_{t + 1})}{π_{o l d} (u_{t + 1} | x_{t + 1})} \\ + α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'} \end{array}] \\ = - α D_{K L} (π_{o l d} (x_{t + 1} | u_{t + 1}) ∥ π_{n e w} (x_{t + 1} | u_{t + 1})) \\ + α E_{u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} [\log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'}] \\ \leq E_{u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} [α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'}] \end{aligned}$

이 된다. 위 식의 마지막 줄은 $x_{t + 1}$ 의 함수이므로 기대값을 $π_{n e w}$ 기준으로 계산해도 결과는 동일하다.

$\begin{aligned} = E_{u_{t + 1} \sim π_{n e w} (u_{t + 1} | x_{t + 1})} [α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'}] \\ = E_{u_{t + 1} \sim π_{n e w} (u_{t + 1} | x_{t + 1})} [Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) - α \log π_{n e w} (u_{t + 1} | x_{t + 1})] \end{aligned}$

따라서 식 (3)에 의하면 다음 부등식이 성립한다.

$\begin{aligned} (4) & E_{u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} [Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) - α \log π_{o l d} (u_{t + 1} | x_{t + 1})] \\ \leq E_{u_{t + 1} \sim π_{n e w} (u_{t + 1} | x_{t + 1})} [Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) - α \log π_{n e w} (u_{t + 1} | x_{t + 1})] \end{aligned}$

이제 식 (4)를 식 (2)에 대입하면 다음과 같이 된다.

$\begin{aligned} (5) & Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) & = r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t} | u_{t}), u_{t + 1} \sim π_{o l d} (u_{t + 1} | x_{t + 1})} \\ [Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) - α \log π_{o l d} (u_{t + 1} | x_{t + 1})] \\ \leq r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t} | u_{t}), u_{t + 1} \sim π_{n e w} (u_{t + 1} | x_{t + 1})} \\ [Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) - α \log π_{n e w} (u_{t + 1} | x_{t + 1})] \end{aligned}$

식 (5)의 오른쪽 항에 있는 $Q_{s o f t}^{π_{o l d}} (x_{t + 1}, u_{t + 1})$ 에 다시 식 (2)의 소프트 벨만 방정식을 대입하고 계속 전개하면, 결국 다음 부등식을 얻을 수 있다.

$\begin{matrix} (6) & Q_{s o f t}^{π_{o l d}} (x_{t}, u_{t}) \leq Q_{s o f t}^{π_{n e w}} (x_{t}, u_{t}) \end{matrix}$

식 (6)에 의하면 식 (1)의 정책으로 소프트 행동가치를 개선할 수 있다는 것이 증명되었다.

한편 정책 $π$ 가 주어지면, 소프트 벨만 방정식을 풀어서 소프트 행동가치를 계산할 수 있다. 이 과정을 정책 평가(policy evaluation)라고 한다. 소프트 벨만 방정식은 보통 해석적인 해를 구할 수 없으므로 반복적 계산 방법, 즉 이터레이션(iteration) 방법으로 해를 구할 수 있다. 이 때 이 계산이 수렴하는지 알아보자.

우선 소프트 행동가치 함수와 소프트 가치함수의 관계식이 다음과 같으므로

$\begin{matrix} (7) & Q_{s o f t}^{π} (x_{t}, u_{t}) = r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t}, u_{t})} [V_{s o f t}^{π} (x_{t + 1})] \end{matrix}$

소프트 벨만 백업 연산자 $T^{π}$ 를 다음과 같이 도입한다.

$\begin{matrix} (8) & T^{π} Q (x, u) = r (x, u) + γ E_{x^{'} \sim p (x^{'} | x, u)} [V (x^{'})] \end{matrix}$

탐욕적 정책 (1)에 대한 소프트 상태가치 함수가 다음과 같으므로,

$\begin{matrix} (9) & V_{s o f t}^{π} (x_{t}) = α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'} \end{matrix}$

식 (9)를 식 (8)에 대입하면 다음과 같이 된다.

$\begin{aligned} (10) & T^{π} Q (x, u) = r (x, u) \\ + γ E_{x^{'} \sim p (x^{'} | x, u)} [α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x^{'}, u^{'})) d u^{'}] \end{aligned}$

소프트 벨만 백업을 두 개의 서로 다른 소프트 행동가치 함수에 적용했을 때 두 행동가치 함수의 거리(distance)가 더 줄어든다면, 소프트 행동가치는 이터레이션이 진행되면서 수렴할 것이다. 두 소프트 행동가치 함수의 거리는 $\infty -$ 놈(norm)을 사용한다.

$\begin{matrix} (11) & ‖ Q_{1} - Q_{2} ‖_{\infty} = max_{(x, u)} | Q_{1} (x, u) - Q_{2} (x, u) | \end{matrix}$

그러면 다음 식이 성립한다.

$\begin{aligned} (12) & ‖ T^{π} Q_{1} - T^{π} Q_{2} ‖_{\infty} \\ = γ {‖ \begin{array}{c} E_{x^{'} \sim p (x^{'} | x, u)} [\begin{matrix} α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{1}) d u^{'} \\ - α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{2}) d u^{'} \end{matrix}] \end{array} ‖}_{\infty} \\ = γ {‖ \begin{array}{c} E_{x^{'} \sim p (x^{'} | x, u)} [\begin{matrix} α \log \int_{u^{'}} \exp (\frac{1}{α} (Q_{1} + Q_{2} - Q_{2})) d u^{'} \\ - α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{2}) d u^{'} \end{matrix}] \end{array} ‖}_{\infty} \\ \leq γ {‖ \begin{array}{c} E_{x^{'} \sim p (x^{'} | x, u)} [\begin{matrix} α \log \int_{u^{'}} \exp (\frac{1}{α} (Q_{2} + ‖ Q_{1} - Q_{2} ‖_{\infty})) d u^{'} \\ - α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{2}) d u^{'} \end{matrix}] \end{array} ‖}_{\infty} \\ = γ {‖ \begin{array}{c} E_{x^{'} \sim p (x^{'} | x, u)} [\begin{matrix} ‖ Q_{1} - Q_{2} ‖_{\infty} + α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{2}) d u^{'} \\ - α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{2}) d u^{'} \end{matrix}] \end{array} ‖}_{\infty} \\ = γ ‖ Q_{1} - Q_{2} ‖_{\infty} \end{aligned}$

식 (12)에 의해서 $γ < 1$ 이라면 $‖ T^{π} Q_{1} - T^{π} Q_{2} ‖_{\infty} < ‖ Q_{1} - Q_{2} ‖_{\infty}$ 가 성립한다. 따라서 소프트 벨만 백업 연산자는 $γ -$ 축약(contraction) 연산자다.

소프트 벨만 백업 연산자를 이용하면 식 (2)를 다음과 같이 표현할 수 있으므로

$\begin{matrix} (13) & Q_{i + 1} = T^{π} Q_{i} \end{matrix}$

소프트 행동가치 함수가 유한하다면 행동가치 함수를 업데이트할 수록 점점 어떤 포인트로 수렴하게 된다는 것을 알 수 있다.

식 (2)로 $Q_{s o f t}^{π} (x_{t}, u_{t})$ 가 수렴할 때까지 반복 계산하고 수렴한 후에 식 (1)로 정책을 업데이트 하는 과정을 소프트 행동가치와 정책이 각각 최적인 값으로 수렴할 때까지 계속 반복하는 것을 소프트 정책 이터레이션(soft policy iteration)이라고 한다.

'AI 딥러닝 > RL' 카테고리의 다른 글

Soft Actor Critic (SAC) 알고리즘 - 2 (0)	2021.05.30
Soft Actor Critic (SAC) 알고리즘 - 1 (0)	2021.05.29
소프트 벨만 방정식 (Soft Bellman Equation) (0)	2021.05.27
최대 엔트로피 목적함수 (0)	2021.05.26
Tensorflow2로 만든 DDPG 코드: Pendulum-v0 (0)	2021.05.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepCampus

소프트 정책 이터레이션

'AI 딥러닝 > RL' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

소프트 정책 이터레이션

'AI 딥러닝 > RL' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역