소프트 벨만 방정식 (Soft Bellman Equation)

소프트 상태가치와 소프트 행동가치의 시간적인 관계식을 알아보기 위해서, 소프트 행동가치 함수를 한 시간스텝 전개해 보자.

$\begin{aligned} (1) & Q_{s o f t}^{π} (x_{t}, u_{t}) \\ = \int_{τ_{x_{t + 1} : u_{T}}} (\sum_{k = t}^{T} γ^{k - t} (r_{k} - γ α \log π (u_{k + 1} | x_{k + 1}))) p (τ_{x_{t + 1} : u_{T}} | x_{t}, u_{t}) d τ_{x_{t + 1} : u_{T}} \\ = \int_{τ_{x_{t + 1} : u_{T}}} (r_{t} + \sum_{k = t + 1}^{T} γ^{k - t} (r_{k} - α \log π (u_{k} | x_{k}))) p (τ_{x_{t + 1} : u_{T}} | x_{t}, u_{t}) d τ_{x_{t + 1} : u_{T}} \\ = r_{t} + \int_{τ_{x_{t + 1} : u_{T}}} (\sum_{k = t + 1}^{T} γ^{k - t} (r_{k} - α \log π (u_{k} | x_{k}))) p (τ_{x_{t + 1} : u_{T}} | x_{t}, u_{t}) d τ_{x_{t + 1} : u_{T}} \end{aligned}$

위 식에서 조건부 확률밀도함수에 확률의 연쇄법칙을 적용하면 다음과 같이 된다.

$\begin{aligned} (2) & p (τ_{x_{t + 1} : u_{T}} | x_{t}, u_{t}) & = p (x_{t + 1}, τ_{u_{t + 1} : u_{T}} | x_{t}, u_{t}) \\ = p (τ_{u_{t + 1} : u_{T}} | x_{t + 1}, x_{t}, u_{t}) p (x_{t + 1} | x_{t}, u_{t}) \\ = p (τ_{u_{t + 1} : u_{T}} | x_{t + 1}) p (x_{t + 1} | x_{t}, u_{t}) \end{aligned}$

여기서 $τ_{u_{t + 1} : u_{T}} = (u_{t + 1}, . . ., u_{T})$ 이다. 위 식의 마지막 단계는 마르코프(Markov) 시퀀스 가정을 사용한 것이다.

식 (2)를 식 (1)의 적분 식에 적용하면 다음과 같이 된다.

$\begin{aligned} (3) & \int_{τ_{x_{t + 1} : u_{T}}} (\sum_{k = t + 1}^{T} γ^{k - t} (r_{k} - α \log π (u_{k} | x_{k}))) p (τ_{x_{t + 1} : u_{T}} | x_{t}, u_{t}) d τ_{x_{t + 1} : u_{T}} \\ = \int_{τ_{x_{t + 1} : u_{T}}} (\sum_{k = t + 1}^{T} γ^{k - t} (r_{k} - α \log π (u_{k} | x_{k}))) p (τ_{u_{t + 1} : u_{T}} | x_{t + 1}) p (x_{t + 1} | x_{t}, u_{t}) d τ_{x_{t + 1} : u_{T}} \\ = \int_{x_{t + 1}} γ [\int_{τ_{u_{t + 1} : u_{T}}} (\sum_{k = t + 1}^{T} γ^{k - t - 1} (r_{k} - α \log π (u_{k} | x_{k}))) p (τ_{u_{t + 1} : u_{T}} | x_{t + 1}) d τ_{u_{t + 1} : u_{T}}] p (x_{t + 1} | x_{t}, u_{t}) d x_{t + 1} \end{aligned}$

소프트 상태가치 함수의 정의에 의하면 위 식은 대괄호항은 $V_{s o f t}^{π} (x_{t + 1})$ 이다. 따라서 소프트 행동가치 함수는 다음과 같이 된다.

$\begin{aligned} (4) & Q_{s o f t}^{π} (x_{t}, u_{t}) & = r_{t} + γ \int_{x_{t + 1}} V_{s o f t}^{π} (x_{t + 1}) p (x_{t + 1} | x_{t}, u_{t}) d x_{t + 1} \\ = r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t}, u_{t})} [V_{s o f t}^{π} (x_{t + 1})] \end{aligned}$

소프트 상태가치 함수와 행동가치 함수의 관계식은 아래 식과 같으므로,

$\begin{matrix} (5) & V_{s o f t}^{π} (x_{t}) = E_{u_{t} \sim π (u_{t} | x_{t})} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t})] \end{matrix}$

식 (4)를 식 (5)에 대입하면, 소프트 상태가치 함수는 다음과 같이 된다.

$\begin{matrix} (6) & V_{s o f t}^{π} (x_{t}) = E_{u_{t} \sim π (u_{t} | x_{t})} [r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t}, u_{t})} [V_{s o f t}^{π} (x_{t + 1})] - α \log π (u_{t} | x_{t})] \end{matrix}$

식 (5)를 식 (4)에 대입하면 소프트 행동가치 함수는 다음과 같이 된다.

$\begin{aligned} (7) & Q_{s o f t}^{π} (x_{t}, u_{t}) & = r_{t} + γ E_{x_{t + 1} \sim p (x_{t + 1} | x_{t}, u_{t}), u_{t + 1} \sim π (u_{t + 1} | x_{t + 1})} \\ [Q_{s o f t}^{π} (x_{t + 1}, u_{t + 1}) - α \log π (u_{t + 1} | x_{t + 1})] \end{aligned}$

식 (6)과 (7)을 각각 소프트 벨만 방정식(soft Bellman equation)이라고 한다.

표준 목적함수 문제에서 탐욕(greedy)적인 방법으로 정책을 계산하였듯이 이제 최대 엔트로피 목적함수 문제에서도 탐욕적인 방법으로 정책을 계산해 보자. 탐욕적인 방법이란 현재의 시간스텝만을 고려하여 최대값을 구하는 것을 의미한다.

현재 시간스텝 $t$ 에서 $x_{t}$ 가 주어졌을 때 최대 엔트로피 목적함수는 다음과 같다.

$\begin{aligned} (8) & J_{t} & = V_{s o f t}^{π} (x_{t}) \\ = E_{u_{t} \sim π (u_{t} | x_{t})} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t})] \\ = \int_{u_{t}} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t})] π (u_{t} | x_{t}) d u_{t} \end{aligned}$

식 (8)은 소프트 행동가치가 작다면 정책의 무작위성이 커지면서 탐색 성향이 강하지고 반대로 소프트 행동가치가 크다면 현재의 정책으로 생성된 행동의 가치가 크다는 의미이므로 탐색 대신에 정책의 활용 성향이 커지게 된다고 해석할 수 있겠다.

정책 $π (u_{t} | x_{t})$ 에 대한 목적함수의 최대값을 구하기 위하여 다음과 같이 미분 식을 계산한다.

$\begin{matrix} (9) & \frac{\partial J_{t}}{\partial π (u_{t} | x_{t})} = 0 = \int_{u_{t}} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t}) - α] d u_{t} \end{matrix}$

위 식에 의하면 최적 정책은 다음과 같이 주어진다.

$\begin{aligned} π (u_{t} | x_{t}) & = \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}) - 1) \\ (10) & \propto \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t})) \end{aligned}$

최적 정책이 $\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))$ 와 비례하는 확률분포를 갖는 것으로 계산되는데 이는 기존 Q-러닝과 DDPG의 탐욕적 정책과는 차이가 있다.

https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/

위 그림에서 왼쪽 그림은 기존의 Q-러닝과 DDPG의 접근 방식을 보여준다. 기존 정책은 최대 $Q$ 값에 중심을 두고 노이즈를 추가하여 인접 $Q$ 값으로 일정 부분 확장하는 단일 모드 분포를 갖는다.

반면 오른쪽 그림은 식 (10)으로 표현되는 정책의 접근 방식을 보여준다. 정책이 $Q$ 값의 지수함수에 비례하기 때문에 다중 모드 분포의 형태를 띠며 이에 따라 가능성이 높은 모든 상태를 탐색하고 학습할 수 있게 된다.

표준 목적함수 문제에서는 탐욕적 정책이 확정적 정책이었다면 최대 엔트로피 목적함수 문제에서는 정책이 확률적 정책으로 계산된다. 확률적 정책은 $u_{t}$ 에 관한 조건부 확률밀도함수이므로 면적이 $1$ 이 되도록 정규화시켜야 한다. 따라서 탐욕적 정책은 다음과 같이 $soft max$ 로 주어진다.

$\begin{aligned} (11) & π (u_{t} | x_{t}) & = \frac{\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))}{\int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'}} \\ = soft max_{u_{t}} (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t})) \end{aligned}$

참고로 표준 목적함수 문제에서는 탐욕적 정책을 $\arg max$ 로 계산했다.

$\begin{matrix} (11) & π (x_{t}) = \arg max_{u_{t}} Q^{π} (x_{t}, u_{t}) \end{matrix}$

만약 $α \to 0$ 이면 식 (11)은 식 (12)와 같아진다.

탐욕적 정책 (11)을 적용한다면 상태가치 함수는 식 (5)에 의해서 다음과 같이 계산된다.

$\begin{aligned} (13) & V_{s o f t}^{π} (x_{t}) & = E_{u_{t} \sim π (u_{t} | x_{t})} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t})] \\ = E_{u_{t} \sim π (u_{t} | x_{t})} [α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'}] \\ = α \log \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u^{'})) d u^{'} \end{aligned}$

한편, 식 (8)의 목적함수를 전개하면 다음과 같이 KL 발산(KL divergence)식과 관련 지울 수 있다.

$\begin{aligned} (14) & J_{t} & = E_{u_{t} \sim π (u_{t} | x_{t})} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t})] \\ = - E_{u_{t} \sim π (u_{t} | x_{t})} [α (\log π (u_{t} | x_{t}) - \frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))] \\ = - α E_{u_{t} \sim π (u_{t} | x_{t})} [\log π (u_{t} | x_{t}) - \log \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))] \\ = - α E_{u_{t} \sim π (u_{t} | x_{t})} [\log π (u_{t} | x_{t}) - \log \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t})) + \log Z (x_{t}) - \log Z (x_{t})] \\ = - α E_{u_{t} \sim π (u_{t} | x_{t})} [\log \frac{π (u_{t} | x_{t})}{\frac{\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))}{Z (x_{t})}} - \log Z (x_{t})] \\ = - α D_{K L} (π (u_{t} | x_{t}) ∥ \frac{\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))}{Z (x_{t})}) + α Z (x_{t}) \end{aligned}$

여기서 기댓값이 $u_{t}$ 의 조건부 기댓값임을 이용하여 임의의 함수 $\log Z (x_{t})$ 를 더하고 빼는 트릭을 사용했다. 수식에 있는 $D_{K L}$ 은 KL 발산 연산자이다.

$π (u_{t} | x_{t})$ 가 확률밀도함수이므로 $\frac{\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))}{Z (x_{t})}$ 도 확률밀도함수로 만들기 위해서 $Z (x_{t})$ 를 도입하였다. $Z (x_{t})$ 는 정책 확률밀도함수의 면적이 1이 되도록 만드는 정규화 항으로 정하면 된다.

$\begin{matrix} (15) & Z (x_{t}) = \int_{u^{'}} \exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t})) d u^{'} \end{matrix}$

위 수식에 의하면 목적함수 (8)을 최대화하는 정책은 그 정책과 소프트 행동가치 함수의 KL 발산을 최소화하는 정책임을 알 수 있다.

$\begin{aligned} (16) & π (u_{t} | x_{t}) & = \arg max_{π} E_{u_{t} \sim π (u_{t} | x_{t})} [Q_{s o f t}^{π} (x_{t}, u_{t}) - α \log π (u_{t} | x_{t})] \\ = \arg min_{π} D_{K L} (π (u_{t} | x_{t}) ∥ \frac{\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))}{Z (x_{t})}) \end{aligned}$

식 (16)을 최소로 만드는 정책은 이미 식 (11)에서 계산했듯이 정책이 $\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))$ 와 비례하는 것인데, $\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))$ 에 비례하는 확률분포는 핸들링하기가 곤란하다.

따라서 식 (16)은 $\exp (\frac{1}{α} Q_{s o f t}^{π} (x_{t}, u_{t}))$ 에 비례하는 확률분포와 최대한 유사한 가우시안 분포나 균등분포 또는 GMM(Gaussian mixture model)과 같은 확률밀도함수를 계산하기 위한 식으로 이해하는 것이 좋겠다. 가우시안 분포의 경우 수학적으로 다루기도 쉽고 샘플링하기도 쉽다.

'AI 딥러닝 > RL' 카테고리의 다른 글

Soft Actor Critic (SAC) 알고리즘 - 1 (0)	2021.05.29
소프트 정책 이터레이션 (0)	2021.05.28
최대 엔트로피 목적함수 (0)	2021.05.26
Tensorflow2로 만든 DDPG 코드: Pendulum-v0 (0)	2021.05.14
DQN에서 DDPG로 (0)	2021.05.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepCampus

소프트 벨만 방정식 (Soft Bellman Equation)

'AI 딥러닝 > RL' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

소프트 벨만 방정식 (Soft Bellman Equation)

'AI 딥러닝 > RL' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역