[Discrete-Time] 자유최종상태 (Free-final-state) LQR

다음과 같은 선형 시스템에 대해서

$\begin{matrix} (1) & x_{t + 1} = F_{t} x_{t} + G_{t} u_{t} \end{matrix}$

목적함수가 다음과 같이 2차함수로 주어지는

$\begin{matrix} (2) & J_{t} = \frac{1}{2} x_{N}^{T} S_{N} x_{N} + \frac{1}{2} \sum_{t = i}^{N - 1} (x_{t}^{T} Q_{t} x_{t} + u_{t}^{T} R_{t} u_{t}) \end{matrix}$

LQR 문제의 해는 다음과 같다. 여기서는 최종 상태변수에 관한 제약조건이 없다고 가정한다 (https://pasus.tistory.com/38).

$\begin{aligned} (3) & x_{t + 1} = F_{t} x_{t} + G_{t} u_{t} \\ (4) & λ_{t} = F_{t}^{T} λ_{t + 1} + Q_{t} x_{t} \\ (5) & 0 = G_{t}^{T} λ_{t = 1} + R_{t} u_{t} \\ (6) & 0 = {(S_{N} x_{N} - λ_{N})}^{T} d x_{N} \end{aligned}$

최적제어는 식 (5)로부터 다음과 같이 주어진다.

$\begin{matrix} (7) & u_{t} = - R_{t}^{- 1} G_{t}^{T} λ_{t + 1} \end{matrix}$

시스템의 최종 상태변수가 정해지지 않고 계산되어야 한다면, 즉 자유최종상태(free-final-state) 문제라면 $d x_{N} \neq 0$ 이므로 최종 코스테이트(costate)는 시스템의 상태변수와 다음 관계식을 만족한다.

$\begin{matrix} (8) & λ_{N} = S_{N} x_{N} \end{matrix}$

이제, 자유최종상태 LQR 문제를 풀어보자.

식 (8)은 시간스텝 $N$ 에서만 적용되지만, 모든 시간스텝 $i \leq t \leq N$ 에서도 적용된다고 가정한다. 즉,

$\begin{matrix} (9) & λ_{t} = S_{t} x_{t} \end{matrix}$

만약 식 (9)를 만족하는 $S_{t}$ 를 구할 수 있다면 이러한 가정은 유효할 것이다. 식 (9)를 식 (7)에 대입하고, 이를 식 (3)에 대입하면 다음식을 얻을 수 있다.

$\begin{matrix} (10) & x_{t + 1} = F_{t} x_{t} - G_{t} R_{t}^{- 1} G_{t}^{T} S_{t + 1} x_{t + 1} \end{matrix}$

식 (10)을 $x_{t + 1}$ 에 관해서 정리하면 다음과 같다.

$\begin{matrix} (11) & x_{t + 1} = {(I + G_{t} R_{t}^{- 1} G_{t}^{T} S_{t + 1})}^{- 1} F_{t} x_{t} \end{matrix}$

이번에는 식 (9)를 식 (4)에 대입하면 다음식을 얻을 수 있다.

$\begin{matrix} (12) & S_{t} x_{t} = F_{t}^{T} S_{t + 1} x_{t + 1} + Q_{t} x_{t} \end{matrix}$

식 (11)을 (12)에 대입하고 정리하면 다음과 같이 된다.

$\begin{matrix} (13) & S_{t} x_{t} = F_{t}^{T} S_{t + 1} {(I + G_{t} R_{t}^{- 1} G_{t}^{T} S_{t + 1})}^{- 1} F_{t} x_{t} + Q_{t} x_{t} \end{matrix}$

위 식은 모든 $x_{t}$ 에 대해서 성립해야 하므로, 다음식이 얻어진다.

$\begin{matrix} (14) & S_{t} = F_{t}^{T} S_{t + 1} {(I + G_{t} R_{t}^{- 1} G_{t}^{T} S_{t + 1})}^{- 1} F_{t} + Q_{t} \end{matrix}$

행렬 역변환 정리(matrix inversion lemma)에 의하면 식 (14)는 다음 식이 된다.

$\begin{matrix} (15) & S_{t} = F_{t}^{T} S_{t + 1} [I - G_{t} {(R_{t} + G_{t}^{T} S_{t + 1} G_{t})}^{- 1} G_{t}^{T} S_{t + 1}] F_{t} + Q_{t} \end{matrix}$

식 (15)는 시간적으로 역방향(backward)으로 풀 수 있는 식이다. 식 (15)의 오른쪽 항은 $S_{t + 1}$ 를 제외하고는 모두 문제에서 주어진 행렬이므로 $S_{t + 1}$ 만 알면 $S_{t}$ 를 계산할 수 있다. 식 (8)을 통해서 식 (9)를 유추해 냈으므로 시간스텝 $t = N$ 일 때 $S_{t}$ 의 경계값은 최종 상태변수의 가중치 행렬인 $S_{N}$ 이 된다. 따라서 식 (15)에 의해서 식 (9)가 타당한 가정임을 알 수 있다. 식 (15)를 리카티 방정식(Riccati equation)이라고 한다.

최종값 $S_{N}$ 을 이용해서 시간적으로 역순으로 모든 시간스텝에서 $S_{t}$ 를 계산할 수 있다. 그러면 식 (7)로 다음과 같이 최적제어를 계산할 수 있다.

$\begin{matrix} (16) & u_{t} = - R_{t}^{- 1} G_{t}^{T} λ_{t + 1} = - R_{t}^{- 1} G_{t}^{T} S_{t + 1} x_{t + 1} \end{matrix}$

시스템 운동인 식 (3)을 식 (16)에 대입하면,

$\begin{matrix} (17) & u_{t} = - R_{t}^{- 1} G_{t}^{T} S_{t + 1} (F_{t} x_{t} + G_{t} u_{t}) \end{matrix}$

가 되고, 이 식을 정리하면 최종적으로 다음 식을 얻을 수 있다.

$\begin{matrix} (18) & u_{t} = - {(G_{t}^{T} S_{t + 1} G_{t} + R_{t})}^{- 1} G_{t}^{T} S_{t + 1} F_{t} x_{t} \end{matrix}$

여기서 LQ 게인 $K_{t}$ 를 다음과 같이 정의하면,

$\begin{matrix} (19) & K_{t} = - {(G_{t}^{T} S_{t + 1} G_{t} + R_{t})}^{- 1} G_{t}^{T} S_{t + 1} F_{t} \end{matrix}$

최적제어는 다음과 같이 상태변수 피드백 제어의 형태가 된다.

$\begin{matrix} (20) & u_{t} = K_{t} x_{t} \end{matrix}$

LQ 게인은 상태변수에 비례하는 제어입력을 산출하는 비례 제어의 이득값이다. 식 (19)에 의하면 LQ 게인은 상태변수의 궤적과 무관하게 계산할 수 있다. 따라서 최적제어인 식 (20)을 시스템에 직접 적용하기 전에 미리 LQ 게인을 계산해서 저장해 놓을 수 있다. 그런 후 순차적으로 LQ 게인을 꺼내서 식 (14)로 최적제어 값을 계산해서 시스템에 인가하면 최적 궤적 시퀀스 ${x_{i}^{*}, x_{i + 1}^{*}, \dots, x_{N}^{*}}$ 을 계산해 낼 수 있다.

요약하면, LQR은 최종 시간에서부터 역방향 시간으로 LQ 게인을 계산하는 역방향 패스(backward pass)와 순방향 시간으로 최적제어를 시스템에 적용하여 궤적을 계산하는 순방향 패스(forward pass)로 구성된다.

'유도항법제어 > 최적제어' 카테고리의 다른 글

변분법과 오일러-라그랑지 방정식 (0)	2021.01.12
변분법 (calculus of variation) (0)	2021.01.11
브라키스토크론 문제와 변분법 (0)	2021.01.08
[Discrete-Time] LQR 문제 (0)	2020.10.31
[Discrete-Time] 최적제어 문제 (1)	2020.10.27

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepCampus

[Discrete-Time] 자유최종상태 (Free-final-state) LQR

'유도항법제어 > 최적제어' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[Discrete-Time] 자유최종상태 (Free-final-state) LQR

'유도항법제어 > 최적제어' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역