algebraic Riccati equation2 [Continuous-Time] 무한구간 (Infinite-horizon) LQR 다음과 같은 선형 시스템과 \[ \dot{\mathbf{x}}=A \mathbf{x}+B \mathbf{u} \tag{1} \] 시간 구간 \([t_0, \ t_f]\) 에서 이차함수로 주어진 목적함수가 있을 때, \[ J=\frac{1}{2} \mathbf{x}^T (t_f ) S_f \mathbf{x}(t_f )+ \frac{1}{2} \int_{t_0}^{t_f} \left( \mathbf{x}^T Q \mathbf{x}+ \mathbf{u}^T R \mathbf{u} \right) \ dt \tag{2} \] 목적함수를 최소화하는 최종자유상태 LQR (free-final-state linear quadratic regulator) 문제의 해는 다음과 같이 주어진다 (https://pasus.tis.. 2023. 12. 21. 가치 이터레이션 (Value Iteration)과 LQR 이번에는 벨만 최적 방정식을 이용하여 이산시간(discrete-time) LQR을 유도해 보도록 하자. 정책 이터레이션과 마찬가지로 마르코프 결정 프로세스(MDP)는 결정적(deterministic) 프로세스로 가정하고 환경 모델도 다음과 같다고 가정한다. \[ \mathbf{x}_{t+1}=A \mathbf{x}_t+B \mathbf{u}_t \tag{1} \] 보상(reward)도 동일하게 다음과 같이 정의한다. \[ r(\mathbf{x}_t, \mathbf{u}_t)= -\frac{1}{2} \left( \mathbf{x}_t^T Q \mathbf{x}_t+ \mathbf{u}_t^T R \mathbf{u}_t \right) \ \tag{2} \] 여기서 \( Q=Q^T \ge 0\), \(R=R.. 2021. 6. 23. 이전 1 다음