본문 바로가기
유도항법제어/최적제어

동역학 문제의 최적제어 문제로의 변환

by 세인트 워터멜론 2023. 6. 4.

고전 동역학에서 해밀톤의 원리(Hamilton's principle) (https://pasus.tistory.com/155) 에 의하면 고정된 양 끝단을 연결하는 수많은 경로 중에서 실제 경로는 '작용(action)'을 최소화하는 경로다. 여기서 작용이란 운동 에너지와 포텐셜 에너지의 차이를 시간 적분한 것을 의미한다. 이 원리로부터 라그랑지 방정식(Lagrange's equation)이 유도되는데, 여기서는 이를 최적제어 문제를 이용하여 유도해 보도록 하겠다.

 

 

먼저 제어 대상 시스템의 운동 방정식을 다음과 같이 표현하자.

 

\[ \frac{d\mathbf{q}}{dt} = \mathbf{u} \tag{1} \]

 

여기서 \(\mathbf{q}\) 는 일반화 좌표(generalized coordinate)이고 \(\mathbf{u}\) 는 일반화 속도인데, 이 일반화 속도를 최적제어 문제에서는 입력으로 간주한다.

해밀톤의 원리에 의하면 이 시스템이 최소화해야 할 목적함수는 다음과 같아야 한다.

 

\[ \begin{align} J &= \int_{t_1}^{t_2} L(\mathbf{q}, \mathbf{u}) \ dt \tag{2} \\ \\ &= \int_{t_1}^{t_2} \left( T(\mathbf{q}, \mathbf{u})-V( \mathbf{q}) \right) \ dt \end{align} \]

 

여기서 \(T\) 는 운동 에너지, \(V\) 는 포텐셜 에너지, \(L\) 은 라그랑지안(Lagrangian)이다.

이 문제는 초기시간과 최종시간이 모두 주어지고 제약조건과 경계조건이 없는 최적제어 문제다. 이 문제를 풀기 위해 먼저 해밀토니안(Hamiltonian) 함수를 다음과 같이 정의한다.

 

\[ \mathcal{H}= L+ \lambda^T \mathbf{u} \tag{3} \]

 

연속시간 비선형 시스템의 최적제어의 필요조건을 정리한 표(https://pasus.tistory.com/232)에 의하면, 다음과 같이 상태변수와 코스테이트 미분 방정식을 얻을 수 있다.

 

\[ \begin{align} \dot{\mathbf{q}} &= \frac{ \partial \mathcal{H} }{\partial \lambda} \tag{4} \\ \\ - \dot{\lambda} &= \frac{\partial \mathcal{H} }{\partial \mathbf{q} } = \frac{\partial L}{\partial \mathbf{q} } \tag{5} \end{align} \]

 

정정조건(stationary condition)은 다음과 같다.

 

\[ 0 = \frac{\partial \mathcal{H} }{\partial \mathbf{u} } = \frac{\partial L}{\partial \mathbf{u} }+ \lambda \tag{6} \]

 

식 (5)와 (6)을 결합하면 다음과 같이 라그랑지 방정식을 얻을 수 있다.

 

\[ \frac{d}{dt} \left( \frac{\partial L}{ \partial \dot{\mathbf{q}}} \right) - \frac{\partial L}{\partial \mathbf{q} } =0 \tag{7} \]

 

한편 식 (6)에 의하면,

 

\[ \lambda = - \frac{\partial L}{\partial \dot{\mathbf{q}} } \tag{8} \]

 

이므로 코스테이트 \(\lambda\) 는 일반화 운동량(generalized momentum)에 해당한다. 따라서 식 (4)와 (5)는 해밀톤 표준 방정식(Hamilton canonical equation)과 일치한다.

 

 

램버트 문제(Lambert's problem)는 이체문제(two-body problem)에서 유도된 기본 궤도 미분 방정식에 대한 2점 경계값 문제(TPBVP, two-point boundary value problem)이다(https://pasus.tistory.com/69). 램버트 문제의 수식은 다음과 같다.

 

\[ \begin{align} & \frac{ d^2 \mathbf{r}}{ dt^2 }+ \frac{ \mu }{ \left( \sqrt{ \mathbf{r} \cdot \mathbf{r}} \right)^3} \mathbf{r}=0 \tag{9} \\ \\ & \mathbf{r}(t_1 )= \mathbf{r}_1, \ \ \mathbf{r}(t_2 )= \mathbf{r}_2 \end{align} \]

 

여기서 \(\mu\) 는 중력 파라미터, \(\mathbf{r}\) 은 관성 좌표계의 원점에서 질점까지의 위치벡터다. 라그랑지 방정식을 유도한 것과 같은 방법을 이용하면 램버트 문제도 최적제어 문제로 변환할 수 있다.

 

 

먼저 제어 대상 시스템의 운동 방정식을 다음과 같이 표현한다.

 

\[ \frac{ d \mathbf{r} }{dt}= \mathbf{v} \tag{10} \]

 

여기서 \(\mathbf{v}\) 는 속도벡터임과 동시에 시스템의 입력으로 간주한다.

해밀톤의 원리에 의하면 이 시스템이 최소화해야 할 목적함수는 다음과 같다.

 

\[ J= \int_{t_1}^{t_2} \left( T( \mathbf{r}, \mathbf{v})-V(\mathbf{r}) \right) \ dt \tag{11} \]

 

여기서 운동 에너지 \(T\) 와 포텐셜 에너지 \(V\) 는 다음과 같이 주어진다.

 

\[ T=\frac{1}{2} \mathbf{v} \cdot \mathbf{v}, \ \ \ \ \ V = - \frac{\mu}{ \sqrt{ \mathbf{r} \cdot \mathbf{r} } } \tag{12} \]

 

초기 및 최종 상태변수의 제약조건은 다음과 같다.

 

\[ \mathbf{r}(t_1 )=\mathbf{r}_1, \ \ \ \ \ \mathbf{r}(t_2 )= \mathbf{r}_2 \tag{13} \]

 

식 (10)~(13)으로 주어지는 문제는 초기 시간과 최종시간에서 제약조건이 주어진 최적제어 문제다. 이 문제를 풀기 위해 먼저 해밀토니안 함수를 정의한다.

 

\[ \mathcal{H}= \frac{1}{2} \mathbf{v} \cdot \mathbf{v} + \frac{\mu}{ \sqrt{ \mathbf{r} \cdot \mathbf{r} } } + \lambda ^T \mathbf{v} \tag{14} \]

 

연속시간 비선형 시스템의 최적제어의 필요조건을 정리한 표(https://pasus.tistory.com/232)에 의하면, 다음과 같이 상태변수와 코스테이트 미분 방정식을 얻을 수 있다.

 

\[ \begin{align} \dot{\mathbf{r}} &= \frac{ \partial \mathcal{H} }{ \partial \lambda } = \mathbf{v} \tag{15} \\ \\ - \dot{\lambda} &= \frac{\partial \mathcal{H} }{ \partial \mathbf{r} }= - \frac{\mu}{ \left( \sqrt{ \mathbf{r} \cdot \mathbf{r} } \right)^3 }\mathbf{ r} \end{align} \]

 

정정조건은 다음과 같다.

 

\[ 0= \frac{\partial \mathcal{H} }{ \partial \mathbf{v} }= \mathbf{v}+ \lambda \tag{16} \]

 

초기 시간과 최종시간에서 제약조건이 모두 주어졌기 때문에 최적제어 문제의 경계조건은 자동으로 만족한다.

식 (16)을 (15)에 대입하면 식 (9)의 램버트 문제와 동일한 식이 된다. 따라서 램버트 문제는 식 (10)~(13)으로 주어지는 최적제어 문제와 동일함을 알 수 있다. 즉 램버트 문제는 최적제어 솔루션을 이용하여 풀 수도 있다.

한편 식 (16)을 식 (14)에 대입하면

 

\[ \mathcal{H}= - \frac{1}{2} \mathbf{v} \cdot \mathbf{v}+ \frac{ \mu }{ \sqrt{ \mathbf{r} \cdot \mathbf{r}} }=-(T+V)=-E \tag{17} \]

 

가 되어서 궤도 에너지 \(E\) 의 음수 값에 해당한다. 식 (14)의 해밀토니안은 시불변 함수이므로 궤적와 무관하게 일정한 값을 같게 되는데, 이는 곧 궤도 에너지도 일정한 값을 갖는다는 것을 의미한다.

 

 

댓글