본문 바로가기

벨만 최적 방정식3

풍력단지 제어(Wind Farm Control)의 방법 풍력단지에서 전력 손실의 가장 큰 원인 중의 하나는 상류 풍력터빈에 의해 발생하는 후류(wake)로서, 이로 인해 전체 전력의 약 20~40% 가량이 손실된다고 한다. 뿐만 아니라 하류에 있는 풍력터빈은 상류 풍력터빈 보다도 약 80% 가량 더 큰 구조적 하중(loading)을 받는다고 한다. 이러한 문제에 대처하기 위한 풍력단지 제어(wind farm control)로서 일반적으로 두가지 방법이 사용된다. 후류방향제어(WRC, Wake Redirection Control)와 축방향 유도제어(AIC, Axial Induction Control)이다. 연구에 따르면 두 방법 모두 전력 생산을 증가시킬 수 있고 구조적 하중을 줄일 수 있다고 한다. 후류방향제어(WRC)는 상류 풍력터빈의 로터면을 유입되는 바.. 2021. 12. 5.
가치 이터레이션 (Value Iteration) 정책 이터레이션에서는 정책 평가 단계 시에 가치함수를 수렴할 때까지 수차례 반복 계산하였다. 그리고 수렴된 가치함수를 이용하여 정책 개선을 수행하였다. 만약 정책 평가 단계 시에 가치함수를 한 번만 계산하고 수렴되지 않은 상태로 바로 정책 개선 단계로 넘어가면 어떨까. 즉, 식 (1)과 같이 정책 \(\pi_i\) 에 대한 정책 평가를 한 단계만 수행한 후, \[ \begin{align} & V_{i+1}^{\pi_i} (\mathbf{x}_t )= r_t+ \mathbb{E}_{ \mathbf{x}_{t+1} \sim p(\mathbf{x}_{t+1} | \mathbf{x}_t, \mathbf{u}_t) } \left[ \gamma V_i^{\pi_i } (\mathbf{x}_{t+1} ) \right.. 2021. 4. 29.
벨만 최적 방정식 (Bellman Optimality Equation) 벨만의 최적성 원리(Bellman’s principle of optimality)는 일견 자명해 보이는 사실에 바탕을 두고 있다. 만약 상태변수와 그 상태변수에서 내린 어떤 결정들의 시퀀스가 최적(optimal)이라면, 맨 첫 번째 상태변수와 결정을 해당 시퀀스에서 제거해도, 나머지 시퀀스는 여전히 최적 시퀀스라는 것이다. 물론 나머지 시퀀스는 두 번째 상태변수와 결정을 초기 조건으로 하는 시퀀스가 된다. 좀 더 구체적으로 설명해 본다. 다음과 같은 그림에서 최적 경로가 경로 a-b-d 라고 하자. 노드 a에서 처음 내린 결정(decision)으로 경로 a-b가 선택됐고 그 때의 비용은 \(J_{ab}\)라고 하고, 그 다음 결정으로 경로 b-d가 선택됐고 그 때의 비용이 \(J_{bd}\)라고 하자. .. 2021. 4. 28.