프라이멀-듀얼 내부점 방법 (Primal-Dual Interior-Point Method)

제약조건이 있는 컨벡스(convex) 최적화 문제에 대해서

$\begin{aligned} (1) & min_{x} f (x) \\ subject to : g_{i} (x) \leq 0, i = 1, . . ., m \\ A x = b \end{aligned}$

KKT(Karush-Kuhn-Tucker) 수정식은 다음과 같다.

$\begin{aligned} (2) & \nabla_{x} f (x) + \sum_{i = 1}^{m} μ_{i} \nabla_{x} g_{i} (x) + A^{T} λ = 0 \\ (3) & g_{i} (x) \leq 0, i = 1, . . ., m \\ (4) & A x = b \\ (5) & μ_{i} \geq 0, i = 1, . . ., m \\ (6) & μ_{i} g_{i} (x) = - \frac{1}{t}, t > 0, i = 1, . . ., m \end{aligned}$

여기서 $t$ 는 KKT 식을 수정식으로 바꾸기 위한 파라미터이다.

장벽 내부점 방법(barrier interior-point method)에서는 식 (6)을 (2)에 대입하였다. 그러면 식 (3)과 (5)가 자동으로 만족되는 로그 장벽함수가 되었다.

반면에 프라이얼-듀얼 내부점 방법(primal-dual interior-point method)에서는 식 (2), (4), (6)을 뉴턴방법(Newton's method)을 이용하여 직접 푸는 방식을 택한다.

우선 다음과 같은 잔차(residual) 벡터 $r_{t} (x, μ, λ)$ 를 정의한다.

$\begin{matrix} (7) & r_{t} (x, μ, λ) = [\begin{matrix} \nabla_{x} f (x) + \nabla_{x}^{T} g (x) μ + A^{T} λ \\ - diag (μ) g (x) - \frac{1}{t} 1 \\ A x - b \end{matrix}] \end{matrix}$

여기서

$g (x) = [\begin{matrix} g_{1} (x) \\ ⋮ \\ g_{m} (x) \end{matrix}], μ = [\begin{matrix} μ_{1} \\ ⋮ \\ μ_{m} \end{matrix}], diag (μ) = [\begin{matrix} μ_{1} & 0 \\ ⋱ \\ 0 & μ_{m} \end{matrix}]$

이다. 그러면 잔차 벡터가 모두 $0$ 일 때 식 (2), (4), (6)이 만족된다. 식 (7)의 첫번째 벡터 성분을 듀얼 잔차(dual residual) $r_{d u a l}$ , 두번째 벡터 성분을 중심성 잔차(centrality residual) $r_{c e n t}$ , 세번째 벡터 성분을 프라이멀 잔차(primal residual) $r_{p r i m}$ 라고 한다.

이제 $r_{t} (x, μ, λ) = 0$ 을 뉴턴방법을 이용하여 풀어보자. 이 때 주의할 점은 뉴턴방법의 매 이터레이션 단계에서 $g (x) < 0$ , $μ > 0$ 이 만족되도록 해야 한다는 것이다.

여기서 잠시 표기를 간단하게 하기 위해서 $y = [\begin{matrix} x \\ μ \\ λ \end{matrix}]$ , $Δ y = [\begin{matrix} Δ x \\ Δ μ \\ Δ λ \end{matrix}]$ , $r_{t} (y) = [\begin{matrix} r_{d u a l} (y) \\ r_{c e n t} (y) \\ r_{p r i m} (y) \end{matrix}]$ 로 쓴다. 그리고 $r_{t} (y + Δ y)$ 를 1차 테일러 시리즈로 전개하면 다음과 같다.

$\begin{matrix} (8) & r_{t} (y + Δ y) \approx r_{t} (y) + \nabla_{y}^{T} r_{t} (y) Δ y \end{matrix}$

뉴턴방법에 의하면 $r (y + Δ y) = 0$ 으로 만드는 $Δ y$ 값을 구해야 한다.

$\begin{matrix} (9) & \nabla_{y}^{T} r_{t} (y) Δ y = - r_{t} (y) \end{matrix}$

위 식을 다시 풀어 쓰면 다음과 같다.

$\begin{aligned} (10) & [\begin{array}{c} \nabla_{x}^{2} f (x) + \sum_{i = 1}^{m} μ_{i} \nabla_{x}^{2} g_{i} (x) & \nabla_{x}^{T} g (x) & A^{T} \\ - diag (μ) \nabla_{x} g (x) & - diag (g (x)) & 0 \\ A & 0 & 0 \end{array}] [\begin{array}{c} Δ x \\ Δ μ \\ Δ λ \end{array}] \\ = [\begin{array}{c} \nabla_{x} f (x) + \nabla_{x}^{T} g (x) μ + A^{T} λ \\ - diag (μ) g (x) - \frac{1}{t} 1 \\ A x - b \end{array}] \end{aligned}$

프라이멀-듀얼 내부점 방법에서는 식 (10)을 사용하여 뉴턴스텝 $Δ x$ 와 중심성스텝 $Δ μ$ , 듀얼스텝 $Δ λ$ 를 잔차 벡터가 $0$ 이 될 때까지 업데이트 한다.

그렇다면 특정 $t$ 에서 구한 최적값 $f (x^{⋆} (t))$ 와 식 (1)의 최적값 $p^{⋆}$ 의 차이는 어떻게 계산할 수 있을까. 이터레이션을 어딘가에서 멈추려면 이 값을 아는 것이 중요하다. 장벽방법에서는 이 값이 듀얼리티 갭(duality gap) $\frac{m}{t}$ 이었다. 하지만 장벽방법과는 다르게 프라이멀-듀얼 방법에서는 이터레이션 단계에서 $x, μ, λ$ 값이 실현가능(feasible)하다는 보장이 없으므로 듀얼리티 갭을 계산하기가 쉽지 않다. 대신 아래 식으로 표현되는 대체(surrogate) 듀얼리티 갭을 사용한다.

$\begin{matrix} (11) & \hat{κ} (x, μ) = - g (x)^{T} μ \end{matrix}$

여기서 $x$ 는 $g (x) < 0$ 과 $μ > 0$ 의 조건을 만족해야 한다. 만약 $A x = b$ 이고 $μ_{i} = - \frac{1}{t g_{i} (x)}$ 이라면 식 (11)은 듀얼리티 갭 $\frac{m}{t}$ 과 일치한다. 이를 이용하면 대체 듀얼리티 갭 $\hat{κ}$ 가 듀얼리티 갭인 $\frac{m}{t}$ 과 일치하도록 파라미터 $t$ 를 계산할 수 있다.

$\begin{matrix} (12) & t = \frac{m}{\hat{κ}} \end{matrix}$

이처럼 $t$ 를 계산하면 $t$ 에 대한 이터레이션 루프가 필요 없어지고 뉴턴방법에 의한 이터레이션만 남게 된다. 프라이멀-듀얼 내부점 방법을 정리하면 다음과 같다.

   0. $g (x) < 0$ 인 시작값 $x$ 와 $μ > 0$ , 파라미터 종료조건 값 $ϵ > 0$ , $ϵ_{f e a s} > 0$ , $t$ 의 증가팩터 $γ > 1$ 을 설정한다.

   1. 다음을 반복한다.

         [1] $t$ 를 계산한다.

                     $t \leftarrow γ t = γ \frac{m}{\hat{κ}}$

         [2] $Δ y$ 를 계산한다.

         [3] 스텝사이즈 $η$ 를 계산한다.

         [4] $y$ 를 업데이트 한다.

                     $y \leftarrow y + η Δ y$

         [5] 다음 종료조건을 모두 만족하면 이터레이션을 중지한다.

                     $∥ r_{p r i m} ∥_{2} \leq ϵ_{f e a s}$ , $∥ r_{d u a l} ∥_{2} \leq ϵ_{f e a s}$ , $\hat{κ} \leq ϵ$

프라이멀-듀얼 내부점 알고리즘에서 [1]은 파라미터 $t$ 를 증가시키기 위한 것으로 장벽방법에서도 사용되는 업데이트 방식이다. 알고리즘 [5]의 종료조건은 프라이멀과 듀얼 잔차 벡터의 크기가 모두 $0$ 에 근접하고 대체 듀얼리티 갭이 미리 설정한 값 이하로 작아질 때이다.

알고리즘 [3]의 스텝사이즈 계산은 $g (x) < 0$ 과 $μ > 0$ 이 성립할 수 있도록 표준 백트래킹 라인서치(backtracking line search) 방법을 수정해서 사용한다. 먼저 $μ + η Δ μ > 0$ 이 되도록 크기가 $1$ 이내인 범위에서 $η$ 의 최대값을 구한다.

$\begin{matrix} (13) & η_{m a x} = max {η \in [0, 1] | μ + η Δ μ > 0} \end{matrix}$

그런 후 $η = 0.99 η_{m a x}$ 에서부터 시작하여 $g (x) < 0$ 이 얻어질 때까지 $β \in (0, 1)$ 를 $η$ 에 곱한다. 그리고 나서 다음과 같은 표준 백트래킹 라인서치 방법을 사용한다.

   0. $α \in (0.01, 0.1), β \in (0, 1)$ 을 설정한다.

   1. 다음을 반복한다.

         [1] $∥ r (x + η Δ x, μ + η Δ μ, λ + η Δ λ) ∥_{2} \leq (1 - α η) ∥ r (x, μ, λ) ∥_{2}$ 이면 이터레이션을 종료한다.

         [2] $η \leftarrow β η$

프라이멀-듀얼 내부점 방법의 장점은 이터레이션 루프가 1개라는 것이다. 뿐만 아니라 LP, QP, SOCP(second-order cone programming), SDP(semidefinite programming) 문제에서는 장벽방법의 성능을 훨씬 능가한다고 한다.

'AI 수학 > 최적화' 카테고리의 다른 글

파티클 군집 최적화 (Particle Swarm Optimization) (0)	2024.12.20
라인서치 (Line Search) 방법 (0)	2022.04.21
장벽 내부점 방법 (Barrier Interior-Point Method) (0)	2022.04.13
등식 제약조건에서의 뉴턴방법 (Newton’s Method) (0)	2022.04.10
뉴턴방법 (Newton’s Method) (0)	2022.04.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepCampus

프라이멀-듀얼 내부점 방법 (Primal-Dual Interior-Point Method)

'AI 수학 > 최적화' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

프라이멀-듀얼 내부점 방법 (Primal-Dual Interior-Point Method)

'AI 수학 > 최적화' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역