함수의 최소화 또는 최대화의 조건

다음과 같이 제약조건이 없는 일반적인 최적화 문제가 있다.

$min_{x} f (x) 또 는 max_{x} f (x)$

여기서 $x \in R^{n}$ 은 최적화 변수이고, $f (x)$ 은 목적함수(objective function)이다. 이 목적함수를 최소화 또는 최대화하기 위한 조건은 무엇일까.

$x$ 의 독립적 변화에 의해 유도된 함수 $f (x)$ 의 변화량을 계산해 보자. $x$ 의 변화량을 $Δ x$ 라고 하면, 함수의 증분(increment) $Δ f$ 는 다음 식으로 주어진다.

$Δ f = f (x + Δ x) - f (x)$

변화량이 매우 작을 때, 즉 $‖ Δ x ‖ \to 0$ 일 때는 미분(differential) $d x$ 로 표기하고 함수의 증분도 미분 $d f$ 로 표기한다. 미분 $d f$ 와 미분 $d x$ 의 비율 $\frac{d f}{d x}$ 를 도함수(derivative)라고 한다 (흔히 이것도 미분이라고 번역한다).

다음 그림은 최적화 변수가 스칼라일때의 함수의 증분과 미분 사이의 관계를 보여준다. 증분 $Δ f$ 는 $x$ 의 변화량이 $d x = Δ x$ 일 때 함수 $f (x)$ 의 변화량인 반면 $d f$ 는 $x$ 점에서 계산한 접선(도함수)을 따라 생긴 변화량을 나타낸다. 즉 $d f = \frac{d f}{d x} d x$ 이다. 그래서 미분 $d f$ 를 1차(first-order) 증분 또는 선형 증분이라고 한다.

다음 그림은 최적화 변수가 2차원 벡터 $x = {[\begin{matrix} x_{1} & x_{2} \end{matrix}]}^{T}$ 일 때의 함수의 증분과 미분 사이의 관계를 보여준다. 증분 $Δ f$ 는 $x_{1}$ 과 $x_{2}$ 의 변화량이 각각 $d x_{1} = Δ x_{1}$ 과 $d x_{2} = Δ x_{2}$ 일 때 함수 $f (x)$ 의 변화량인 반면, $d f$ 는 $x_{1}$ 과 $x_{2}$ 점에서 계산한 접면(도함수)을 따라 생긴 변화량을 나타낸다. 즉

$d f = \frac{\partial f}{\partial x_{1}} d x_{1} + \frac{\partial f}{\partial x_{2}} d x_{2}$

함수의 변수가 일반적인 $n$ -차원 벡터 $x$ 일 때의 함수의 미분 $d f$ 는 다음과 같이 계산된다.

$\begin{aligned} d f & = \frac{\partial f}{\partial x_{1}} d x_{1} + \frac{\partial f}{\partial x_{2}} d x_{2} + \dots + \frac{\partial f}{\partial x_{n}} d x_{n} \\ = {(\frac{d f}{d x})}^{T} d x \end{aligned}$

만약 $x^{*}$ 을 기준으로 $‖ x - x^{*} ‖ < ϵ$ 을 만족하는 모든 $x$ 에 대해서 $Δ f = f (x) - f (x^{*}) \geq 0$ 인 어떤 값 $ϵ > 0$ 가 존재한다면, $f (x^{*})$ 를 로컬 최소값이라고 하고, $Δ f = f (x) - f (x^{*}) \leq 0$ 이라면 $f (x^{*})$ 를 로컬 최대값이라고 한다. 만약 $ϵ$ 값을 임의의 큰 값으로 정할 수 있다면 각각 글로벌 최소값, 글로벌 최대값이라고 한다. 그리고 이 때의 $x^{*}$ 를 정류점(stationary point) 또는 극점(extremal point)이라고 한다.

정류점에서는 함수의 미분이 0이 된다. 즉. $d f (x^{*}) = 0$ 이다. 이 말은 어떤 함수가 어떤 값 $x$ 에서 (로컬) 최소값 또는 최대값을 갖는다면 그 값이 바로 정류점이고 그 때 함수의 미분은 0이라는 뜻이다. 즉, 함수 $f (x)$ 가 (로컬) 최소값 또는 최대값을 갖기 위한 필요조건은 다음과 같다.

$d f (x^{*}) = 0$

증명해 보자.
먼저 함수가 $x^{*}$ 에서 로컬 최소값을 갖는다면, $x = x^{*} + α d x$ 일 때 함수의 미분은 다음 식을 만족해야 한다.

$\begin{aligned} d f (x^{*}) & = f (x + α d x) - f (x^{*}) \\ = α {(\frac{d f}{d x})}_{x^{*}}^{T} d x \geq 0 \end{aligned}$

여기서 $α > 0$ 이고 $] | α d x ‖ \to 0$ 이며, ${(\frac{d f}{d x})}_{x^{*}}$ 는 $x = x^{*}$ 에서 계산한 $x$ 에 대한 $f$ 의 그래디언트(gradient)이다. 또한 함수가 $x^{*}$ 에서 로컬 최소값을 갖는다면, $x = x^{*} - α d x$ 일 때도 다음 식을 만족해야 한다.

$\begin{aligned} d f (x^{*}) & = f (x - α d x) - f (x^{*}) \\ = - α {(\frac{d f}{d x})}_{x^{*}}^{T} d x \geq 0 \end{aligned}$

위 두 식에 의하면 동시에 ${(\frac{d f}{d x})}_{x^{*}}^{T} d x \geq 0$ 과 ${(\frac{d f}{d x})}_{x^{*}}^{T} d x \leq 0$ 을 만족해야 하므로, 함수가 $x^{*}$ 에서 로컬 최소값을 갖는다면 ${(\frac{d f}{d x})}_{x^{*}}^{T} d x = 0$ 또는 $d f (x^{*}) = 0$ 이 되야 한다.
동일한 방법을 사용하면 함수가 $x^{*}$ 에서 로컬 최대값을 갖을 때에도 $d f (x^{*}) = 0$ 이 돼야 함을 증명할 수 있다.

정리하면, 함수 $f (x)$ 가 $x^{*}$ 에서 (로컬) 최소값 또는 최대값을 갖기 위한 필요조건은 다음과 같다.

$\begin{aligned} d f & = {(\frac{d f}{d x})}^{T} d x \\ = \frac{\partial f}{\partial x_{1}} d x_{1} + \frac{\partial f}{\partial x_{2}} d x_{2} + \dots + \frac{\partial f}{\partial x_{n}} d x_{n} \\ = 0 \end{aligned}$

만약 $x$ 의 성분이 모두 독립이라면, stationary point $x^{*}$ 는 다음 식으로 계산할 수 있다.

$\frac{\partial f}{\partial x_{i}} = 0, i = 1, 2, . . ., n$

'AI 수학 > 최적화' 카테고리의 다른 글

최소화의 필요조건과 충분조건 (0)	2021.01.10
SGD에서 데이터를 무작위로 추출해야 하는 이유 (1)	2021.01.04
라그랑지 곱수법의 증명 (0)	2020.10.01
라그랑지 곱수법 (0)	2020.10.01
경사하강법 (0)	2020.09.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Deep Campus

함수의 최소화 또는 최대화의 조건

'AI 수학 > 최적화' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

함수의 최소화 또는 최대화의 조건

'AI 수학 > 최적화' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역