본문 바로가기

AI 수학/최적화23

스칼라 함수를 벡터로 두번 미분하기 : 헤시안 스칼라 함수의 그래디언트는 벡터다. 그러면 그래디언트를 벡터에 대해 한번 더 미분한다면 행렬이 될 것이다. 이 행렬은 스칼라 함수를 벡터로 두 번 미분하여 얻어진 것으로 헤시안(Hessian)이라고 한다. 수식으로 알아보자. 벡터 \( {\bf x} = \begin{bmatrix} x_1 & x_2 & ... & x_n \end{bmatrix} ^T \)의 구성요소를 변수로 하는 다변수 스칼라 함수 \( f( {\bf x}) \)를 벡터 \( \bf x \)에 대해 미분하면 다음과 같이 된다. \[ \frac{d f}{d {\bf x} } = \begin{bmatrix} \frac{\partial f}{\partial x_1 } \\ \frac{\partial f}{\partial x_2 } \\ \vd.. 2020. 7. 17.
벡터 함수를 벡터로 미분하기 : 자코비안 벡터 \( {\bf x} = \begin{bmatrix} x_1 &x_2 & ... & x_n \end{bmatrix} ^T \) 의 구성요소를 변수로 하는 다변수 스칼라 함수 \(f(x_1, x_2, …, x_n) \) 을 간단히 \( f( {\bf x}) \) 로 표기했다. 동일한 벡터를 변수로 갖는 스칼라 함수가 여럿 있다면 \( f( {\bf x}) \), \( g( {\bf x}) \), \( h( {\bf x}) \), \(... \) 이렇게 구별할 수 있을 것이다. 그런데 함수가 많다면 함수 이름으로 사용할 알파벳이 동날 것이므로, 보통 함수에 아래 첨자를 써서 그 함수들을 구별한다. 만약 스칼라 함수가 \( m \) 개 있다면, \( f_1( {\bf x}) \), \( f_2( {\bf .. 2020. 7. 16.
스칼라 함수를 벡터로 미분하기 : 그래디언트 대부분의 딥러닝 학습 알고리즘은 손실함수나 목적함수를 만드는 것으로 시작한다. 그리고 손실함수를 최소화하거나 목적함수를 최대화하기 위해 최적화 방법을 사용한다. 손실함수나 목적함수는 신경망 연결값을 변수로 갖는 스칼라 함수다. 이러한 연결값의 갯수는 신경망의 크기에 따라서 수 십 개에서 수 십억 개가 될 수도 있다. 따라서 손실함수나 목적함수는 다변수 스칼라 함수다. 손실함수나 목적함수를 최소화하거나 최대화할 때 필요한 것이 미분이다. 벡터 \( {\bf x} = \begin{bmatrix} x_1 & x_2 & ... & x_n \end{bmatrix} ^T \) 의 구성요소를 변수로 하는 다변수 스칼라 함수 \(f (x_1, x_2, …, x_n ) \) 을 간단히 \( f( {\bf x}) \) 로.. 2020. 7. 16.