역전파 (Backpropagation) 계산

선형 레이어(또는 fully-connected layer, 완전 연결 레이어)는 레이어의 모든 뉴런이 이전 레이어의 모든 뉴런과 연결된 레이어이다.

선형 레이어는 다음과 같이 선형 방정식으로 표현할 수 있다.

$z^{(l + 1)} = W^{(l)} a^{(l)} + b^{(l)}$

여기서 위첨자 $l$ 은 $l$ 번째 은닉(hidden) 레이어를 뜻하고 $W^{(l)}$ 은 가중치(weights), $b^{(l)}$ 는 바이어스를 나타낸다. 레이어의 출력 $z^{(l + 1)}$ 은 활성함수(activation function) $σ^{(l + 1)}$ 를 통과하여 $a^{(l + 1)}$ 이 된다.

$a^{(l + 1)} = σ^{(l + 1)} (z^{(l + 1)})$

$a^{(l + 1)}$ 은 다시 $l + 1$ 번째 은닉(hidden) 레이어의 입력이 된다. 그림에서 $x$ 는 입력, $\hat{y}$ 는 출력, $L$ 은 손실함수(loss function)다. 입력 $x$ 는 보통 $a^{(0)}$ 로 두어서 표기의 일관성을 유지하기도 한다.

전통적으로 신경망은 위 그림과 같이 뉴런과 연결층으로 표시하지만 활성함수를 분명히 표시하고 수식관계를 간편하게 알아보도록 다음과 같은 그림으로 표시하기도 한다.

신경망을 학습한다는 것은 손실함수 $L$ 이 최소가 되도록 가중치 $W^{(l)}$ 와 바이어스 $b^{(l)}$ 를 반복적으로 계산한다는 뜻이다. 그러기 위해서는 손실함수에 대한 가중치와 바이어스의 미분이 필요하다.

신경망은 입력 $x$ 로 부터 각 레이어의 출력 $a^{(l)}$ 을 거쳐 최종 출력 $\hat{y}$ 가 산출되는 복합함수(composite)이다. 따라서 손실함수에 대한 가중치와 바이어스의 미분은 연쇄법칙(chain rule)로 구할 수 있다.

$\begin{aligned} \frac{d L}{d W^{(l)}} & = \frac{d z^{(l)}}{d W^{(l)}} \frac{d a^{(l)}}{d z^{(l)}} \frac{d z^{(l + 1)}}{d a^{(l)}} \dots \frac{d \hat{y}}{d z^{(l a s t)}} \frac{d L}{d \hat{y}} \\ \frac{d L}{d b^{(l)}} & = \frac{d z^{(l)}}{d b^{(l)}} \frac{d a^{(l)}}{d z^{(l)}} \frac{d z^{(l + 1)}}{d a^{(l)}} \dots \frac{d \hat{y}}{d z^{(l a s t)}} \frac{d L}{d \hat{y}} \end{aligned}$

비용함수는 항상 스칼라 함수로 주어지므로 위 식에서 $\frac{d L}{d W^{(l)}}$ 는 행렬, $\frac{d L}{d b^{(l)}}$ 와 $\frac{d L}{d \hat{y}}$ 는 벡터이고, $\frac{d z^{(l)}}{d W^{(l)}}$ 의 결과는 3차원 텐서로 나오며, 나머지는 자코비안 행렬이다.

연쇄법칙으로 위 식을 이용하여 미분을 구할 때는 수식의 맨 오른쪽부터 왼쪽으로 이동하며 계산하는 역전파(backpropagation)가 유리하다. 왜냐하면 비용함수가 스칼라이므로 맨 오른쪽 미분의 결과는 벡터이기 때문이다. 왼쪽으로 이동하며 계산하게 되면 항상 행렬과 벡터의 곱인 $\frac{d z}{d a} δ$ , $\frac{d a}{d z} δ$ 의 형태로 미분을 계산할 수 있다.

선형 레이어는 $z = W a + b$ 의 형태이므로 연쇄법칙 수식에 나오는 구성 성분을 차례로 계산해보자.

먼저 자코비안 항이다.

$\begin{aligned} \frac{d z}{d a} & = W^{T} \\ \frac{d z}{d b} & = I \end{aligned}$

$a = σ (z)$ 는 활성함수에 따라 계산이 달라지는데, 만약 활성함수로 ReLU를 사용한다면 다음과 같이 된다.

$\frac{d a}{d z} = [\begin{matrix} \frac{d σ_{1}}{d z_{1}} & 0 \\ ⋱ \\ 0 & \frac{d σ_{k}}{d z_{k}} \end{matrix}], \frac{d σ_{i}}{d z_{i}} = {\begin{cases} 1, & z_{i} > 0 \\ 0, & else \end{cases}$

만약 sigmoid를 사용한다면 다음과 같이 된다.

$\frac{d a}{d z} = [\begin{matrix} \frac{d σ_{1}}{d z_{1}} & 0 \\ ⋱ \\ 0 & \frac{d σ_{k}}{d z_{k}} \end{matrix}], \frac{d σ_{i}}{d z_{i}} = - \frac{\exp (- z_{i})}{1 + \exp (- z_{i})} σ_{i}$

$\frac{d z}{d W}$ 는 벡터를 행렬로 미분하는 것으로서 정의에 의해서 $k$ 번째 깊이(depth)축의 행렬은 다음과 같이 계산하면 된다.

$\begin{aligned} \frac{d z_{k}}{d W} & = \frac{d}{d W} (w_{k 1} a_{1} + w_{w 2} a_{2} + \dots + w_{k n} a_{n}) \\ = [\begin{array}{c} \leftarrow 0 \to \\ ⋮ \\ a^{T} \\ ⋮ \\ \leftarrow 0 \to \end{array}] \end{aligned}$

여기서 $w_{i j}$ 는 행렬 $W$ 의 성분이고 $z_{k}$ 는 벡터 $z$ 의 $k$ 번째 성분이다. 계산 결과 $k$ 번째 깊이(depth)축의 행렬은 $k$ 번째 행을 제외하고는 모두 $0$ 의 값을 갖는다. 따라서 $\frac{d z}{d W}$ 와 벡터 $δ$ 의 곱은 결과가 행렬로 나오며 다음과 같이 계산된다.

$\frac{d z}{d W} δ = [\begin{matrix} δ_{1} a^{T} \\ ⋮ \\ δ_{k} a^{T} \\ ⋮ \\ δ_{m} a^{T} \end{matrix}] = δ a^{T}$

여기서 $δ = [δ_{1} \dots δ_{m}]^{T}$ 이다.

3차 텐서와 행렬의 곱이 좀 복잡하게 느껴지겠지만 다음과 같이 생각하면 쉽다.

먼저 벡터와 벡터의 곱은 다음과 같다. 각 벡터의 성분과 성분을 곱한 후 더한다.

행렬과 벡터의 곱은 다음과 같다. 행렬의 성분인 열벡터와 벡터의 성분을 곱한 후 더한다.

3차 텐서와 벡터의 곱은 다음과 같다. 텐서의 성분인 행렬과 벡터의 성분을 곱한 후 더한다.

'AI 수학 > 최적화' 카테고리의 다른 글

내부점 방법 (Interior-Point Method)의 개념 (0)	2022.04.06
프라이멀 문제와 듀얼 문제의 유도 (0)	2022.04.04
벡터 함수를 행렬로 미분하기 (0)	2021.03.27
다변수 함수의 연쇄법칙 (Chain Rule) (1)	2021.03.23
[KKT 조건 - 3] 프라이멀 문제와 듀얼 문제 (0)	2021.02.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepCampus

역전파 (Backpropagation) 계산

'AI 수학 > 최적화' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

역전파 (Backpropagation) 계산

'AI 수학 > 최적화' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역