[GP-2] GP 회귀 (GP Regression)

가우시안 프로세스 $f (x)$ 의 관측값에는 노이즈가 포함되어 있다고 가정하는 것이 보다 실제적이다.

노이즈를 평균이 $0$ 이고 분산이 $σ_{n}^{2}$ 인 가우시안으로 모델링한다면 GP(Gaussian process) 측정 모델은 다음과 같다.

$\begin{aligned} (1) & y = f (x) + ϵ \\ ϵ \sim N (0, σ_{n}^{2}), \\ f (x) \sim GP (μ (x), k (x, x^{'})) \end{aligned}$

노이즈가 가우시안 프로세스와 독립이라고 가정하면, 가우시안 프로세스 $y$ 의 평균과 공분산(covariance)은 다음과 같이 된다.

$\begin{aligned} (2) & E [y] = E [f (x) + ϵ] = μ (x) \\ E [(y - μ (x)) (y^{'} - μ (x^{'}))] \\ = E [(f (x) + ϵ - μ (x)) (f (x^{'}) + ϵ^{'} - μ (x^{'}))] \\ = E [((f (x) - μ (x)) (f (x^{'}) - μ (x^{'}))] \\ + E [(f (x) - μ (x)) ϵ^{'}] \\ + E [ϵ (f (x^{'}) - μ (x^{'}))] + E [ϵ ϵ^{'})] \\ = k (x, x^{'}) + σ_{n}^{2} δ_{i i^{'}} \end{aligned}$

여기서 $δ_{i i^{'}}$ 는 크로넥커델타 (Kronecker's delta) 함수로서 $x = x^{'}$ 인 경우만 $1$ 이다. 위 식을 간단히 표기하면 다음과 같다.

$\begin{matrix} (3) & y \sim GP (μ (x), k (x, x^{'}) + σ_{n}^{2} δ_{i i^{'}}) \end{matrix}$

이제 데이터셋 $D = {(x_{i}, y_{i}), i = 1, . . ., m}$ 이 주어졌을 때 입력 ${x_{m + 1}, . . ., x_{m + p}}$ 에 대응하는 출력 $y_{*} = {[\begin{matrix} y_{m + 1} & . . . & y_{m + p} \end{matrix}]}^{T}$ 의 조건부 확률밀도함수 $p (y_{*} | y_{1 : m})$ 를 구해보자. 관련 랜덤벡터의 결합(joint) 확률분포는 다음과 같다.

$\begin{matrix} (4) & [\begin{matrix} y_{1 : m} \\ y_{*} \end{matrix}] \sim N ([\begin{matrix} μ \\ μ_{*} \end{matrix}], [\begin{matrix} K + σ_{n}^{2} I & K_{*} \\ K_{*}^{T} & K_{* *} \end{matrix}]) \end{matrix}$

여기서 $μ = μ (x_{1 : m}), μ_{*} = μ (x_{m + 1 : m + p})$ 이다.

가우시안 랜덤벡터 특성에 의하면, $y_{1 : m}$ 과 $y_{*}$ 가 결합 가우시안 분포를 가지면, 랜덤벡터 $y_{*}$ 의 조건부 확률밀도함수도 가우시안이며, 평균과 공분산은 다음과 같이 주어진다.

$\begin{matrix} (5) & p (y_{*} | y_{1 : m)} = N (μ_{p o s}, Σ) \end{matrix}$

여기서

$\begin{aligned} Σ = K_{* *} - K_{*}^{T} {[K + σ_{n}^{2} I]}^{- 1} K_{*} \\ μ_{p o s} = μ_{*} + K_{*}^{T} {[K + σ_{n}^{2} I]}^{- 1} (y_{1 : m} - μ) \end{aligned}$

이다.

위 식은 주어진 데이터셋 $D = {(x_{i}, y_{i}), i = 1, . . ., m}$ 을 이용하여 추정값 $y_{*}$ 와 추정 확률을 계산해 주는 식이다.

예제로서 함수 $g (x) = \cos (x)$ 를 가우시안 프로세스 $f (x)$ 로 추정해보도록 하겠다. 추정 대상인 $g (x)$ 는 미지의 함수로 가정한다. 측정 노이즈는 평균이 $0$ , 분산이 $σ_{n}^{2} = 10^{- 4}$ 인 가우시안으로 가정한다. 데이터셋은 $D = {(x_{i}, y_{i}), i = 1, . . ., 5}$ 로서 $x_{1} = - 4$ , $x_{2} = - 3$ , $x_{3} = - 2$ , $x_{4} = - 1$ , $x_{5} = 4$ 에서

$\begin{matrix} (6) & y_{i} = \cos (x_{i}) + ϵ_{i}, ϵ_{i} \sim N (0, 10^{- 4}) \end{matrix}$

로 주어진다고 가정한다.

# true function
f = lambda x: np.cos(x).flatten()

s = 0.01       # noise std

# training points (given)
X = np.array([ [-4], [-3], [-2], [-1], [4] ])
m = X.shape[0]  # number of training points
y = f(X) + s*np.random.randn(m)  #(m,)

함수 $g (x)$ 에 대한 정보는 전혀 없다고 가정하여 가우시안 프로세스의 평균함수는 $μ (x) = 0$ 으로 놓고, 커널은 다음 식으로 한다.

$\begin{matrix} (7) & k (x, x^{'}) = \exp (- \frac{1}{2 λ^{2}} (x - x^{'})^{2}) \end{matrix}$

여기서 $λ^{2} = 1$ 로 놓는다.

# kernel
def kernel(a, b):
    lam2 = 1
    sqdist = np.sum(a**2,1).reshape(-1,1) + np.sum(b**2,1) - 2*np.dot(a, b.T)
    return np.exp(-.5 * sqdist / lam2)

그러면 식 (4)의 공분산 $K$ 는 다음과 같이 계산할 수 있다.

K = kernel(X, X)

테스트 입력 $x_{*} = {x_{1}, . . ., x_{p}}$ 는 $[- 5, 5]$ 범위에서 일정 간격으로 50개 지정한다.

p = 50         # number of test points

# points for prediction
Xstar = np.linspace(-5, 5, p).reshape(-1,1)

그러면 식 (4)의 공분산 $K_{*}$ 와 $K_{* *}$ 는 다음과 같이 계산된다.

Kstar = kernel(X, Xstar)
K2star = kernel(Xstar, Xstar)

이제 식 (5)의 조건부 평균과 공분산을 계산하면 된다.

$\begin{aligned} (8) & Σ = K_{* *} - K_{*}^{T} {[K + σ_{n}^{2} I]}^{- 1} K_{*} \\ μ_{p o s} = K_{*}^{T} {[K + σ_{n}^{2} I]}^{- 1} y_{1 : m} \end{aligned}$

식 (8)은 역행렬 계산이 포함되므로, 연산량과 수치오차를 고려하여 다음과 같이 촐레스키 분해(Cholesky decomposition)를 이용한다.

$\begin{matrix} (9) & K + σ_{n}^{2} I = L L^{T} \end{matrix}$

그러면 식 (8)의 공분산 식은 다음과 같이 된다.

$\begin{matrix} (10) & Σ = K_{* *} - K_{*}^{T} L^{- T} L^{- 1} K_{*} \end{matrix}$

$L_{*}$ 를 $K_{*} = L L_{*}$ 가 되도록 계산한다면 위 식은 다음과 같이 된다.

$\begin{aligned} (11) & Σ & = K_{* *} - L_{*}^{T} L^{T} L^{- T} L^{- 1} L L_{*} \\ = K_{* *} - L_{*}^{T} L_{*} \end{aligned}$

L = np.linalg.cholesky(K + s**2*np.eye(m))
Lstar = np.linalg.solve(L, Kstar)

Sig = K2star - np.dot(Lstar.T, Lstar)

또한 식 (8)의 평균식도 다음과 같이 된다.

$\begin{aligned} (12) & μ_{p o s} & = L_{*}^{T} L^{T} L^{- T} L^{- 1} y_{1 : m} \\ = L_{*}^{T} L^{- 1} y_{1 : m} \end{aligned}$

여기서 $L^{- 1} y_{1 : m} = v$ 로 놓으면, 위 식은 다음과 같이 된다.

$\begin{aligned} (13) & μ_{p o s} = L_{*}^{T} v \\ L v = y_{1 : m} \end{aligned}$

mu_pos = np.dot(Lstar.T, np.linalg.solve(L, y))

식 (8)로 계산한 테스트 입력 $x_{*} = {x_{1}, . . ., x_{p}}$ 에서의 $y_{*}$ 의 평균값과 3-표준편차 ( $3 σ$ ) 를 그리면 다음과 같다.

데이터가 밀집된 영역 ( $- 4$ 에서 $- 1$ 사이)의 표준편차가 데이터가 없는 영역 ( $0$ 에서 $4$ 사이) 보다 더 작은 것을 알 수 있다.

다음 그림은 평균함수가 $μ (x) = 0$ 이고 공분산이 식 (7)인 가우시안 프로세스에서 10개의 샘플함수를 추출하여 그린 것이다. 처음에 가정했던 가우시안 프로세스 확률 정보를 이용한 것이다. 이를 사전 프로세스 (GP prior) 라고 한다.

다음 그림은 식 (8)로 계산된 평균함수와 공분산을 갖는 가우시안 프로세스에서 10개의 샘플함수를 추출하여 그린 것이다. 데이터셋을 이용하여 GP prior를 업데이트 하여 얻은 프로세스이므로 사후 프로세스 (GP posterior) 라고 한다.

다음 그림은 커널 식 (7)에서 $λ^{2} = 0.1$ 로 놓고 GP regression을 수행한 것이다.

다음 그림은 $λ^{2} = 10$ 일 때 GP regression을 수행한 것이다.

$λ^{2}$ 이 작을 수록 데이터셋의 관련성이 작게 반영되므로 분산값이 매우 커지는 것을 알 수 있다. 반대로 이 값이 클수록 데이터셋의 관련성을 과대하게 반영하므로 분산값이 작지만 추정값에 큰 바이어스가 생기는 것을 알 수 있다. 이와 같이 GP regression 의 성능은 커널 파라미터 값에 큰 영향을 받는다. 따라서 데이터셋을 이용하여 커널 파라미터를 최적의 값으로 학습하는 방안을 강구하는 것이 필요하다.

다음은 본 예제에서 사용한 GP regression 의 전체 코드다.

# GP regression example
# by st.watermelon

import numpy as np
import matplotlib.pyplot as plt

# kernel
def kernel(a, b):
    lam2 = 1
    sqdist = np.sum(a**2,1).reshape(-1,1) + np.sum(b**2,1) - 2*np.dot(a, b.T)
    return np.exp(-.5 * sqdist / lam2)

# true function
f = lambda x: np.cos(x).flatten()

# parameters
p = 50         # number of test points
s = 0.01       # noise std

# training points (given)
X = np.array([ [-4], [-3], [-2], [-1], [4] ])
m = X.shape[0]  # number of training points
y = f(X) + s*np.random.randn(m)  #(m,)

K = kernel(X, X)
L = np.linalg.cholesky(K + s**2*np.eye(m))

# points for prediction
Xstar = np.linspace(-5, 5, p).reshape(-1,1)

# posterior mean (mu)
Kstar = kernel(X, Xstar)
Lstar = np.linalg.solve(L, Kstar)
mu_pos = np.dot(Lstar.T, np.linalg.solve(L, y))

# posterior covariance
K2star = kernel(Xstar, Xstar)
Sig = K2star - np.dot(Lstar.T, Lstar)

s2 = np.diag(Sig)
s = np.sqrt(s2)

# plotting
plt.figure(1)
plt.clf()
plt.plot(X, y, 'r+', ms=20)
plt.plot(Xstar, f(Xstar), 'b-')
plt.gca().fill_between(Xstar.flat, mu_pos-3*s, mu_pos+3*s, color="#dddddd")
plt.plot(Xstar, mu_pos, 'r--', lw=2)
plt.title('Mean predictions plus 3 std')
plt.axis([-5, 5, -4, 4])


# samples from the prior
L = np.linalg.cholesky(K2star + 1e-6*np.eye(p))
f_prior = np.dot(L, np.random.normal(size=(p,10)))
plt.figure(2)
plt.clf()
plt.plot(Xstar, f_prior)
plt.title('Ten samples from the GP prior')
plt.axis([-5, 5, -4, 4])


# samples from the posterior
L = np.linalg.cholesky(K2star + 1e-6*np.eye(p) - np.dot(Lstar.T, Lstar))
f_post = mu_pos.reshape(-1,1) + np.dot(L, np.random.normal(size=(p,10)))
plt.figure(3)
plt.clf()
plt.plot(Xstar, f_post)
plt.title('Ten samples from the GP posterior')
plt.axis([-5, 5, -4, 4])

plt.show()

'AI 딥러닝 > ML' 카테고리의 다른 글

[GP-4] 베이지안 최적화 (Bayesian Optimization) (0)	2022.07.09
[GP-3] GP 커널 학습 (0)	2022.07.05
[GP-1] 가우시안 프로세스 (Gaussian Process)의 개념 (0)	2022.06.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepCampus

[GP-2] GP 회귀 (GP Regression)

'AI 딥러닝 > ML' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[GP-2] GP 회귀 (GP Regression)

'AI 딥러닝 > ML' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역