AI 수학53 샘플평균과 샘플분산 디랙 델타(Dirac delta) 함수 \( \delta (x) \)를 이용하면 확률밀도함수 \( p_X (x) \)를 다음과 같이 근사화할 수 있다. \[ p_X (x) \approx \sum_{i=1}^N \omega_i \delta (x-x^{(i) } ) \] 여기서 \( x^{(i)} \)는 확률밀도함수가 \( p_X (x) \)인 모집단에서 추출한 샘플이다. \( N \)개의 샘플이 독립적이고 공평하게 추출됐다면 각 샘플이 추출될 확률 \( \omega_i \)는 다음과 같이 동일하게 주어진다. \[ \omega_i = P \{ X=x^{(i) } \} = \frac{1}{N} \] 그러면 랜덤변수(random variable) \( X \)의 함수인 \( f(X) \)의 기댓값 \( \mat.. 2020. 11. 12. IID 샘플 IID는 independent and identically distributed의 약자다. '독립적이고 동일하게 분포된'이라는 뜻이다. 샘플(sample)은 샘플링(sampling)을 통해 추출된 데이터를 뜻한다. 따라서 IID샘플은 ‘독립적이고 동일한 확률로 추출된 데이터’를 의미한다. 비슷한 용어로 IID프로세스가 있는데, IID 프로세스란 프로세스를 구성하는 랜덤변수가 서로 독립이고 모두 동일한 확률분포를 갖는 프로세스를 말한다. 데이터의 전반적인 모습을 파악하기 위해서는 데이터의 분포를 묘사하는 것이 필요하다. 데이터의 분포를 수학적으로 묘사하는 함수로, 데이터가 연속적인 값을 가질 경우에는 확률밀도함수(probability density function)가 사용되고 데이터가 불연속적인 값(또는 .. 2020. 11. 4. 조건부 확률 사건 \( B \)가 발생한 조건에서 사건 \( A \)가 발생할 확률을 사건 \( A \)의 조건부 확률(conditional probability)이라고 하고, 다음과 같이 정의한다. \[ P\{ A| B \} = \frac{P \{A, B \} } {P \{ B \}} \] 다음 그림에서 보듯이 조건부 확률은 사건 \( A \)이기도 하면서 동시에 사건 \( B \)이기도 한 사건(곱사건이라고 한다)이 발생할 확률과 사건 B만 발생할 확률의 비로 주어진다. 즉, \[ \frac{ 노란색 \ 영역 \ 확률} { (노란색 \ + \ 녹색) \ 영역 \ 확률 } \] 이다. 이와 같은 조건부 확률 정의는 상식에 부합한다. 예를 들어 보자. 주사위 놀이에서 홀수가 나올 사건을 \( A \), \( 4 \).. 2020. 10. 27. 놈 (norm) norm을 한글로 표기할 때 ‘놈’이라고 하기도 하고 ‘노름’이라고 하기도 하는데, 둘 다 좋은 뜻은 아니지만 ‘놈’이 조금 나은 것 같다. 사람에게도 이놈, 저놈, 그놈이 있듯이 norm에도 여러 놈이 있다. 😊 벡터 \( \mathbf{x} \in R^n \) 의 놈은 다음 4가지 성질을 만족하면서 벡터에서 실수 값을 연결하는 함수로 정의하고, \( \| \mathbf{x} \| \)로 표기한다. 1. \( \| \mathbf{x} \| \)은 음수가 아닌 실수값이다. 즉, \( \| \mathbf{x} \| \ge 0 \) 2. \( \mathbf{x}=0 \) 일 때만 \( \| \mathbf{x} \| =0 \) 이다. 3. 스칼라 \( \alpha \)에 대해서 \( \|\alpha \math.. 2020. 10. 24. 내적 (Inner Product) 두 개의 벡터 사이의 덧셈은 각각의 구성 성분을 더하는 것으로 정의한다. 그렇다면 곱셈 연산은 어떻게 정의할까. 곱셈 연산으로 두 가지 방식이 있다. 바로 dot product와 cross product 연산이다. 두 벡터 \( \mathbf{a}= \begin{bmatrix} a_1 & a_2 & \cdots & a_n \end{bmatrix}^T \)와 \( \mathbf{b}= \begin{bmatrix} b_1 & b_2 & \cdots & b_n \end{bmatrix}^T \)가 있을 때, 두 벡터의 dot product 또는 내적(inner product)은 다음과 같이 정의한다. \[ \mathbf{a} \cdot \mathbf{b} = a_1 b_1 + a_2 b_2 + \cdots + .. 2020. 10. 21. 함수의 최소화 또는 최대화의 조건 다음과 같이 제약조건이 없는 일반적인 최적화 문제가 있다. \[ \min_{\mathbf{x}} f(\mathbf{x}) \ \ \ \ 또는 \ \ \ \ \max_{\mathbf{x}} f(\mathbf{x}) \] 여기서 \( \mathbf{x} \in R^n \)은 최적화 변수이고, \( f(\mathbf{x}) \)은 목적함수(objective function)이다. 이 목적함수를 최소화 또는 최대화하기 위한 조건은 무엇일까. \( \mathbf{x} \)의 독립적 변화에 의해 유도된 함수 \( f(\mathbf{x}) \)의 변화량을 계산해 보자. \( \mathbf{x} \)의 변화량을 \( \Delta \mathbf{x} \)라고 하면, 함수의 증분(increment) \( \Delta f .. 2020. 10. 20. 유사 역행렬 (Pseudo Inverse Matrix) 역행렬은 full rank인 \( n \times n \) 정방 행렬(square matrix)에서만 정의된다. 정방 행렬이 아닌 다른 모양의 행렬에서는 역행렬 대신에 유사 역행렬(pseudo inverse matrix)을 정의할 수 있다. 어떤 \( m \times n \) 실수 행렬 \( A \)에 대해서 다음과 같이 4가지 조건을 만족하는 행렬 \( A^+ \)를 무어-펜로즈(Moore-Penrose) 유사 역행렬이라고 한다. 1. \( A A^+ A = A \) 2. \( A^+ A A^+ = A^+ \) 3. \( (A A^+)^T = A A^+ \) 4. \( (A^+ A)^T = A^+ A \) 특이값 분해(svd)를 이용하면 무어-펜로즈 유사 역행렬을 쉽게 계산할 수 있다. 특이값 분해란 .. 2020. 10. 19. 라그랑지 곱수법의 증명 라그랑지 곱수(Lagrange multiplier)법을 증명해 보자. 먼저 기하학적 직관을 이용해서 증명해 본다. 다음과 같이 변수가 \( \mathbf{x} \in R^2 \)이고 등식 제약조건이 한 개 있는 최적화 문제를 살펴보자. \[ \begin{align} & p^* = \min_{x_1, x_2} f( x_1, x_2 ) \\ \\ subject \ to \ \ \ & h (x_1, x_2) = 0 \end{align} \] 등식 제약조건은 평면상의 곡선의 식을 나타낸다. 먼저 목적함수와 등식 제약조건 식을 \( x_1,x_2 \)을 축으로 하는 평면에 그려보자. 검은색 선은 \( f(x_1,x_2 )=c \)의 등고선을 나타낸다. 등고선이란 동일한 함수 값 \(c\)를 산출하는 변수 \( x.. 2020. 10. 1. 라그랑지 곱수법 라그랑지 곱수(Lagrange multiplier)법은 등식 제약조건이 있는 최적화 문제를 풀기 위해 고안된 방법이다. 등식 제약조건이 있는 최적화 문제는 다음과 같다. \[ \begin{align} & p^* = \min_{\mathbf{x}} f( \mathbf{x} ) \\ \\ subject \ to \ \ \ & h_j ( \mathbf{x} ) = 0, \ \ \ j=1,...,p \end{align} \] 여기서 \( \mathbf{x} \in R^n \) 은 최적화 변수, \( f( \mathbf{x}):R^n \to R \) 은 목적함수, \( h_j (\mathbf{x}):R^n \to R \) 은 등식 제약함수이다. 라그랑지 곱수법에 의하면 등식 제약조건이 있는 최적화 문제를 제약조건.. 2020. 10. 1. 경사하강법 제약조건이 없는 일반적인 최적화 문제는 다음과 같다. \[ p^* = \min_{\mathbf{x}} f(\mathbf{x}) \] 또는, \[ \mathbf{x}^* = \arg \min_{\mathbf{x}} f(\mathbf{x}) \] 여기서 \( \mathbf{x} \in R^n \) 은 최적화 변수이고, \( f(\mathbf{x}) \)은 목적함수(objective function)이다. 대부분 신경망 학습 알고리즘은 손실함수(loss function)를 정하거나 최적화를 위한 목적함수를 만드는 것으로 시작한다. 경사하강법(gradient descent) 또는 경사상승법(gradient ascent)은 목적함수를 최소화(minimization)하거나 최대화(maximization)하기 위해 .. 2020. 9. 30. 이전 1 2 3 4 5 6 다음