본문 바로가기

전체 글42

베이즈(Bayes) 정리 사건 \(B\)가 발생한다는 가정(또는 조건)하에서 사건 \(A\)가 발생할 확률을 사건 \(A\)의 조건부 확률(conditional probability)이라고 하고, 다음과 같이 정의한다. \[ P\{A|B \}=\frac{P\{A,B \}}{P \{B \}} \] 비슷하게 사건 \(A \)가 발생한다는 가정하에서 사건 \(B\)가 발생할 확률은 다음과 같이 쓸 수 있다. \[ P\{B|A\}= \frac{P\{A,B\} }{ P\{A\} } \] 위 두 식을 이용하면 다음과 같은 연쇄법칙(chain rule)을 만들 수 있다. \[ P\{A,B \} = P\{A│B \}P\{B\}=A\{B│A\}P \{A \} \] 한편 다음 그림과 같이 \( N \)개의 사건 \( \{ B_i, \ i=1,.... 2020. 11. 13.
샘플평균과 샘플분산 디랙 델타(Dirac delta) 함수 \( \delta (x) \)를 이용하면 확률밀도함수 \( p_X (x) \)를 다음과 같이 근사화할 수 있다. \[ p_X (x) \approx \sum_{i=1}^N \omega_i \delta (x-x^{(i) } ) \] 여기서 \( x^{(i)} \)는 확률밀도함수가 \( p_X (x) \)인 모집단에서 추출한 샘플이다. \( N \)개의 샘플이 독립적이고 공평하게 추출됐다면 각 샘플이 추출될 확률 \( \omega_i \)는 다음과 같이 동일하게 주어진다. \[ \omega_i = P \{ X=x^{(i) } \} = \frac{1}{N} \] 그러면 랜덤변수(random variable) \( X \)의 함수인 \( f(X) \)의 기댓값 \( \mat.. 2020. 11. 12.
강화학습 문제 최적제어 문제는 다음과 같이 이산시간(discrete-time) 차분 방정식(difference equation)으로 표현된 비선형 시스템이 있을 때, \[ \mathbf{x}_{t+1} = \mathbf{f}_t ( \mathbf{x}_t, \mathbf{u}_t) \] 시스템이 어떤 스칼라 성능지수(performance index) \( J_i \)를 최소화하도록 제어변수 \( \mathbf{u}_t \in R^m \)를 결정하는 문제다. 성능지수의 일반적인 형태는 다음과 같다. \[ J_i = \phi (N, \mathbf{x}_N )+ \sum_{t=i}^{N-1} g_t ( \mathbf{x}_t, \mathbf{u}_t) \] 여기서 아래 첨자 \(t \)는 시간스텝을 나타내며 \( \math.. 2020. 11. 8.
IID 샘플 IID는 independent and identically distributed의 약자다. '독립적이고 동일하게 분포된'이라는 뜻이다. 샘플(sample)은 샘플링(sampling)을 통해 추출된 데이터를 뜻한다. 따라서 IID샘플은 ‘독립적이고 동일한 확률로 추출된 데이터’를 의미한다. 비슷한 용어로 IID프로세스가 있는데, IID 프로세스란 프로세스를 구성하는 랜덤변수가 서로 독립이고 모두 동일한 확률분포를 갖는 프로세스를 말한다. 데이터의 전반적인 모습을 파악하기 위해서는 데이터의 분포를 묘사하는 것이 필요하다. 데이터의 분포를 수학적으로 묘사하는 함수로, 데이터가 연속적인 값을 가질 경우에는 확률밀도함수(probability density function)가 사용되고 데이터가 불연속적인 값(또는 .. 2020. 11. 4.
LQR과 피드백 제어 다음과 같은 선형 시스템에 대해서 \[ \mathbf{x}_{t+1}=F_t \mathbf{x}_t+G_t \mathbf{u}_t \] 성능지수가 다음과 같이 2차함수로 주어지는 \[ J_t = \frac{1}{2} \mathbf{x}_N^T S_N \mathbf{x}_N + \frac{1}{2} \sum_{t=i}^{N-1} \left( \mathbf{x}_t^T Q_t \mathbf{x}_t + \mathbf{u}_t^T R_t \mathbf{u}_t \right) \] LQR 문제의 해는 다음과 같다 (https://pasus.tistory.com/38). \[ \begin{align} & \mathbf{x}_{t+1}=F_t \mathbf{x}_t+G_t \mathbf{u}_t \tag{1-1} .. 2020. 10. 31.
LQR 문제 비선형 시스템에 대해서 매우 일반적인 성능지수를 적용한 최적제어 문제에 대한 해를 유도해 보았다 (https://pasus.tistory.com/35). 그러나 이러한 셋팅으로는 명시적인 제어법칙(control law)을 유도해 내기가 어렵다. LQR은 선형 시스템에 대해서 2차 함수로 주어진 성능지수를 이용한 최적제어 문제에서 도출되었으며 명시적인 제어법칙을 가지고 있는 제어기이다. LQR은 linear quadratic regulator의 약자로서 시스템이 선형(linear)이며 성능지수가 2차함수(quadratic)라는 의미이다. regulator는 시스템의 상태를 0 (또는 set point로 불리는 고정된 목표 상태변수)으로 만드는 제어기를 뜻한다. LQR은 PID 제어기와 함께 실제 응용 문제.. 2020. 10. 31.
강화학습의 한계 강화학습이 비약적으로 발전하고 있지만, 로봇이나 드론 등 실제 물리 시스템의 제어에 적용하기에는 아직 극복해야 할 많은 문제를 가지고 있다. 첫 번째 문제점은 강화학습이 기본 동역학 모델을 알지 못하더라도 환경과의 상호작용을 통해 얻은 데이터만을 가지고 직접 정책을 유도할 수 있다지만, 단순한 작업을 배우는 데에도 너무 많은 시도(try)와 데이터가 필요하다는 점이다. 즉, 샘플 효율성이 매우 떨어진다는 뜻이다. 예를 들어 단순한 강화학습 예제 중의 하나인 진자(pendulum)의 정책을 학습하려면 수 십 또는 수 천회의 정책 실행이 필요하다. 게임이나 컴퓨터 시뮬레이션은 괜찮을지 몰라도, 로봇이나 드론 등 실제 물리 시스템에 대해서는 데이터를 얻기 위해서는 필요한 시간과 비용 등이 터무니없이 클 수 있.. 2020. 10. 28.
조건부 확률 사건 \( B \)가 발생한 조건에서 사건 \( A \)가 발생할 확률을 사건 \( A \)의 조건부 확률(conditional probability)이라고 하고, 다음과 같이 정의한다. \[ P\{ A| B \} = \frac{P \{A, B \} } {P \{ B \}} \] 다음 그림에서 보듯이 조건부 확률은 사건 \( A \)이기도 하면서 동시에 사건 \( B \)이기도 한 사건(곱사건이라고 한다)이 발생할 확률과 사건 B만 발생할 확률의 비로 주어진다. 즉, \[ \frac{ 노란색 \ 영역 \ 확률} { (노란색 \ + \ 녹색) \ 영역 \ 확률 } \] 이다. 이와 같은 조건부 확률 정의는 상식에 부합한다. 예를 들어 보자. 주사위 놀이에서 홀수가 나올 사건을 \( A \), \( 4 \).. 2020. 10. 27.
이산시간 최적제어 문제 다음과 같이 이산시간(discrete-time) 차분 방정식(difference equation)으로 표현된 비선형 시스템이 있다. \[ \mathbf{x}_{t+1} = \mathbf{f}_t (\mathbf{x}_t, \mathbf{u}_t) \] 여기서 아래 첨자 \( t \)는 시간스텝을 나타낸다. 일반적으로 시스템을 시변(time-varying)으로 간주하기 때문에 함수 \( \mathbf{f}_t \)에 아래 첨자로 시간 표시를 한다. 시불변 시스템일 경우에는 생략하면 된다. 상태변수는 \( \mathbf{x}_t \in R^n \), 제어변수는 \( \mathbf{u}_t \in R^m \)이다. 최적제어 문제는 시스템이 어떤 스칼라 성능지수(performance index)를 최소화하도록 .. 2020. 10. 27.
놈 (norm) norm을 한글로 표기할 때 ‘놈’이라고 하기도 하고 ‘노름’이라고 하기도 하는데, 둘 다 좋은 뜻은 아니지만 ‘놈’이 조금 나은 것 같다. 사람에게도 이놈, 저놈, 그놈이 있듯이 norm에도 여러 놈이 있다. 😊 벡터 \( \mathbf{x} \in R^n \) 의 놈은 다음 4가지 성질을 만족하면서 벡터에서 실수 값을 연결하는 함수로 정의하고, \( \| \mathbf{x} \| \)로 표기한다. 1. \( \| \mathbf{x} \| \)은 음수가 아닌 실수값이다. 즉, \( \| \mathbf{x} \| \ge 0 \) 2. \( \mathbf{x}=0 \) 일 때만 \( \| \mathbf{x} \| =0 \) 이다. 3. 스칼라 \( \alpha \)에 대해서 \( \|\alpha \math.. 2020. 10. 24.