DQN 알고리즘1 Tensorflow2로 만든 DQN 코드: CartPole-v1 OpenAI Gym에서 제공하는 CartPole-v1 환경을 대상으로 DQN 알고리즘을 Tensorflow2 코드로 구현하였다. 폴이 카트에 조인트 되어 있고, 카트는 마찰 없는 트랙을 좌우로 이동할 수 있다. 폴은 처음에 수직으로 세워져 있으나 중력에 의해서 기울어져서 떨어질 수 있다. 카트의 목적은 폴이 떨어지지 않고 계속 수직으로 세워져 있도록 좌우로 이동하는 것이다. 상태변수는 카트의 위치와 속도, 폴의 각도와 속도 등 4개의 연속공간 값이고, 행동은 왼쪽 방향 이동과 오른쪽 방향이동 등 2개의 값만 있는 이산공간 값이다. 학습결과는 다음과 같다. 다음 영상은 학습 도중의 카트폴 움직임이다. 다음은 학습이 끝난 후 카트폴의 움직임이다. DQN 코드는 Q 신경망을 구현하고 학습시키기 위한 dqn_l.. 2021. 5. 4. 이전 1 다음