본문 바로가기

강화학습6

[RL] 강화학습 이론: On-policy & Off-policy 강화학습 알고리즘은 on-policy 방식과 off-policy 방식으로 분류될 수 있습니다. On-policy와 Off-policy의 차이는 아래와 같습니다. On-policy methods: Behavior policy = Target policyOff-policy methods: Behavior policy ≠ Target policy 여기서 behavior policy와 target policy의 개념이 나오는데 아래와 같습니다. Behavior policy $b(a|s)$: Action을 선택하고 데이터 샘플을 얻을 때 사용되는 policyTarget policy $\pi(a|s)$: 평가(evaluate)하고 업데이트(improve)하고자 하는 policy 즉 정책 .. 2023. 11. 8.
[RL] 강화학습 알고리즘: (5) PPO PPO (Proximal Policy Optimization)는 2017년도 OpenAI에서 공개한 논문으로 이전 TRPO (Trust Region Policy Optimization) 알고리즘을 실용적으로 발전시킨 논문입니다. Policy gradient 계열의 알고리즘으로 성능이 우수하면서도 구현이 간단하여 performance와 complexity의 밸런스가 잘 잡힌 알고리즘으로 알려져 있습니다. Motivation PPO와 TRPO는 동일한 motivation을 가지고 있습니다. 주어진 데이터를 가지고 현재 policy를 최대한 큰 step만큼 빠르게 향상시키면서, 그렇다고 성능이 발산해버릴 정도로 너무 큰 step으로 업데이트 하는 것은 억제하고자 합니다. TRPO와 PPO의 최적화식을 비교해보.. 2023. 8. 13.
[RL] 강화학습 알고리즘: (4) DDPG DDPG (Deep Deterministic Policy Gradient)는 Google DeepMind에서 2016년도 ICLR에 발표한 논문입니다. 이전 2014년에 공개한 DPG (Deterministic Policy Gradient) 논문에서 DQN을 결합하여 발전시킨 알고리즘입니다. Motivation DDPG는 DQN에서 성공적이었던 부분들을 continuous action 영역으로 확장하고자 하였습니다. 단순히 continuous action 영역을 discrete한 구간으로 잘게 나누는 것은 많아진 discrete action들로 인한 학습 성능 저해(curse of dimensionality)와 기존 continuous action이 가진 구조적 정보를 잃어버린다는 단점이 있습니다. 따라.. 2022. 12. 30.
[RL] 강화학습 알고리즘: (3) Dueling DQN Dueling DQN은 DQN의 후속 논문으로 Google DeepMind에서 2016년도에 공개한 논문입니다. DQN에 관련된 내용은 이전 포스팅을 참고하시길 바랍니다. Motivation 기존 DQN에서는 computer vision에서 사용되던 CNN을 이용하여 Q-network를 구성합니다. 만약 기존의 신경망 구조 대신 강화학습에 더 특화된 신경망 구조를 이용해 학습하면 더 나은 결과를 보여줄 수 있을 겁니다. 논문은 이를 위해 dueling architecture라는 새로운 신경망 구조를 제안합니다. Dueling Network Architecture Dueling Q-network의 구조는 위 그림과 같습니다. 기존의 Q-network에서는 마지막 fully-connected layer를 통.. 2022. 9. 12.
[RL] 강화학습 알고리즘: (2) Double DQN DDQN (Double DQN)은 DQN의 후속 알고리즘으로 Google DeepMind에서 2015년도에 공개된 논문입니다. DQN에 관련된 내용은 이전 포스팅을 참고하시길 바랍니다. Motivation 우리는 일반적으로 AI를 학습할 때 목표값인 target value와 결과값인 prediction value의 차이를 줄이는 방법을 이용합니다. 하지만 target value가 처음부터 잘못된 값이라면 네트워크는 제대로 된 결과를 학습할 수 없겠죠. 논문은 기존 DQN의 target value가 특정 조건에서 overestimate 된다고 주장하고 이를 해결하기 위한 Double DQN을 제안합니다. Double DQN 기존 DQN과 Double DQN의 차이는 알고리즘상 한 줄입니다. Target v.. 2022. 9. 10.
[RL] 강화학습 알고리즘: (1) DQN (Deep Q-Network) Google DeepMind는 2013년 NIPS, 2015년 Nature 두 번의 논문을 통해 DQN (Deep Q-Network) 알고리즘을 발표했습니다. DQN은 딥러닝과 강화학습을 결합하여 인간 수준의 높은 성능을 달성한 첫번째 알고리즘입니다. 심층강화학습에서 가장 기본이 되는 알고리즘을 논문을 통해 리뷰해보도록 하겠습니다. Why Deep Reinforcement Learning? 딥러닝을 강화학습과 결합하게 되면 어떠한 이점이 있을까요? 기존의 Q-learning은 state-action $(s,a)$에 해당하는 Q-value인 $Q(s,a)$를 테이블 형식으로 저장하여 학습합니다. 이러한 방식은 state space와 action space가 커지게 되면 모든 Q-value를 저장하기에 많은.. 2022. 6. 3.
반응형