[RL] Deep Deterministic Policy Gradient (DDPG)
·
🤖 ai logbook
reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..
[RL] Actor-Critic
·
🤖 ai logbook
reference https://wikidocs.net/book/5942 https://wikidocs.net/book/7888 Actor-Critic 강화학습에서 REINFORCE(Policy Gradient 방법)는 CartPole(균형을 잡는 문제)와 같은 간단한 예제에서는 효과적이나, 더 복잡한 환경의 적용은 어렵다. DQN(deep Q-networks)은 이산적인 행동 공간에서 특히 유용하지만, epsilon-greedy와 같은 추가적인 정책 기능이 필요한 문제가 있다. 이런 두 기법의 장점을 합친 것이 Actor-Critic 알고리즘으로, 다양한 영역에서 뛰어난 결과를 보여주고 있다. Actor-Critic은 강화학습의 한 방법론으로, 에이전트가 주어진 환경에서 최적의 행동을 학습하는 데 사용..