
[RL] Deep Deterministic Policy Gradient (DDPG)
·
🤖 ai logbook
reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..