'DQN' 태그의 글 목록

reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..

reference https://wikidocs.net/book/5942 https://wikidocs.net/book/7888 Actor-Critic 강화학습에서 REINFORCE(Policy Gradient 방법)는 CartPole(균형을 잡는 문제)와 같은 간단한 예제에서는 효과적이나, 더 복잡한 환경의 적용은 어렵다. DQN(deep Q-networks)은 이산적인 행동 공간에서 특히 유용하지만, epsilon-greedy와 같은 추가적인 정책 기능이 필요한 문제가 있다. 이런 두 기법의 장점을 합친 것이 Actor-Critic 알고리즘으로, 다양한 영역에서 뛰어난 결과를 보여주고 있다. Actor-Critic은 강화학습의 한 방법론으로, 에이전트가 주어진 환경에서 최적의 행동을 학습하는 데 사용..

reference https://wikidocs.net/book/7888 Approximate Q-Learning large-sale problem들은 일반적인 Q-learning 방법을 적용하기 어려워, 이를 해결하기 위한 한가지 방법으로 Q-function을 파라미터화 하는 것이 있다. 일반적인 Q-learning 업데이트 방법 $Q(s, a) ← Q(s, a) + α[r + γ max Q(s', a') - Q(s, a)]$ 여기서 말하는 파라미터화(parameterization)는 Q-function을, 상태(state)와 행동(action)을 입력으로 받고, 해당 상태에서 특정 행동을 선택했을 때의 예상되는 미래 보상을 출력으로 내는 함수로 표현하는 것을 말한다. 이 함수는 일반적으로 뉴럴 네트워..

티스토리툴바