[RL] MDP - Bellman equation
·
🤖 ai logbook
Bellman equation (벨만 방정식)벨만 방정식은 Richard E. Bellman의 이름을 딴 것으로, 동적 프로그래밍(Dynamic Programming)이라는 수학적 최적화 방법과 관련된 최적성을 위한 필요조건을 의미한다. (동적 프로그래밍의 핵심 아이디어인 최적성 원리를 수학적으로 표현한 것)  동적 프로그래밍(Dynamic Programming) 의 핵심 아이디어1. 최적성의 원리(principle of optimality) : "최적 경로의 부분 경로 또한 최적 경로이다"라는 것을 의미2. 순환식(recursive equation) : 최적성의 원리를 수학적으로 표현한 것으로, 문제를 더 작은 하위 문제로 분할하고, 각 하위 문제의 해를 이용하여 원래 문제의 해를 구하는 방식을 나타냄..
[RL] 마르코프 결정 과정 (Markov decision processes, MDP)
·
🤖 ai logbook
강화학습을 적용하기 위해서는 MDP 문제로 정의하는 것이 필요하다고 했는데, 그래서 MDP가 뭔데?Markov property을 기반으로 하는 확률 모델1. Markov Process (MP, 마르코프 과정)* Markov Chain : 2023.07.14 - [🤖 ai/deep learning] - 베이즈 정리(Bayes’ theorem) & 마르코프 모델(Markov Models)시간에 따라 확률적으로 변화하는 시스템을 모델링. 미래 상태는 현재 상태에만 의존하고 과거 상태에는 영향을 받지 않는다.S, P로 구성상태 집합 (State space, S): 시스템이 가질 수 있는 모든 가능한 상태들의 집합상태 전이 확률 행렬 (Transition probability matrix, P): 현재 상태에서..
[RL] 강화 학습(Reinforcement Learning)
·
🤖 ai logbook
머신러닝의 학습 방법머신러닝의 학습 방법에는 크게 지도학습, 비지도학습, 강화학습으로 나눌 수 있다. 1. 지도 학습 (Supervised Learning) 정답이 있는 데이터 (레이블)를 통해 모델을 학습시키는 방법 (Prediction)분류 : 스팸 메일 필터링 (스팸/정상 메일 분류), 이미지 분류 (고양이/강아지 분류)회귀 : 주택 가격 예측, 주식 가격 예측장점 : 명확한 목표와 정답이 존재해 모델 성능을 쉽게 평가할 수 있음단점 : 많은 양의 레이블링 된 데이터가 필요하며, 레이블링 작업에 시간과 비용이 많이 소요될 수 있음.2. 비지도 학습 (Unsupervised Learning)정답 레이블 없이 데이터 자체의 특징과 패턴을 분석하는 방법 (Featuring) 군집화 : 고객 세분화, 문서..
[RL] Deep Deterministic Policy Gradient (DDPG)
·
🤖 ai logbook
reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..
[RL] Actor-Critic
·
🤖 ai logbook
reference https://wikidocs.net/book/5942 https://wikidocs.net/book/7888 Actor-Critic 강화학습에서 REINFORCE(Policy Gradient 방법)는 CartPole(균형을 잡는 문제)와 같은 간단한 예제에서는 효과적이나, 더 복잡한 환경의 적용은 어렵다. DQN(deep Q-networks)은 이산적인 행동 공간에서 특히 유용하지만, epsilon-greedy와 같은 추가적인 정책 기능이 필요한 문제가 있다. 이런 두 기법의 장점을 합친 것이 Actor-Critic 알고리즘으로, 다양한 영역에서 뛰어난 결과를 보여주고 있다. Actor-Critic은 강화학습의 한 방법론으로, 에이전트가 주어진 환경에서 최적의 행동을 학습하는 데 사용..
[RL] DQN(Deep Q-Network) - 작성중
·
🤖 ai logbook
reference https://wikidocs.net/book/7888 Approximate Q-Learning large-sale problem들은 일반적인 Q-learning 방법을 적용하기 어려워, 이를 해결하기 위한 한가지 방법으로 Q-function을 파라미터화 하는 것이 있다. 일반적인 Q-learning 업데이트 방법 $Q(s, a) ← Q(s, a) + α[r + γ max Q(s', a') - Q(s, a)]$ 여기서 말하는 파라미터화(parameterization)는 Q-function을, 상태(state)와 행동(action)을 입력으로 받고, 해당 상태에서 특정 행동을 선택했을 때의 예상되는 미래 보상을 출력으로 내는 함수로 표현하는 것을 말한다. 이 함수는 일반적으로 뉴럴 네트워..
[RL] Q 러닝(Q-learning)
·
🤖 ai logbook
reference https://wikidocs.net/165847 https://wikidocs.net/165845 https://wikidocs.net/123068 Deep reinforcement learning Deep reinforcement learning = RL + Deep learning Deep reinforcement learning은 reinforcement learning(RL)과 deep learning을 결합한 머신러닝의 하위 분야이다. Update Value function and Q-function 강화학습에서 Value function과 Q-function을 어떻게 업데이트할까? 모델이 알려진 경우에는, Q-function을 사용하는 방법이 있다. 일반적으로 다음과 같은 ..