'reinforcementLearning' 태그의 글 목록

Bellman equation (벨만 방정식)벨만 방정식은 Richard E. Bellman의 이름을 딴 것으로, 동적 프로그래밍(Dynamic Programming)이라는 수학적 최적화 방법과 관련된 최적성을 위한 필요조건을 의미한다. (동적 프로그래밍의 핵심 아이디어인 최적성 원리를 수학적으로 표현한 것) 동적 프로그래밍(Dynamic Programming) 의 핵심 아이디어1. 최적성의 원리(principle of optimality) : "최적 경로의 부분 경로 또한 최적 경로이다"라는 것을 의미2. 순환식(recursive equation) : 최적성의 원리를 수학적으로 표현한 것으로, 문제를 더 작은 하위 문제로 분할하고, 각 하위 문제의 해를 이용하여 원래 문제의 해를 구하는 방식을 나타냄..

강화학습을 적용하기 위해서는 MDP 문제로 정의하는 것이 필요하다고 했는데, 그래서 MDP가 뭔데?Markov property을 기반으로 하는 확률 모델1. Markov Process (MP, 마르코프 과정)* Markov Chain : 2023.07.14 - [🤖 ai/deep learning] - 베이즈 정리(Bayes’ theorem) & 마르코프 모델(Markov Models)시간에 따라 확률적으로 변화하는 시스템을 모델링. 미래 상태는 현재 상태에만 의존하고 과거 상태에는 영향을 받지 않는다.S, P로 구성상태 집합 (State space, S): 시스템이 가질 수 있는 모든 가능한 상태들의 집합상태 전이 확률 행렬 (Transition probability matrix, P): 현재 상태에서..

머신러닝의 학습 방법머신러닝의 학습 방법에는 크게 지도학습, 비지도학습, 강화학습으로 나눌 수 있다. 1. 지도 학습 (Supervised Learning) 정답이 있는 데이터 (레이블)를 통해 모델을 학습시키는 방법 (Prediction)분류 : 스팸 메일 필터링 (스팸/정상 메일 분류), 이미지 분류 (고양이/강아지 분류)회귀 : 주택 가격 예측, 주식 가격 예측장점 : 명확한 목표와 정답이 존재해 모델 성능을 쉽게 평가할 수 있음단점 : 많은 양의 레이블링 된 데이터가 필요하며, 레이블링 작업에 시간과 비용이 많이 소요될 수 있음.2. 비지도 학습 (Unsupervised Learning)정답 레이블 없이 데이터 자체의 특징과 패턴을 분석하는 방법 (Featuring) 군집화 : 고객 세분화, 문서..

reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..

reference https://wikidocs.net/book/5942 https://wikidocs.net/book/7888 Actor-Critic 강화학습에서 REINFORCE(Policy Gradient 방법)는 CartPole(균형을 잡는 문제)와 같은 간단한 예제에서는 효과적이나, 더 복잡한 환경의 적용은 어렵다. DQN(deep Q-networks)은 이산적인 행동 공간에서 특히 유용하지만, epsilon-greedy와 같은 추가적인 정책 기능이 필요한 문제가 있다. 이런 두 기법의 장점을 합친 것이 Actor-Critic 알고리즘으로, 다양한 영역에서 뛰어난 결과를 보여주고 있다. Actor-Critic은 강화학습의 한 방법론으로, 에이전트가 주어진 환경에서 최적의 행동을 학습하는 데 사용..

reference https://wikidocs.net/book/7888 Approximate Q-Learning large-sale problem들은 일반적인 Q-learning 방법을 적용하기 어려워, 이를 해결하기 위한 한가지 방법으로 Q-function을 파라미터화 하는 것이 있다. 일반적인 Q-learning 업데이트 방법 $Q(s, a) ← Q(s, a) + α[r + γ max Q(s', a') - Q(s, a)]$ 여기서 말하는 파라미터화(parameterization)는 Q-function을, 상태(state)와 행동(action)을 입력으로 받고, 해당 상태에서 특정 행동을 선택했을 때의 예상되는 미래 보상을 출력으로 내는 함수로 표현하는 것을 말한다. 이 함수는 일반적으로 뉴럴 네트워..

reference https://wikidocs.net/165847 https://wikidocs.net/165845 https://wikidocs.net/123068 Deep reinforcement learning Deep reinforcement learning = RL + Deep learning Deep reinforcement learning은 reinforcement learning(RL)과 deep learning을 결합한 머신러닝의 하위 분야이다. Update Value function and Q-function 강화학습에서 Value function과 Q-function을 어떻게 업데이트할까? 모델이 알려진 경우에는, Q-function을 사용하는 방법이 있다. 일반적으로 다음과 같은 ..

티스토리툴바