
[RL] 마르코프 결정 과정 (Markov decision processes, MDP)
·
🤖 ai logbook
강화학습을 적용하기 위해서는 MDP 문제로 정의하는 것이 필요하다고 했는데, 그래서 MDP가 뭔데?Markov property을 기반으로 하는 확률 모델1. Markov Process (MP, 마르코프 과정)* Markov Chain : 2023.07.14 - [🤖 ai/deep learning] - 베이즈 정리(Bayes’ theorem) & 마르코프 모델(Markov Models)시간에 따라 확률적으로 변화하는 시스템을 모델링. 미래 상태는 현재 상태에만 의존하고 과거 상태에는 영향을 받지 않는다.S, P로 구성상태 집합 (State space, S): 시스템이 가질 수 있는 모든 가능한 상태들의 집합상태 전이 확률 행렬 (Transition probability matrix, P): 현재 상태에서..