
[RL] MDP - Bellman equation
·
🤖 ai logbook
Bellman equation (벨만 방정식)벨만 방정식은 Richard E. Bellman의 이름을 딴 것으로, 동적 프로그래밍(Dynamic Programming)이라는 수학적 최적화 방법과 관련된 최적성을 위한 필요조건을 의미한다. (동적 프로그래밍의 핵심 아이디어인 최적성 원리를 수학적으로 표현한 것) 동적 프로그래밍(Dynamic Programming) 의 핵심 아이디어1. 최적성의 원리(principle of optimality) : "최적 경로의 부분 경로 또한 최적 경로이다"라는 것을 의미2. 순환식(recursive equation) : 최적성의 원리를 수학적으로 표현한 것으로, 문제를 더 작은 하위 문제로 분할하고, 각 하위 문제의 해를 이용하여 원래 문제의 해를 구하는 방식을 나타냄..