[Coursera/IBM course #3] 강화학습(Reinforcement Learning)
·
🥇 certification logbook
[IBM AI course #3] Deep Learning & Neural Networks with Keras 강화학습(Reinforcement Learning)에이전트는 환경과 상호작용하며, 행동(action)을 통해 환경을 변화시키고 보상(reward)을 받음.(예: 게임에서는 플레이어 = 에이전트, 체스판이나 웹페이지 = 환경.)→ 에이전트가 보상을 극대화하는 최적의 정책(policy)을 학습하는 알고리즘 사례DeepMind의 Atari, AlphaGo는 강화학습 기반으로 인간을 이김. 학습 원리행동은 환경 상태를 변화시키고,보상이 주어지면 해당 행동이 강화되어, 유사한 상황에서 반복될 가능성이 높아짐보상은 즉시 주어지지 않을 수 있고, 여러 단계 후에 발생하는 경우도 있음 문제점데이터와 연산량이 ..