'🤖 ai logbook' 카테고리의 글 목록 (2 Page)

강화학습을 적용하기 위해서는 MDP 문제로 정의하는 것이 필요하다고 했는데, 그래서 MDP가 뭔데?Markov property을 기반으로 하는 확률 모델1. Markov Process (MP, 마르코프 과정)* Markov Chain : 2023.07.14 - [🤖 ai/deep learning] - 베이즈 정리(Bayes’ theorem) & 마르코프 모델(Markov Models)시간에 따라 확률적으로 변화하는 시스템을 모델링. 미래 상태는 현재 상태에만 의존하고 과거 상태에는 영향을 받지 않는다.S, P로 구성상태 집합 (State space, S): 시스템이 가질 수 있는 모든 가능한 상태들의 집합상태 전이 확률 행렬 (Transition probability matrix, P): 현재 상태에서..

머신러닝의 학습 방법머신러닝의 학습 방법에는 크게 지도학습, 비지도학습, 강화학습으로 나눌 수 있다. 1. 지도 학습 (Supervised Learning) 정답이 있는 데이터 (레이블)를 통해 모델을 학습시키는 방법 (Prediction)분류 : 스팸 메일 필터링 (스팸/정상 메일 분류), 이미지 분류 (고양이/강아지 분류)회귀 : 주택 가격 예측, 주식 가격 예측장점 : 명확한 목표와 정답이 존재해 모델 성능을 쉽게 평가할 수 있음단점 : 많은 양의 레이블링 된 데이터가 필요하며, 레이블링 작업에 시간과 비용이 많이 소요될 수 있음.2. 비지도 학습 (Unsupervised Learning)정답 레이블 없이 데이터 자체의 특징과 패턴을 분석하는 방법 (Featuring) 군집화 : 고객 세분화, 문서..

OpenAI Gym OpenAI에 의해 개발된, 강화학습 문제를 실험하고 테스트할 수 있게 해주는 환경을 제공하는 툴킷 필요 라이브러리 설치 gym: OpenAI에서 제공하는 강화 학습 환경 툴킷 python-opengl: OpenAI Gym의 일부 환경에서 필요한 3D 렌더링 라이브러리 xvfb: X Virtual Framebuffer. GUI를 가상 디스플레이에 렌더링하는 데 사용 !pip install gym !apt-get install python-opengl -y !apt install xvfb -y 환경 실행 CartPole-v1 환경을 실행하고, 매 스텝마다 랜덤한 행동을 선택하여 환경에 적용하기 Cart Pole https://www.gymlibrary.dev/environments/cl..

reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..

ChatGPT가 공개되었을 때, 이러다가 채팅 가지고 자동화도 가능하겠는데? 하는 생각은 누구나 쉽게 할 수 있었을 것이다. 그리고 그 생각을 실제로 구현하다 못해 가상의 스타트업까지 만들어버린 칭화대의 "ChatDev"에 대해 공부해봤다. ChatDev, Communicative Agents for Software Development paper : https://arxiv.org/pdf/2307.07924.pdf 이 논문은 소프트웨어 개발의 모든 단계에서 대형 언어 모델(Large language models; LLMs)을 활용하는 방식을 제안했다. 이 방식의 핵심은 “ChatDev”라는 가상의 채팅 기반 소프트웨어 개발 회사로, 설계(designing), 코딩(coding), 테스트(testing)..

reference https://wikidocs.net/book/5942 https://wikidocs.net/book/7888 Actor-Critic 강화학습에서 REINFORCE(Policy Gradient 방법)는 CartPole(균형을 잡는 문제)와 같은 간단한 예제에서는 효과적이나, 더 복잡한 환경의 적용은 어렵다. DQN(deep Q-networks)은 이산적인 행동 공간에서 특히 유용하지만, epsilon-greedy와 같은 추가적인 정책 기능이 필요한 문제가 있다. 이런 두 기법의 장점을 합친 것이 Actor-Critic 알고리즘으로, 다양한 영역에서 뛰어난 결과를 보여주고 있다. Actor-Critic은 강화학습의 한 방법론으로, 에이전트가 주어진 환경에서 최적의 행동을 학습하는 데 사용..

reference https://wikidocs.net/book/7888 Approximate Q-Learning large-sale problem들은 일반적인 Q-learning 방법을 적용하기 어려워, 이를 해결하기 위한 한가지 방법으로 Q-function을 파라미터화 하는 것이 있다. 일반적인 Q-learning 업데이트 방법 $Q(s, a) ← Q(s, a) + α[r + γ max Q(s', a') - Q(s, a)]$ 여기서 말하는 파라미터화(parameterization)는 Q-function을, 상태(state)와 행동(action)을 입력으로 받고, 해당 상태에서 특정 행동을 선택했을 때의 예상되는 미래 보상을 출력으로 내는 함수로 표현하는 것을 말한다. 이 함수는 일반적으로 뉴럴 네트워..

reference https://wikidocs.net/165847 https://wikidocs.net/165845 https://wikidocs.net/123068 Deep reinforcement learning Deep reinforcement learning = RL + Deep learning Deep reinforcement learning은 reinforcement learning(RL)과 deep learning을 결합한 머신러닝의 하위 분야이다. Update Value function and Q-function 강화학습에서 Value function과 Q-function을 어떻게 업데이트할까? 모델이 알려진 경우에는, Q-function을 사용하는 방법이 있다. 일반적으로 다음과 같은 ..

reference 더보기 https://wikidocs.net/book/6651 https://wikidocs.net/book/7721 YOLO web : https://pjreddie.com/darknet/yolo/ YOLO2 youtube : https://www.youtube.com/watch?v=VOC3huqHrss YOLO3 youtube : https://www.youtube.com/watch?v=MPU2HistivI YOLO (You Only Look Once) YOLO 계열은 object detection에서 널리 사용되는 One-Stage Detector의 대표 모델이다. YOLO는 단일 Convolutional Neural Network(CNN)을 사용해 이미지 내의 여러 개의 boun..

reference 더보기 https://wikidocs.net/book/6651 https://wikidocs.net/book/7721 Two-stage Models Object Detection을 두 단계로 나누어 처리하는 방식으로, R-CNN, SPPNet, Fast R-CNN, Faster R-CNN등이 있다. stage 1 : Proposal Generation Stage 이미지에서 후보 영역들을 생성한다. 이를 위해 다양한 알고리즘들이 사용될 수 있는데, R-CNN에서는 Selective Search라는 방법이, Faster R-CNN에서는 Region Proposal Network (RPN)라는 네트워크가 사용된다. stage 2 : Classification and Bounding Box R..

티스토리툴바