[RL] 간단한 OpenAI Gym 튜토리얼 (CartPole)
·
🤖 ai logbook
OpenAI Gym OpenAI에 의해 개발된, 강화학습 문제를 실험하고 테스트할 수 있게 해주는 환경을 제공하는 툴킷 필요 라이브러리 설치 gym: OpenAI에서 제공하는 강화 학습 환경 툴킷 python-opengl: OpenAI Gym의 일부 환경에서 필요한 3D 렌더링 라이브러리 xvfb: X Virtual Framebuffer. GUI를 가상 디스플레이에 렌더링하는 데 사용 !pip install gym !apt-get install python-opengl -y !apt install xvfb -y 환경 실행 CartPole-v1 환경을 실행하고, 매 스텝마다 랜덤한 행동을 선택하여 환경에 적용하기 Cart Pole https://www.gymlibrary.dev/environments/cl..
[RL] Deep Deterministic Policy Gradient (DDPG)
·
🤖 ai logbook
reference : https://wikidocs.net/book/7888 결정론적 정책 경사(Deterministic Policy Gradient, DPG) 알고리즘 더보기 Stochastic Policy (확률적 정책) 주어진 상태 $s$ 대해 행동 $a$를 취할 확률을 반환하는 정책 $\pi(a|s) = P(A = a|S = s)$ 여기서 $\pi(a|s)$는 상태 $s$에서 행동 $a$를 취할 확률을 나타나타내며, 환경의 불확실성이나 에이전트의 탐색 필요성 등의 이유로 Deterministic Policy (결정론적 정책)보다 유용할 수 있다. → 환경의 불확실성을 다루거나 탐색하는 데 유용 → local optima에서 벗어나는 데 도움을 줌 Deterministic Policy (결정론적 정..
[paper] ChatDev - 소프트웨어 개발을 위한 통신 에이전트(Communicative Agents for Software Development)
·
🤖 ai logbook
ChatGPT가 공개되었을 때, 이러다가 채팅 가지고 자동화도 가능하겠는데? 하는 생각은 누구나 쉽게 할 수 있었을 것이다. 그리고 그 생각을 실제로 구현하다 못해 가상의 스타트업까지 만들어버린 칭화대의 "ChatDev"에 대해 공부해봤다. ChatDev, Communicative Agents for Software Development paper : https://arxiv.org/pdf/2307.07924.pdf 이 논문은 소프트웨어 개발의 모든 단계에서 대형 언어 모델(Large language models; LLMs)을 활용하는 방식을 제안했다. 이 방식의 핵심은 “ChatDev”라는 가상의 채팅 기반 소프트웨어 개발 회사로, 설계(designing), 코딩(coding), 테스트(testing)..
[RL] Actor-Critic
·
🤖 ai logbook
reference https://wikidocs.net/book/5942 https://wikidocs.net/book/7888 Actor-Critic 강화학습에서 REINFORCE(Policy Gradient 방법)는 CartPole(균형을 잡는 문제)와 같은 간단한 예제에서는 효과적이나, 더 복잡한 환경의 적용은 어렵다. DQN(deep Q-networks)은 이산적인 행동 공간에서 특히 유용하지만, epsilon-greedy와 같은 추가적인 정책 기능이 필요한 문제가 있다. 이런 두 기법의 장점을 합친 것이 Actor-Critic 알고리즘으로, 다양한 영역에서 뛰어난 결과를 보여주고 있다. Actor-Critic은 강화학습의 한 방법론으로, 에이전트가 주어진 환경에서 최적의 행동을 학습하는 데 사용..
[RL] DQN(Deep Q-Network) - 작성중
·
🤖 ai logbook
reference https://wikidocs.net/book/7888 Approximate Q-Learning large-sale problem들은 일반적인 Q-learning 방법을 적용하기 어려워, 이를 해결하기 위한 한가지 방법으로 Q-function을 파라미터화 하는 것이 있다. 일반적인 Q-learning 업데이트 방법 $Q(s, a) ← Q(s, a) + α[r + γ max Q(s', a') - Q(s, a)]$ 여기서 말하는 파라미터화(parameterization)는 Q-function을, 상태(state)와 행동(action)을 입력으로 받고, 해당 상태에서 특정 행동을 선택했을 때의 예상되는 미래 보상을 출력으로 내는 함수로 표현하는 것을 말한다. 이 함수는 일반적으로 뉴럴 네트워..
[RL] Q 러닝(Q-learning)
·
🤖 ai logbook
reference https://wikidocs.net/165847 https://wikidocs.net/165845 https://wikidocs.net/123068 Deep reinforcement learning Deep reinforcement learning = RL + Deep learning Deep reinforcement learning은 reinforcement learning(RL)과 deep learning을 결합한 머신러닝의 하위 분야이다. Update Value function and Q-function 강화학습에서 Value function과 Q-function을 어떻게 업데이트할까? 모델이 알려진 경우에는, Q-function을 사용하는 방법이 있다. 일반적으로 다음과 같은 ..
[CV] Single-stage Models (YOLO, YOLOv2/YOLO9000)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/6651 https://wikidocs.net/book/7721 YOLO web : https://pjreddie.com/darknet/yolo/ YOLO2 youtube : https://www.youtube.com/watch?v=VOC3huqHrss YOLO3 youtube : https://www.youtube.com/watch?v=MPU2HistivI YOLO (You Only Look Once) YOLO 계열은 object detection에서 널리 사용되는 One-Stage Detector의 대표 모델이다. YOLO는 단일 Convolutional Neural Network(CNN)을 사용해 이미지 내의 여러 개의 boun..
[CV] Two-stage Models (R-CNN, SPPNet, Fast R-CNN, Faster R-CNN)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/6651 https://wikidocs.net/book/7721 Two-stage Models Object Detection을 두 단계로 나누어 처리하는 방식으로, R-CNN, SPPNet, Fast R-CNN, Faster R-CNN등이 있다. stage 1 : Proposal Generation Stage 이미지에서 후보 영역들을 생성한다. 이를 위해 다양한 알고리즘들이 사용될 수 있는데, R-CNN에서는 Selective Search라는 방법이, Faster R-CNN에서는 Region Proposal Network (RPN)라는 네트워크가 사용된다. stage 2 : Classification and Bounding Box R..
[CV] Parts-based Models & Deformable Part Model (DPM)
·
🤖 ai logbook
Parts-based Models Parts-based models은 object를 부분(part)의 집합으로 정의하는 object detection model의 일종이다 Parts-based models에서 part는 다음 두 가지 요인을 기반으로 모델링 된다. 1. Appearance : part의 모양, 색상, 질감 등과 같은 시각적 특성을 의미한다. part들의 외관은 다른 part들 및 배경과 구별하는 데 사용된다. 2. Spatial configuration : part들은 공간상에서 관계성을 가진다. part들의 공간 구성은 object의 전체적인 모양과 구조를 결정하는 데 사용된다. Deformable Part Model (DPM) 참고 : https://cs.brown.edu/people..
[CV] Object Detection & Statistical Template Approach(Dalal-Triggs Pedestrian Detector)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/6651 https://kikaben.com/object-detection-non-maximum-suppression/ General process of object detection Object Detection은 기본적으로 다음과 같은 Stage로 진행된다. Specify Object Model Statistical template in bounding box 객체가 이미지 내의 일부 (x,y,w,h)로 정의되며, bounding box 좌표에 대해 정의된 특징을 사용하는 객체 모델링 방법이다. 이 방법은 객체 검색에 초점을 맞추며, 객체와 배경을 빠르게 구별하는 template을 구축한다. 아래 이미지에서 자전거가 있다면 자전거..