[Coursera/IBM course #2] Gradient Descent

2025. 5. 11. 15:32·🥇 certification logbook
728x90
반응형

[IBM AI course #2] Introduction to Deep Learning & Neural Networks with Keras

 

Gradient Descent

신경망이 가중치(w)와 편향(b)을 학습하고 최적화하는 방식을 이해하는 데 필수적인 개념.

 

예를 들어,

[ z = 2x ]라는 데이터를 관찰했을 때, 우리는 [ wx ]가 실제값 z와 최대한 비슷하게 나오도록 만들고 싶은 것이 핵심이다. 여기서 w는 우리가 학습할 가중치(weight)가 된다.

x z (= 2x)
1 2
2 4
3 6

 

 

손실 함수 (Cost/Loss Function)

w 값을 최적화하여 데이터에 가장 잘 맞는 직선을 찾는 것.

손실 함수 J(w) = ∑ (z - wx)²로 정의했을 때 (평균 제곱 오차 (MSE) 구조)

이 함수는 포물선 형태로, 하나의 전역 최솟값(global minimum)을 가짐.

예시에서 최적의 w = 2일 때 손실이 최소가 된다.

w 값 예측값 wx (x=1,2,3) 오차² (각 항의 제곱) 손실 함수 J(w) = ∑ (z - wx)²
1.0 1, 2, 3 (2-1)² + (4-2)² + (6-3)² = 1 + 4 + 9 14
1.5 1.5, 3.0, 4.5 (2-1.5)² + (4-3)² + (6-4.5)² = 0.25 + 1 + 2.25 3.5
2.0 2, 4, 6 (2-2)² + (4-4)² + (6-6)² = 0 + 0 + 0 0 (최소)
2.5 2.5, 5.0, 7.5 (2-2.5)² + (4-5)² + (6-7.5)² = 0.25 + 1 + 2.25 3.5
3.0 3, 6, 9 (2-3)² + (4-6)² + (6-9)² = 1 + 4 + 9 14

 

경사하강법 (Gradient Descent)

손실 함수 J(w)의 최솟값을 찾기 위한 반복적 최적화 알고리즘.

각 단계에서의 이동 방향은, 조금씩 w값을 조정하면서 현재 지점에서의 기울기(gradient)의 음수 방향으로 향함.

 

업데이트 식: w_new = w_old - learning_rate * gradient

*gradient : ∇J(w). 현재 w에서의 손실 함수의 기울기. 즉, ∇J(w)=−2x(z−wx)

 

학습률 (Learning Rate)

크면 → 큰 보폭으로 빠르게 이동 가능하지만, 최소값을 지나칠 위험 있음.

작으면 → 안정적이나 매우 느린 수렴.

 

적용 과정 (Learning Rate = 0.4)

초기 가중치 w=0

→ 이때 모델의 예측값 wx는 항상 0이므로, 출력값 z는 0인 수평선이 된다.

→ 실제 데이터 z=2x와는 큰 차이를 보여서, 손실 함수의 값이 매우 크다.

1차 반복

→ 손실 함수의 기울기(gradient)가 크기 때문에, 경사하강법은 가중치를 크게 이동시킨다.

→ 이로 인해 예측선의 기울기가 급격히 변하면서, 손실이 크게 감소한다.

→ 모델이 눈에 띄게 더 나아진다.

2~4차 반복

→ 모델이 점점 정답에 가까워지면서, 손실 함수의 기울기(gradient)가 점점 작아진다.

→ 따라서 가중치의 변화 폭도 작아지고, 모델의 업데이트는 점진적으로 안정화된다.

→ 선형 모델의 기울기 w는 최적값인 2에 가까워지며, 데이터에 더 잘 맞게 된다.

반복이 계속될수록

→ 예측선은 실제 데이터 분포와 점점 더 잘 일치하게 되고,

→ 손실은 점점 작아지며,

→ 모델은 최적의 상태에 가까워진다.

→ 이 과정을 통해 선형 모델이 점점 데이터를 잘 설명하는 방향으로 적합(fitting) 되는 것이다.

 

결론

Gradient Descent는 함수의 최솟값을 반복적으로 찾아가는 알고리즘.

가중치 업데이트는 gradient의 음수 방향으로 이동하여 손실 최소화.

학습률(Learning Rate)의 설정은 수렴 속도와 정확성에 큰 영향을 미침.

직관적으로는 포물선 손실 함수에서 공을 굴려 내려가는 방식과 유사함.

728x90
반응형

'🥇 certification logbook' 카테고리의 다른 글

[Coursera/IBM course #2] Transformers & Autoencoders  (1) 2025.05.18
[Coursera/IBM course #2] CNN & RNN  (1) 2025.05.17
[Coursera/IBM course #2] Deep Learning Libraries & Keras Models  (1) 2025.05.17
[Coursera/IBM course #2] Backpropagation & Vanishing Gradient & Activation Functions  (0) 2025.05.11
[Coursera/IBM course #2] Neurons and Neural Networks & Artificial Neural Networks  (0) 2025.05.10
[Coursera/IBM] Introduction to Deep Learning & Neural Networks with Keras 코스 소개  (1) 2025.05.10
[Coursera/IBM course #1] Evaluating and Validating Machine Learning Models  (0) 2025.05.10
[Coursera/IBM course #1] Unsupervised Learning Models  (0) 2025.05.05
'🥇 certification logbook' 카테고리의 다른 글
  • [Coursera/IBM course #2] Deep Learning Libraries & Keras Models
  • [Coursera/IBM course #2] Backpropagation & Vanishing Gradient & Activation Functions
  • [Coursera/IBM course #2] Neurons and Neural Networks & Artificial Neural Networks
  • [Coursera/IBM] Introduction to Deep Learning & Neural Networks with Keras 코스 소개
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (207) N
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (57) N
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    민법
    데이터분석준전문가
    데이터사이언스 입문
    빅데이터분석기사
    ADsP
    머신러닝
    IBM
    Coursera
    기본권의기초이론
    자격증
    법학과
    인공지능 입문
    deeplearning
    근로기준법
    형법
    Python
    온라인 강의 추천
    방통대
    certificate
    datascience
  • hELLO· Designed By정상우.v4.10.3
이소야
[Coursera/IBM course #2] Gradient Descent
상단으로

티스토리툴바