[Coursera/IBM course #1] Linear Regression & Logistic Regression

2025. 5. 4. 23:26·🥇 certification logbook
728x90
반응형

[IBM AI course #1] Machine Learning with Python

 

Linear Regression

회귀(Regression)는 연속형 타겟 변수와 설명 변수(feature) 간의 관계를 모델링하는 머신러닝 기법이다.

  • 단순 회귀 (Simple Regression): 독립 변수가 1개
  • 다중 회귀 (Multiple Regression): 독립 변수가 2개 이상

 

회귀 사용 예

  • 매출 예측
  • 유지보수 비용 예측
  • 강수량 추정
  • 감염병 확산 예측

 

단순 선형 회귀

단순 선형 회귀는 독립 변수 하나로 타겟 변수 예측

데이터 간 선형 관계를 가정하고, 최적의 직선(회귀선)을 찾는 문제

y = w * x + b

오차는 평균 제곱 오차(MSE)로 측정되며, 이러한 방식은 일반 최소 제곱(OLS: Ordinary Least Squares = Least Square Method) 회귀라고 불린다.

OLS는 MSE를 최소화하여 회귀 계수를 추정한다.

OLS 회귀는 해석이 간단하지만 이상값(outlier)에 민감하여 정확도에 영향을 줄 수 있다.

 

다중 선형 회귀

두 개 이상의 독립 변수를 사용하는 확장된 회귀 모델

변수 간 관계 분석, 시나리오 예측 등에서 자주 사용

y = w1 * x1 + w2 * x2 + ... + wn * xn + b

너무 많은 변수를 사용할 경우 과적합(overfitting) 가능성 있음

모델 구성 시에는 타겟과 높은 상관을 가지면서도 서로 상관되지 않은 변수를 선정해야 함

파라미터 추정 방법으로는 OLS 또는 랜덤 초기값 기반 최적화 등이 존재

 

비선형 회귀 & 다항 회귀

변수 간 관계가 직선으로 설명되지 않는 경우 사용하는 회귀 기법

(현실 세계에는 다항식으로 표현하기 어려운 복잡한 관계가 많다..!)

비선형 회귀는 데이터가 직선으로 설명되지 않을 때, 지수 함수, 로그 함수 등을 활용해 복잡한 관계를 모델링한다.

y = a * e^(b * x), y = a * log(x), y = a * sin(bx + c)

→ 비선형 모델을 선택하기 위해서는 산점도 시각화와 같은 기초 분석이 유용하며,

회귀 트리, 랜덤 포레스트, K-최근접 이웃 등의 머신러닝 모델을 고려할 수 있다.

 

다항 회귀는 데이터를 잘 맞출 수 있지만, 무작위 노이즈까지 학습하여 과적합(overfitting)되는 경우가 있다.

y = w1 * x + w2 * x^2 + b

→ 선형 회귀처럼 OLS로 학습 가능

 

Logistic Regression

머신러닝에서 logistic regression은 통계적 로지스틱 회귀에 기반한 이진 분류기 또는 확률 예측 모델을 의미한다

로지스틱 회귀는 이진 타겟, 확률 기반 결과, 특성의 영향 해석이 필요한 경우에 적합하며, 분류(classification)를 위한 회귀 기법으로, 출력값은 0과 1 사이의 확률값이다.

이 확률을 기준으로 클래스(예: 0 또는 1)를 결정하기 때문에, 단순히 결과만 예측하는 것이 아니라, 얼마나 확신하는지(확률)까지 예측할 수 있다는 점에서 선형 회귀와 구분된다.

로지스틱 회귀의 목적은 예측된 확률을 기반으로 클래스를 분류하는 모델을 만드는 것이다.

P(y=1 | x) = 1 / (1 + exp(- (θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ)))

 

Logistic Regression 훈련

로지스틱 회귀 훈련의 목표는 오류를 최소화하며 클래스를 예측하는 것이다.

훈련 과정은 비용 함수(cost function)를 최소화하는 파라미터 θ를 찾기 위해 구성된 주요 단계들로 이루어진다.

이때 최적화 과정은 예측 오류를 측정하는 평가지표인 log loss 비용 함수를 최소화하는 방식으로 진행된다.

 

log loss 비용 함수

LogLoss = - (1/m) * Σ [ yᵢ * log(pᵢ) + (1 - yᵢ) * log(1 - pᵢ) ]

log loss는 예측된 확률이 실제 정답과 가까울수록 낮은 값을 갖고,

잘못된 클래스를 높은 확률로 예측했을 때 더 큰 손실 값을 부여하기 때문에,

모델은 정확하고 올바른 방향의 확률 예측을 하도록 학습된다.

 

로지스틱 회귀는 선형 회귀처럼 수식으로 계수를 직접 계산하기 어려우므로,

이 Log Loss 값을 최소화하기 위해 사용하는 기법이 경사 하강법(gradient descent) 또는 확률적 경사 하강법(SGD : stochastic gradient descent) 같은 최적화 기법이 필수적으로 사용된다.

 

경사 하강법은 함수의 최소값을 찾기 위한 반복적이고 효율적인 접근 방식으로,

현재 파라미터의 기울기(gradient)를 계산하여 loss를 줄이는 방향으로 조금씩 이동하면서 최적값을 찾아간다.

확률적 경사 하강법은 훈련 데이터의 무작위 부분집합을 사용하여 이 과정을 빠르고 확장 가능하게 만든 알고리즘이다.

728x90
반응형

'🥇 certification logbook' 카테고리의 다른 글

[Coursera/IBM] Introduction to Deep Learning & Neural Networks with Keras 코스 소개  (1) 2025.05.10
[Coursera/IBM course #1] Evaluating and Validating Machine Learning Models  (0) 2025.05.10
[Coursera/IBM course #1] Unsupervised Learning Models  (0) 2025.05.05
[Coursera/IBM course #1] Supervised Learning Models  (2) 2025.05.04
[Coursera/IBM course #1] Scikit-Learn Machine Learning Ecosystem  (0) 2025.05.03
[Coursera/IBM course #1] Tools for Machine Learning  (1) 2025.05.03
[Coursera/IBM course #1] 데이터 사이언티스트 (data scientist) vs AI 엔지니어 (AI engineer)  (0) 2025.05.03
[Coursera/IBM course #1] 머신러닝이란 무엇인가  (0) 2025.05.02
'🥇 certification logbook' 카테고리의 다른 글
  • [Coursera/IBM course #1] Unsupervised Learning Models
  • [Coursera/IBM course #1] Supervised Learning Models
  • [Coursera/IBM course #1] Scikit-Learn Machine Learning Ecosystem
  • [Coursera/IBM course #1] Tools for Machine Learning
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (223)
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (73)
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    IBM
    데이터분석준전문가
    법학과
    Coursera
    certificate
    머신러닝
    ADsP
    인공지능 입문
    Python
    데이터사이언스 입문
    자격증
    방통대
    온라인 강의 추천
    deeplearning
    근로기준법
    인공지능
    기본권의기초이론
    datascience
    민법
    형법
  • hELLO· Designed By정상우.v4.10.3
이소야
[Coursera/IBM course #1] Linear Regression & Logistic Regression
상단으로

티스토리툴바