728x90
반응형

독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법

독립변수의 개수가 하나이면 단순선형회귀분석

독립변수의 개수가 두개이상이면 다중선형회귀분석

ANOVA(분산분석)

분산분석은 독립변수(요인)가 종속변수(반응변수)의 평균에 미치는 영향력을 검정하고, 요인 간에 통계적인 유의미한 차이가 있는지를 판단하는데 사용

ANOVA table

사후 검정 방법

Tukey 검정, Bonferroni 검정, Fisher’ LSD

 

-

 

결정계수($R^2$)

전체 데이터를 회귀모형이 설명할 수 있는 설명력을 의미
(단순회귀분석에서 결정계수는 상관계수(r)의 제곱과 같음)
전체제곱합에서 회귀제곱합의 비율(SSR/SST)

변수의 수가 증가할 수록 결정계수는 증가

일반적으로 다중공선성를 결정짓는 분산팽창요인(VIF)과 양의 상관관계

$$R^2 = \frac{SSE}{SST} (0≤R^2≤1)$$ $$R^2_{평균제곱오차(MSE)사용} = 1-{(n-1)(1-R^2)\over{n-k-1}} $$ $$= 1-{(n-1)({SSE\over{SST}})\over{n-k-1}} = 1-(n-1){MSE\over{SST}}$$

 

1. 전체제곱합 SST (total) SST = SSR+SSE

$${\sum_{\begin{subarray}{l}{i=1}\end{subarray}}({{y_i}-\bar{y}}})^2$$

2. 회귀제곱합 SSR (regression)

$${\sum_{\begin{subarray}{l}{i=1}\end{subarray}}({\hat{y_i}-\bar{y}}})^2$$

3. 오차제곱합 SSE (error)
실제데이터와 예측데이터 편차의 제곱 합

데이터가 많으면 많을수록 오차제곱의 합은 기하급수적으로 커짐 → 실제 오차가 커서 값이 커지는 것인지 데이터의 양이 많아서 값이 커지는 것인지를 구분할 수 없게 됨 → 평균제곱오차를 주로 사용

$${\sum_{\begin{subarray}{l}{i=1}\end{subarray}}({y_i-\hat{y_i}}})^2$$

4. 평균제곱오차 MSE
오차제곱합(SSE)을 데이터의 크기로 나눠 평균으로 만든 것

$$\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y_i})^2 = \frac{SSE}{n}$$

 

 

-

오차(error) vs 잔차(residual)
오차(error) 
모집단에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이 (정확치와 관측치의 차이), 회귀모형에서 오차항은 측정할 수 없음
잔차(residual) 
표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이, 잔차를 오차항의 관찰값으로 해석하여 오차항에 대한 가정들의 성립여부 조사

-

선형회귀분석

선형회귀분석의 가정 (선-등-독-비-정)

선형성 (x,y)

입력변수와 출력변수의 관계가 선형(가장 중요한 가정)

등분산성 (x,잔차)

오차의 분산이 입력변수와 무관하게 일정

잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 만족

독립성(자기상관)

입력변수와 오차는 관련이 없음

  • Durbin-Waston 통계량 주로 시계열 데이터에서 많이 활용

비상관성

오차들끼리 상관이 없음

정상성(정규성)

오차의 분포가 정규분포를 따름
  • 정규성 확인 방법 Q-Q plot, Kolmogolov-Smirnov 검정, Shaprio-Wilk 검정

 

-

 

단순선형회귀분석

하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법

독립변수가 1개이며 종속변수와의 관계가 직선

$$회귀식 y_i=\beta_i+\beta_1x_i+\epsilon_i$$

 

가정 검증 방법 (산점도 확인)

입력변수와 출력변수간의 선형성을 점검하기 위해 산점도 확인

 

검토사항 (t통계량)

t통계량의 p-value값이 0.05보다 작으면 통계적으로 유의

결정계수($R^2$)는 0~1값을 가지며, 높은 값을 가질수록 회귀식의 설명력이 높음

잔차를 그래프로 그리고 회귀진단을 함

 

회귀계수의 추정(최소제곱법, 최소자승법)

적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법

잔차제곱이 가장 작은 선을 구하는 것을 의미

 

회귀계수의 검정 (회귀계수 = 0 → 인과관계 X → 추정식 의미 X)

회귀계수 $B_1$이 0이면, 입력변수 x와 출력변수 y 사이에는 아무런 인과관계가 없음 적합된 추정식은 아무 의미가 없게 됨

 

다항회귀

독립변수와 종속변수와의 관계가 1차 함수 이상인 관계

독립변수의 2차식으로써 종속변수를 설명할 것으로 예상될 때 적용

 

-

 

다중선형회귀분석(다변량회귀분석)

모형의 유의성은 F통계량, 회귀계수의 유의성은 t통계량

독립변수가 k개이며 종속변수와의 관계가 선형(1차 함수)

모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인

 

$$회귀식 y_i=\beta_1x_1+\beta_2x_2+....+\beta_kx_k+\epsilon$$

 

모형의 유의성 (F통계량)

모형의 통계적 유의성은 F통계량으로 확인

유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있음

(F통계량이 크면 p-value가 0.05보다 작아짐 → 모형이 유의하다)

 

회귀계수의 유의성 (t통계량)

변량 회귀분석의 회귀계수 유의성 검토와 같이 t통계량을 통해 확인

모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형을 활용할 수 있음

 

가정 검증 방법

선형성, 등분산성, 독립성, 정상성이 모두 만족하는지 확인 필요

 

-

 

라쏘(LASSO) 회귀모형

회귀분석에서 사용하는 최소제곱법에 제약조건(비용함수)을 부여하는 방법이다.

MSE(평균제곱오차, mean squared error)와 Penalty항의 합이 최소가 되게하는 파라메터를 찾는 것이 목적이다.

회귀계수의 절대값이 클수록 패널티를 부여한다. (Lasso regression은 L1 norm을 사용해서 패널티를 주는 방식이다.)

정규화 선형회귀 ( Regularized Linear Regression ) 의 하나로 선형회귀계수에 대한 제약 조건을 추가하여 과적합을 막는 방법 중 하나이다.

 

-

 

다중공선성

→ 문제 있는 변수 제거 or 주성분회귀, 능형회귀 모형을 적용

설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란해짐

분산팽창요인(VIF)

4보다 크면 다중공선성이 존재, 10보다 크면 심각한 문제가 있는 것으로 해석

상태지수

10 이상이면 문제가 있고, 30보다 크면 심각한 문제가 있다고 해석

 

-

 

최적회귀방정식

설명변수 선택

y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 참여

데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함

모형선택

모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀모형을 선택

단계적 변수선택

전진선택법

절편만 있는 상수모형.

중요하다고 생각되는 설명변수부터 차례로 모형에 추가

변수값이 작은 변동에도 그 결과가 크게 달라져 안정성이 부족한 단점

후진선택법

독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거

변수의 개수가 많은 경우 사용하기 어려움

단계선택법 (direction=both)

전진선택법에 의해 변수를 추가하면서, 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 떨어지게되면 해당 변수를 제거하는 등 단계별로 추가 / 제거되는 변수의 여부를 검토

 

벌점화된 선택기준

모형의 복잡도에 벌점을 주는 방법

AIC(akaike information criterion)

보편화된 방법, 일치성(자료의 수가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최소값을 갖게 되는 성질)이 성립하지 않음

BIC(bayesian information criterion)

주요 분포에서 일치성 성립

 

728x90
반응형