728x90
반응형

통계적 추론(추측통계, inference statistics)

수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것. 모집단을 추정하는 것을 의미

 

확률표본

분포를 결정하는 평균, 분산 등의 모수를 가지고 있음 특정한 확률분포로부터 독립적으로 반복해 표본을 추출한 것 각 관찰값들은 서로 독립적이며 동일한 분포를 갖음

 

추정

모집단의 특성인 모수(평균, 분산 등)를 분석해 모집단 추론

점추정 (pont estimation)

모수가 특정한 값일 것이라고 추정하는 것

조건 : 불편성 (편향이 없다), 효율성, 일치성, 충분성

구간추정 (interval estimation)

모수가 특정한 구간에 있을 것이라고 선언하는 것

추정량의 분포에 대한 전제와, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)이 주어져야 함

모분산 정보 표본 크기 사용 분포 모평균( 𝜇 ) 신뢰구간 모분산( $\sigma^2$ )신뢰구간 모비율 (P) 신뢰구간
안다 관계없음 Z-분포
$\bar{X} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$
 
$\frac{(n-1)s^2}{\chi^2_{\alpha/2}} \le \sigma^2 \le \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}}$
 
$\hat{p} \pm Z_{\alpha/2} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$
모른다 큼 (n ≥ 30) Z-분포
$\bar{X} \pm Z_{\alpha/2} \times \frac{s}{\sqrt{n}}$
모른다 작음 (n < 30) t-분포
$\bar{X} \pm t_{\alpha/2, n-1} \times \frac{s}{\sqrt{n}}$

 

 

가설 검정

특정한 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정

모집단에 대한 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정

 

모수적 검정

검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통게량의 분포를 유도해 검정을 실시하는 방법

가정된 분포의 모수에 대해 가설 설정

관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시

 

귀무가설 (null hypothesis H0)

틀리기를 기도하는 가설

비교하는 값과 차이가 없다. 동일하다를 기본 개념으로 하는 가설

 

검정통계량 (test statistic)

관찰된 표본으로부터 구하는 통계량

검정 시 가설의 진위를 판단하는 기준

 

제1종 오류( type I error) =  a

귀무가설이 사실일 때 귀무가설을 기각하는 오류

 

유의수준 (significance level, a)

귀무가설을 기각하게 되는 확률의 크기

’귀무가설이 옳은데도 이를 기각하는 확률의 크기’

1종 오류를 범할 확률의 최대 허용 한계 (유의수준 : 0.05 -> 오차 5% 이상 넘지말라는 의미)p-value가 유의수준보다 작다 (p-value 0.02라면, 오차 5%까지 허용인데 계산 결과 오차가 2% 수준이라는 의미로, 귀무가설이 틀릴 가능성이 있다.) 

 

유의확률 (P-value)

귀무가설이 사실인데 기각하는 오류를 범할 확률

p-값은 귀무가설이 참일 때, 현재 얻은 결과가 얼마나 드문 일인지를 나타내는 지표

p-값이 작을수록 현재 결과가 귀무가설 하에서 발생하기 어려운 일이라는 의미 -> 귀무가설이 틀릴 가능성이 높다

표본 데이터를 바탕으로 계산된 검정통계량(예: t-값, F-값 등)이 귀무가설로부터 얼마나 벗어나 있는지를 나타내는 확률값

 

“적합결여를 나타낸다”

독립변수 X와 종속변수 Y사이의 관계를 회귀모형으로 표현하는 것이 적절하다

 

기각역 (critical region, C)

귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 a인 부분 (반대는 채택역이라 함)

  1. “귀무가설을 기각하지 못한다”
    귀무가설이 틀렸다는 결정적인 증거를 발견하지 못했다 (귀무가설이 맞다는 것이 아님)
  1. 대립가설 (alternative hypothesis H1)
    맞다고 검증하고 싶은 가설
    뚜렷한 증거가 있을 때 주장하는 가설

 

쉽게 예를 들면,

귀무가설 (H0): 피고인은 무죄이다.
대립가설 (H1): 피고인은 유죄이다.
p-값: 귀무가설(무죄) 하에, 검사가 제시한 증거처럼 유죄를 시사하는 증거가 우연히 발생할 확률
- p-값이 크면: 제시된 증거가 우연히 발생했을 가능성이 높아, 증거의 신뢰성이 낮다. 귀무가설을 기각하기 어렵다.
- p-값이 작으면: 제시된 증거가 우연히 발생했을 가능성이 낮아, 증거의 신뢰성이 높다. 귀무가설을 기각하고 대립가설(유죄)을 채택할 근거가 강해진다.

 

비모수적 검정

추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법

관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용

관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용

가정된 분포가 없으므로 가설은 단지 ‘분포의 형태가 동일하다’ 또는 ‘분포의 형태가 동일하지 않다’와 같이 분포의 형태에 대해 설정

관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위두 관측값 차이의 부호를 이용해 검정

 

부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수

 

728x90
반응형