[ADsP] 확률분포

728x90

확률 및 확률분포
1. 확률
a. 표본공간 (sample space)
어떤 실험을 실시할 때 나타날 수 있는 모든 결과물의 집합
b. 사건 (event)
관찰자가 관심이 있는 사건으로 표본공간의 부분집합
c. 원소 (element)
나타날 수 있는 개별의 결과들을 의미
d. 확률변수 (random variable)
특정값이 나타날 가능성이 확률적으로 주어지는 변수
정의역(domain)이 표본공간, 치역(range)이 실수값(0<y<1)인 함수
0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분

이산형 확률변수

셀 수 있는 값만을 가지는 확률변수

베르누이 확률분포 (bernoulli distribution)

결과가 2개만 나오는 경우

각 사건이 성공할 확률이 일정하고 전,후 사건에 독립적인 특수한 상황의 확률 분포

확률 질량 함수 (PMF): ( $P(X = x) = p^x (1-p)^{1-x}$ ), (x = 0, 1)
기댓값: ( $E(X) = p$ )
분산: ( $Var(X) = p(1-p)$ )

이항분포 (binomial distribution)

베르누이 시행을 n번 반복했을 때 k번 성공할 확률

확률 질량 함수 (PMF): ( $P(X = x) = \binom{n}{x} p^x (1-p)^{n-x} $), (x = 0, 1, 2, ..., n)
기댓값: ( $E(X) = np$ )
분산: ( $Var(X) = np(1-p)$ )

기하분포 (geometric distribution)

성공확률이 p인 베르누이 시행에서 첫번재 성공이 있기까지 x번 실패할 확률

확률 질량 함수 (PMF): ( $P(X = x) = (1-p)^{x-1} p$ ), (x = 1, 2, 3, ...)
기댓값: ( $E(X) = \frac{1}{p}$ )
분산: ( $Var(X) = \frac{1-p}{p^2}$ )

다항분포 (multnomial distribution)

이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

확률 질량 함수 (PMF): ( $P(X_1 = x_1, X_2 = x_2, ..., X_k = x_k) = \frac{n!}{x_1!x_2!...x_k!}p_1^{x_1} p_2^{x_2} ... p_k^{x_k}$ ) (단, (x_1 + x_2 + ... + x_k = n)이고 (p_1 + p_2 + ... + p_k = 1))
기댓값: ( $E(X_i) = np_i$ ) (각각의 (i)에 대해)
분산: ( $Var(X_i) = np_i(1-p_i)$ ) (각각의 (i)에 대해)
공분산: ( $Cov(X_i, X_j) = -np_ip_j$ ) (각각의 (i \neq j)에 대해)

포아송분포 (poisson distribution)

시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

확률 질량 함수 (PMF): ($ P(X = x) = \frac{ \lambda^x e^{-\lambda} }{x!} $), (x = 0, 1, 2, ...)
기댓값: ( E(X) = $\lambda$ )
분산: ( Var(X) = $\lambda$ )

연속형 확률변수

특정 구간 내의 모든 실수 값을 가질 수 있는 확률변수 (즉, 셀 수 없음)

균일분포 (일양분포, uniform distribution)

모든 확률변수 X가 균일한 확률을 가지는 확률분포

확률 밀도 함수 (PDF): ( $f(x) = \begin{cases} \frac{1}{b-a} & a \le x \le b \ 0 & \text{otherwise} \end{cases}$ )
기댓값: ( $E(X) = \frac{a+b}{2}$ )
분산: ( $Var(X) = \frac{(b-a)^2}{12}$ )

정규분포 (normal distribution)

평균이 u이고, 표준편차가 σ인 x의 확률밀도함수 표준편차가 클 경우 퍼져보이는 그래프가 나타난다.

가우시안 분포라고도 함.

확률 밀도 함수 (PDF): ( $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} = \frac{1}{ \sigma \sqrt{2\pi}} e^{{- \frac{1}{2}} ({\frac{x-\mu}{\sigma}})^2}$ )
기댓값: ( $E(X) = \mu$ )
분산: ( $Var(X) = \sigma^2$ )

표준 정규 분포 (Standard Normal Distribution)

$f(z) = \frac{1}{\sqrt{2\pi}} e^{ {- \frac{1}{2}}{z^2}}$

정규화(표준화) : $Z = \frac{X - \mu}{\sigma}$

지수분포 (exponential distribution)

어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포

확률 밀도 함수 (PDF): ( $f(x) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0 \ 0 & x < 0 \end{cases}$ )
기댓값: ( $E(X) = \frac{1}{\lambda}$ )
분산: ( $Var(X) = \frac{1}{\lambda^2}$ )

T-분포 (t-distribution)

$ T = \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) $

( $T$ ): t 통계량
( $\bar{X}$ ): 표본 평균 (sample mean)
( $\mu$ ): 모평균 (population mean)
( $S$ ): 표본 표준편차 (sample standard deviation)
( $n$ ): 표본 크기 (sample size)
( $t(n-1)$ ): 자유도가 (n-1)인 t-분포

표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포

표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포

두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용

정규분포를 따르는 모집단의 표본분포이다. (모집단을 알고 싶지만, 전수조사가 힘들기 때문에)

분류분석
회귀분석에서 회귀계수의 유의성

→ 두 개의 독립된 모집단으로부터 두 모집단의 평균이 동일한지 알고 싶을 때에는 이 표본 T검정을 쓴다.

F-분포 (f-distribution)

$ F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2) $

( $F$ ): F 통계량
( $U$ ): 자유도 (d_1)인 카이제곱 분포를 따르는 확률변수
( $V$ ): 자유도 (d_2)인 카이제곱 분포를 따르는 확률변수
( $d_1$ ): 분자 자유도 (numerator degrees of freedom)
( $d_2$ ): 분모 자유도 (denominator degrees of freedom)
( $F(d_1, d_2)$ ): 자유도가 (d_1)과 (d_2)인 F-분포

두 집단간 분산의 동일성 검정에 사용 (등분산 검정에 활용)

확률변수는 항상 양의 값만 갖고, $x^2$ 분포와 달리 자유도를 2개가지고 있으며, 자유도가 커질수록 정규분포에 가까워진다

다중선형회귀 모형 검정 (지도)
Anova 분산분석 (지도)
군집분석 (비지도)

$X^2$-분포 (chi-square distributon)

$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $

( $\chi^2$ ): 카이제곱 통계량
( $O_i$ ): i번째 범주의 관측값 (observed frequency)
( $E_i$ ): i번째 범주의 기대값 (expected frequency)
( $k$ ): 범주의 개수

모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용
두 집단 간의 동질성 검정에 활용 (범주형자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)
정규분포와 다르게 좌우 대칭은 아니지만, n이 30이상이면 정규분포에 근사

교차분석

주로 비지도학습에 사용