[ADsP] 확률분포

2023. 6. 3. 22:18·🥇 certification logbook
728x90
반응형
확률 및 확률분포
1. 확률
a. 표본공간 (sample space)

어떤 실험을 실시할 때 나타날 수 있는 모든 결과물의 집합
b. 사건 (event)
관찰자가 관심이 있는 사건으로 표본공간의 부분집합
c. 원소 (element)
나타날 수 있는 개별의 결과들을 의미
d. 확률변수 (random variable)
특정값이 나타날 가능성이 확률적으로 주어지는 변수
정의역(domain)이 표본공간, 치역(range)이 실수값(0<y<1)인 함수
0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분

 

이산형 확률변수

셀 수 있는 값만을 가지는 확률변수

베르누이 확률분포 (bernoulli distribution)

결과가 2개만 나오는 경우

각 사건이 성공할 확률이 일정하고 전,후 사건에 독립적인 특수한 상황의 확률 분포

 

  • 확률 질량 함수 (PMF): ( $P(X = x) = p^x (1-p)^{1-x}$ ), (x = 0, 1)
  • 기댓값: ( $E(X) = p$ )
  • 분산: ( $Var(X) = p(1-p)$ )

 

이항분포 (binomial distribution)

베르누이 시행을 n번 반복했을 때 k번 성공할 확률

 

  • 확률 질량 함수 (PMF): ( $P(X = x) = \binom{n}{x} p^x (1-p)^{n-x} $), (x = 0, 1, 2, ..., n)
  • 기댓값: ( $E(X) = np$ )
  • 분산: ( $Var(X) = np(1-p)$ )

 

기하분포 (geometric distribution)

성공확률이 p인 베르누이 시행에서 첫번재 성공이 있기까지 x번 실패할 확률

 

  • 확률 질량 함수 (PMF): ( $P(X = x) = (1-p)^{x-1} p$ ), (x = 1, 2, 3, ...)
  • 기댓값: ( $E(X) = \frac{1}{p}$ )
  • 분산: ( $Var(X) = \frac{1-p}{p^2}$ )

 

 

다항분포 (multnomial distribution)

이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

 

  • 확률 질량 함수 (PMF): ( $P(X_1 = x_1, X_2 = x_2, ..., X_k = x_k) = \frac{n!}{x_1!x_2!...x_k!}p_1^{x_1} p_2^{x_2} ... p_k^{x_k}$  ) (단, (x_1 + x_2 + ... + x_k = n)이고 (p_1 + p_2 + ... + p_k = 1))
  • 기댓값: ( $E(X_i) = np_i$ ) (각각의 (i)에 대해)
  • 분산: ( $Var(X_i) = np_i(1-p_i)$ ) (각각의 (i)에 대해)
  • 공분산: ( $Cov(X_i, X_j) = -np_ip_j$ ) (각각의 (i \neq j)에 대해)

 

포아송분포 (poisson distribution)

시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

 

  • 확률 질량 함수 (PMF): ($ P(X = x) = \frac{ \lambda^x e^{-\lambda} }{x!} $), (x = 0, 1, 2, ...)
  • 기댓값: ( E(X) = $\lambda$ )
  • 분산: ( Var(X) = $\lambda$ )

 

 

-

 

연속형 확률변수

특정 구간 내의 모든 실수 값을 가질 수 있는 확률변수 (즉, 셀 수 없음)

균일분포 (일양분포, uniform distribution)

모든 확률변수 X가 균일한 확률을 가지는 확률분포

 

  • 확률 밀도 함수 (PDF): ( $f(x) = \begin{cases} \frac{1}{b-a} & a \le x \le b \ 0 & \text{otherwise} \end{cases}$ )
  • 기댓값: ( $E(X) = \frac{a+b}{2}$ )
  • 분산: ( $Var(X) = \frac{(b-a)^2}{12}$ )

 

정규분포 (normal distribution)

평균이 u이고, 표준편차가 σ인 x의 확률밀도함수 표준편차가 클 경우 퍼져보이는 그래프가 나타난다.

가우시안 분포라고도 함.

 

  • 확률 밀도 함수 (PDF): ( $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} = \frac{1}{ \sigma \sqrt{2\pi}} e^{{- \frac{1}{2}} ({\frac{x-\mu}{\sigma}})^2}$ )
  • 기댓값: ( $E(X) = \mu$ )
  • 분산: ( $Var(X) = \sigma^2$ )
 

표준 정규 분포 (Standard Normal Distribution)

$f(z) = \frac{1}{\sqrt{2\pi}} e^{ {- \frac{1}{2}}{z^2}}$

정규화(표준화) : $Z = \frac{X - \mu}{\sigma}$

 

 

지수분포 (exponential distribution)

어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포

  • 확률 밀도 함수 (PDF): ( $f(x) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0 \ 0 & x < 0 \end{cases}$ )
  • 기댓값: ( $E(X) = \frac{1}{\lambda}$ )
  • 분산: ( $Var(X) = \frac{1}{\lambda^2}$ )

 

 

T-분포 (t-distribution)

$ T = \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) $

( $T$ ): t 통계량
( $\bar{X}$ ): 표본 평균 (sample mean)
( $\mu$ ): 모평균 (population mean)
( $S$ ): 표본 표준편차 (sample standard deviation)
( $n$ ): 표본 크기 (sample size)
( $t(n-1)$ ): 자유도가 (n-1)인 t-분포

표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포

표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포

두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용

정규분포를 따르는 모집단의 표본분포이다. (모집단을 알고 싶지만, 전수조사가 힘들기 때문에)

  • 분류분석
  • 회귀분석에서 회귀계수의 유의성

→ 두 개의 독립된 모집단으로부터 두 모집단의 평균이 동일한지 알고 싶을 때에는 이 표본 T검정을 쓴다.

 

 

F-분포 (f-distribution)

$ F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2) $

( $F$ ): F 통계량
( $U$ ): 자유도 (d_1)인 카이제곱 분포를 따르는 확률변수
( $V$ ): 자유도 (d_2)인 카이제곱 분포를 따르는 확률변수
( $d_1$ ): 분자 자유도 (numerator degrees of freedom)
( $d_2$ ): 분모 자유도 (denominator degrees of freedom)
( $F(d_1, d_2)$ ): 자유도가 (d_1)과 (d_2)인 F-분포

 

두 집단간 분산의 동일성 검정에 사용 (등분산 검정에 활용)

확률변수는 항상 양의 값만 갖고, $x^2$ 분포와 달리 자유도를 2개가지고 있으며, 자유도가 커질수록 정규분포에 가까워진다

  • 다중선형회귀 모형 검정 (지도)
  • Anova 분산분석 (지도)
  • 군집분석 (비지도)

 

$X^2$-분포 (chi-square distributon)

$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $

( $\chi^2$ ): 카이제곱 통계량
( $O_i$ ): i번째 범주의 관측값 (observed frequency)
( $E_i$ ): i번째 범주의 기대값 (expected frequency)
( $k$ ): 범주의 개수

모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용
두 집단 간의 동질성 검정에 활용 (범주형자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)
정규분포와 다르게 좌우 대칭은 아니지만, n이 30이상이면 정규분포에 근사

교차분석

주로 비지도학습에 사용

 

728x90
반응형

'🥇 certification logbook' 카테고리의 다른 글

[ADsP] 지도학습 - 분류 분석  (0) 2023.06.05
[ADsP] 지도학습 - 시계열 분석  (0) 2023.06.04
[ADsP] 지도학습 - 회귀분석  (0) 2023.06.04
분석환경 설정 (파이썬 + 주피터노트북 + pandas)  (0) 2023.06.03
[ADsP] 데이터마이닝  (0) 2023.06.03
[ADsP] 가설검증/통계  (0) 2023.06.03
[ADsP] 가설검증/통계 - 통계적 추론  (0) 2023.06.03
[ADsP] 가설검증/통계 -기술 통계  (0) 2023.05.21
'🥇 certification logbook' 카테고리의 다른 글
  • [ADsP] 지도학습 - 회귀분석
  • 분석환경 설정 (파이썬 + 주피터노트북 + pandas)
  • [ADsP] 데이터마이닝
  • [ADsP] 가설검증/통계
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (217)
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (67)
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    머신러닝
    빅데이터분석기사
    IBM
    데이터분석준전문가
    datascience
    Python
    ADsP
    인공지능 입문
    기본권의기초이론
    온라인 강의 추천
    certificate
    법학과
    민법
    방통대
    deeplearning
    형법
    근로기준법
    데이터사이언스 입문
    자격증
    Coursera
  • hELLO· Designed By정상우.v4.10.3
이소야
[ADsP] 확률분포
상단으로

티스토리툴바