기술통계 (descriptive statistic)
통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미
확률의 계산
확률의 덧셈
두 사건 A 또는 B가 일어날 확률을 구하는 방법
- 합사건: P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
- P(A ∪ B): 사건 A 또는 B가 일어날 확률
- P(A): 사건 A가 일어날 확률
- P(B): 사건 B가 일어날 확률
- P(A ∩ B): 사건 A와 B가 동시에 일어날 확률
- 배반사건: P(A ∪ B) = P(A) + P(B)
- 배반사건은 동시에 일어날 수 없는 사건
- P(A ∩ B) = 0
확률의 곱셈
두 사건 A와 B가 연속적으로 일어날 확률을 구하는 방법입
- 일반적인 경우: P(A ∩ B) = P(A) * P(B|A)
- P(A ∩ B): 사건 A와 B가 동시에 일어날 확률
- P(A): 사건 A가 일어날 확률
- P(B|A): 사건 A가 일어났을 때 사건 B가 일어날 확률 (조건부 확률)
- 독립사건: P(A ∩ B) = P(A) * P(B)
- 독립사건은 한 사건이 다른 사건에 영향을 주지 않는 경우입니다.
- P(B|A) = P(B) 또는 P(A|B) = P(A)
- P(A ∩ B) = P(A) * P(B)
- 독립사건은 한 사건이 다른 사건에 영향을 주지 않는 경우입니다.
조건부 확률
어떤 사건 A가 일어났다는 조건 하에 다른 사건 B가 일어날 확률
- P(B|A) = $\frac{P(A ∩ B)}{P(A)}$ (단, P(A) ≠ 0)
통계량에 의한 자료 정리
- 중심위치
중앙값
자료를 크기순으로 나열할 때 중앙에 위치하는 자료값 - 산포
분산
$S^2={1\over{n-1}}{\sum_{\begin{subarray}{l}{i=1}\end{subarray}}({X_i-\overline{X}}})^2={1\over{n-1}}({\sum_{\begin{subarray}{l}{i=1}\end{subarray}}{X_i^2-n\overline{X}^2}})$
표준편차
$S = \sqrt{S^2}=\sqrt{{1\over{n-1}}{\sum_{\begin{subarray}{l}{i=1}\end{subarray}}({X_i-\overline{X}}})^2}$
사분위수범위 (interquartile range)
IOR = Q3-Q1
사분위수
사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값
제 1사분위수 Q1 = 25백분위수
제 2사분위수 Q2 = 50백분위수
제 3사분위수 Q3 = 75백분위수
백분위수
${{(n-1)p}\over{100+1}} 번째값$
변동계수(상대 표준 편차, coefficient of variation)
변동계수는 분포의 퍼짐 정도를 비교하게 해줌
$V={{S}\over{\overline{X}}}$
평균의 표준오차 (표준오차)
$SE(x)={{S}\over{\sqrt{n}}}$
평균절대편차
평균절대편차는 - 각 측정값과 평균 사이의 거리의 평균
분포의 형태
- 왜도 분포의 비대칭정도를 나타내는 측도
양수
오른쪽으로 긴 꼬리를 갖는 분포
최빈값<중앙값<평균
0
좌우가 대칭인 분포
최빈값=중앙값=평균
음수
왼쪽으로 긴 꼬리를 갖는 분포
평균<중앙값<최빈값
- 첨도 분포의 중심에서 뾰족한 정도를 나타내는 측도
양수
표준정규분포보다 더 뾰족
0
표준정규분포와 유사
음수
표준정교분포보다 덜 뾰족
-
그래프를 이용한 자료 정리 (EDA)
▪ 막대그래프
범주형으로 구분된 데이터를 표현, 범주의 순서를 의도에 따라 바꿀 수 있음
▪ 히스토그램
도수분포표를 그래프로 나타낸 것
연속형으로 표시된 데이터를 표현하며 임의로 순서를 바꿀 수 없고 막대의 간격이 없음
히스토그램은 분포의 봉우리와 산포를 확인할 수 있다
히스토그램에서 양쪽 끝의 고립된 막대가 특이치를 의미함
연속형 자료에 적합하며, 범주형 자료는 막대 그래프 사용
히스토그램은 표본 크기가 20전후일 때 사용, 표본 크기가 너무 작으면 각 막대에 데이터 분포를 정확하게 표시하기에 충분한 데이터 점이 포함되지 않을 수 있음
계급의 수는 2^k ≥ n을 만족하는 최소의 정수
계급의 수는 log_2n=k에서 최소의 정수
(k = 계급수, n = 데이터수)
계급의 간격은 (최대값-최소값)/계급수
▪모자이크 플롯(mosaic plot)
범주형 변수들 간의 관계를 시각화하는 그래프
특히, 두 개 이상의 범주형 변수들을 조합하여 만든 다차원 테이블에서 상호작용(interaction)을 나타내기 위해 사용
여러가지의 정보를 직사각형 으로 나누어 표현할 수 있음
▪ 줄기-잎 그림
데이터를 줄기와 잎의 모양으로 그린 그림
▪ 상자 그림 (box plot)
다섯 숫자 요약을 통해 그림으로 표현 (최소값, Q1, Q2, Q3, 최대값)
중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같고 절반은 이 값보다 크거나 같다
사분위 간 범위 상자는 데이터의 중간 50%를 나타내며, 제1사분위수와 제3사분위수 값을 거리를 보여준다 상자박스는 그룹간 분포 차이를 비교할 수 있으며, 그 차이는 통계적으로 유의미함을 보일 수는 없다
상자그림은 그룹 간 분포 차이를 비교할 수 있다
사분위수범위(IQR)
Q3-Q1
안울타리 (이상치)
이상치로 판단된 경우 제거 여부는 해당 분야의 전문가와 상의하여 판별해야 한다. (마음대로 제거하는 것이 아니라)
Q1-1.5*IQR, Q3+1.5*IQR
바깥울타리
Q1-3*IQR, Q3+3*IQR
보통이상점
안쪽 울타리와 바깥 울타리 사이에 있는 자료
극단이상점
바깥울타리 밖의 자료
ESD 알고리즘
평균으로부터 3*표준편차 밖의 값들
-
인과관계
종속변수(반응변수,결과변수, y)
다른 변수의 영향을 받는 변수
독립변수(설명변수,예측변수, x)
영향을 주는 변수
산점도(scatter plot)
좌표평면 위에 점들로 표현한 그래프
공분산(covariance)
두 확률변수 X,Y의 방향의 조합(선형성)
Cov(X,Y) = E[(X-ux)(Y-uy)]
부호만으로 두 변수간의 방향성을 확인 가능 , 공분산의 부호가 +면 두 변수는 양의 방향성, 공분산의 부호가 -면 두 변수는 음의 방향성을 가짐X,Y가 서로 독립이면 Cov(X,Y)=0
상관분석 df.corr()
두 변수 간의 관계의 정도를 알아보기 위한 분석 방법
두 변수의 상관관계를 알아보기 위해 상관계수를 이용
피어슨 상관분석
등간척도 이상으로 측정된 두 변수들의 선형적 상관관계 측정 방식
정규성 가정
연속형 변수
대부분 많이 사용 피어슨
r(적률상관계수) 사용 → 0이면 상관관계X
스피어만 상관분석
서열척도인 두 변수들의 선형/비선형 상관관계 측정 방식
순서형 변수, 비모수적 방법
순위를 기준으로 상관관계 측정
순위상관계수(p, 로우) 사용
가설검정 (t검정통계량 이용)
상관계수 r이 0이면 입력변수 x와 출력변수 y사이에는 아무런 관계가 없음
t검정통계량을 통해 얻은 p-value 값이 0.05 이하인 경우, 대립가설을 채택하게되어 상관계수를 활용할 수 있음
-
교차분석
변수 간의 연간 관계를 볼 때 교차표를 작성하여 변수들 간 관계를 분석하게 됨
교차 분석에 사용되는 검정 통계량이 카이스퀘어 분포를 다루기 때문에 카이스퀘어 검정이라 함
교차 분석은 두 변수 부류가 범주형이어야 함
교차표로 두 변수의 값이 공유하고 있는 빈도수가 몇 개인지 파악할 수 있음
'🥇 certification logbook' 카테고리의 다른 글
| [ADsP] 확률분포 (0) | 2023.06.03 |
|---|---|
| [ADsP] 데이터마이닝 (0) | 2023.06.03 |
| [ADsP] 가설검증/통계 (0) | 2023.06.03 |
| [ADsP] 가설검증/통계 - 통계적 추론 (0) | 2023.06.03 |
| [ADsP] 데이터 거버넌스 체계 수립 (0) | 2023.05.21 |
| [ADsP] 분석 거버넌스 체계 수립, 분석 수준 진단 (0) | 2023.05.21 |
| [ADsP] 분석 마스터 플랜 (0) | 2023.05.21 |
| [ADsP] 분석 프로젝트 관리 방안 (0) | 2023.05.21 |
