[ADsP] 군집분석
·
🥇 certification logbook
유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도 군집 분석요인 분석판별 분석(유형분석)유사 그룹 구분하여 특성 파악 (군집 끼리 비교)유사 변수를 묶어 단순화이미 그룹은 존재하고 새 데이터를 할당 거리 계산연속형 변수인 경우유클리디안 거리 (통계적 개념 X, 산포 고려 X, 유사성 측정, 제곱의 루트)데이터간의 유사성을 측정할 때 많이 사용하는 거리통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되어 있지 않음공통으로 점수를 매긴 항목의 크기를 통해 판단하는 측도$$d(x,y) = \sqrt{(x_1-y_1)^..
[ADsP] 비지도학습 - 자기조직화지도(SOM) & 다차원척도법(MDS)
·
🥇 certification logbook
자기조직화지도(SOM) 코호넨 맵이라고도 알려져 있음 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 구성 입력층(input layer) 입력 변수의 개수와 동일한 뉴런 수 존재 학습을 통하여 경쟁층에 정렬되는 것을 지도라 부름 입력층의 뉴런은 경쟁층의 뉴런들과 연결되어 있으며, 완전 연결되어 있음 경쟁층(competitive layer) 경쟁 학습으로 연결강도를 반복적으로 재조정하여 학습. 연결강도는 입력패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨 입력 층의 표본 벡터에 가장 가까운 프로토타입 벡터를 선택해 BMU(Best-Matching-Unit)라 부름 승자 독점의 학습 규칙에 따라 위상학적 이웃에 대한 연결 강도를 조정하고, 경쟁층에는 승자 뉴런만..
[ADsP] 비지도학습 - 주성분 분석(PCA)
·
🥇 certification logbook
여러 변수들의 변량을 ‘주성분’이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해줌 상관관계가 높은 다중공선성을 상관성이 없는 주성분으로 축소 후 모형에 활용 → 추가로 군집분석을 수행하면 군집화 결과의 연산속도를 개선할 수 있음 # 데이터 불러오기 data(USArrests) # 주성분분석 수행 pca
[ADsP] 비지도학습 - 연관 분석
·
🥇 certification logbook
장바구니 분석, 서열 분석 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 조건과 반응의 형태(if-then)로 이루어짐 → 시간(구매시점)이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것은 순차패턴 이라고 함 측도 지지도(support) 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의 $지지도=P({A\bigcap B}) = {A\bigcap B \over 전체}$ 신뢰도(confidence) 항목 A를 포함한 거래 중 항목 A와 항목 B가 같이 포함될 확률 $신뢰도={P({A\bigcap B})\over P(A)} = {지지도\over P(A)} $ 향상도(lift) → 서로 관련 없으면 1 항목 A가 항목 B의 구매확률에 비해 항목 A가 구매됐..
[ADsP] 지도학습 - 분류 분석
·
🥇 certification logbook
우편물에 인쇄된 우편번호 판별 분석을 통해 우편물 자동 분류동일 차종의 수리 보고서 데이터를 분석하여 차량 수리에 소요되는 시간 예측 의사결정나무 분석library(party)# iris 데이터셋 로드data(iris)# 의사결정나무 모형 생성model  활용세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용효과의 파악 분석 과정성장 단계적절한 최적의 분리규칙을 찾고, 적절한 정지규칙을 만족하면 중단 1. 분리규칙최적 분리 규칙 → 순수도 ↑(이산형) 카이제곱 통계량 p값 ↓ 지니지수 ↓ 엔트로피 지수 ↓(연속형) 분산분석 F통계량 p값 ↓ 분산의 감소량 ↑ 이산형 목표변수a. 카이제곱 통계량 P값$ \chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}$P값이 가장..
[ADsP] 지도학습 - 시계열 분석
·
🥇 certification logbook
시간의 흐름에 따라 관찰된 값 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용  시계열 자료의 종류비정상성 시계열 자료대부분의 시계열 자료 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없음정상성 시계열 자료다루기 쉬운 시계열 자료로 변환한 자료 정상성이란?모든 시점에 대해 일정한 평균을 가짐 (→ 차분)→ 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화. 차분이란 현 시점의 자료값에서 전 시점의 자료를 빼는 방법분산도 시점에 의존하지 않고 일정해야 함 (→ 변환)→ 분산이 일정하지 않은 경우 변환(Transformation)을 통해 정상화공분산은 단지 시차에만 의존하고 실제 특정 시점에는 의존하지 않는다. 일변량 시계열분석(단변량 시계열분석)..
[ADsP] 지도학습 - 회귀분석
·
🥇 certification logbook
독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법 독립변수의 개수가 하나이면 단순선형회귀분석 독립변수의 개수가 두개이상이면 다중선형회귀분석 ANOVA(분산분석) 분산분석은 독립변수(요인)가 종속변수(반응변수)의 평균에 미치는 영향력을 검정하고, 요인 간에 통계적인 유의미한 차이가 있는지를 판단하는데 사용 ANOVA table 사후 검정 방법 Tukey 검정, Bonferroni 검정, Fisher’ LSD - 결정계수($R^2$) 전체 데이터를 회귀모형이 설명할 수 있는 설명력을 의미 (단순회귀분석에서 결정계수는 상관계수(r)의 제곱과 같음) 전체제곱합에서 회귀제곱합의 비율(SSR/SST) 변수..
[ADsP] 확률분포
·
🥇 certification logbook
확률 및 확률분포1. 확률a. 표본공간 (sample space)어떤 실험을 실시할 때 나타날 수 있는 모든 결과물의 집합b. 사건 (event)관찰자가 관심이 있는 사건으로 표본공간의 부분집합c. 원소 (element)나타날 수 있는 개별의 결과들을 의미d. 확률변수 (random variable)특정값이 나타날 가능성이 확률적으로 주어지는 변수정의역(domain)이 표본공간, 치역(range)이 실수값(00이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분 이산형 확률변수셀 수 있는 값만을 가지는 확률변수베르누이 확률분포 (bernoulli distribution)결과가 2개만 나오는 경우각 사건이 성공할 확률이 일정하고 전,후 사건에 독립적인 특수한 상황의 확률 분포..
[ADsP] 데이터마이닝
·
🥇 certification logbook
대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법통계분석과의 차이 통계분석 : 가설이나 가정에 따른 분석이나 검증 데이터마이닝 : 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법 추진단계목적 설정데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적 설정. 목적에 따라 사용할 모델과 필요한 데이터 정의데이터 준비데이터 정제를 통해 데이터의 품질을 보장하고 충분한 양의 데이터를 확보데이터 가공목적 변수를 정의, 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공데이터 마이닝 기법 적용명확한 목적에 맞게 데이터마이닝 기법을 적용하여 정보 추출검증데이터마이닝으로 추출된 정보 검증, 최적 모델 선정, 데이터마이닝 결과 업무에 적용, 추가수익과 투자대비성과(ROI)등으..
[ADsP] 가설검증/통계
·
🥇 certification logbook
가설검증/통계탐색적 자료 분석 (EDA)해당 변수의 분포 등을 시각화하여 분석하는 분석 방식4가지 주제저항성의 강조 자료변수의 재표현 그래프를 통한 현시성 잔차계산 통계 자료 획득 방법총 조사 / 전수조사대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용하지 않음 표본 조사용어 모집단 (population) 조사하고자 하는 대상 집단 전체 원소 (element) 모집단을 구성하는 개체 표본 (sample) 조사하기 위해 추출한 모집단의 일부 원소 모수 (parameter) 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 표본오차 (sampling error) 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차 비표본오차 (non-samplin..