[ADsP] 비지도학습 - 연관 분석

🥇 certification logbook /

[ADsP] 비지도학습 - 연관 분석

2023. 6. 5. 20:39

728x90

장바구니 분석, 서열 분석

일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용

조건과 반응의 형태(if-then)로 이루어짐

→ 시간(구매시점)이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것은 순차패턴 이라고 함

측도

지지도(support)

전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의

$지지도=P({A\bigcap B}) = {A\bigcap B \over 전체}$

신뢰도(confidence)

항목 A를 포함한 거래 중 항목 A와 항목 B가 같이 포함될 확률

$신뢰도={P({A\bigcap B})\over P(A)} = {지지도\over P(A)} $

향상도(lift) → 서로 관련 없으면 1

항목 A가 항목 B의 구매확률에 비해 항목 A가 구매됐을 때 항목 B의 구매확률의 증가 비.

항목 A를 구매한 고객 대비 항목 A가 구매한 후 항목 B를 구매하는 고객에 대한 확률.

항목 A와 항목 B의 구매가 서로 관련이 없는 경우 향상도는 1

1보다 크면 해당 규칙이 결과를 예측하는데 있어 우수하다는 것을 의미. 연관규칙의 측정 지표

$$향상도={P(B|A)\over P(B)}={P({A\bigcap B})\over P(A)P(B)} = {신뢰도\over P(B)} $$

절차

최소 지지도

최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것

최소지지도 결정 (5%정도로 잡고, 다양하게 조절하여 시도. 처음부터 너무 낮은 지지도를 선정하는 것은 많은 리소스가 소모됨)

→ 품목 중 최소 지지도를 넘는 품목 분류

→ 2가지 품목 집합 생성

→ 반복적으로 수행해 빈발품목 집합을 찾음

장점과 단점

장점

연관성 분석의 결과를 쉽게 이해할 수 있음

비목적성 분석기법으로 분석 방향이나 목적이 특별히 없는 경우 유용하게 활용

데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료 구조를 갖음

분석을 위한 계산 간단

단점

품목수가 증가하면, 필요한 계산이 기하급수적으로 늘어남 (→ 유사한 품목을 한 범주로 일반화하거나, 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외한다)

너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수 있음 (→ 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함 시킨 후 그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행할 수 있음)

거래량이 적은 품목은 규칙 발견시 제거될 수 있음 (→ 그 품목이 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 과정에 포함시킴)

최근 동향

Apriori 알고리즘

최소 지지도보다 큰 지지도 값을 갖는 품목의 집합을 빈발항목집합이라 하는데, 이 빈발항목집합들에 대해서만 연관규칙을 계산하는 것

구현과 이해하기 쉽다는 장점

아이템 개수가 많아지면 계산 복잡도가 증가한다는 문제점

FP-Growth 알고리즘

후보 빈발항목집합을 생성하지 않고 FP-Tree(Frequent Pattern Tree)를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출하는 방법

Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스를 스캔하는 횟수가 작고, 빠른 속도로 분석 가능

활용방안

장바구니 분석

실시간 상품추천을 통한 교차판매에 응용

순차패턴 분석

A를 구매한 사람인데 B를 구매하지 않은 경우 B를 추천하는 교차판매 캠패인

728x90

'🥇 certification logbook' 카테고리의 다른 글

다항 회귀 (Polynomial Regression Model) (0)	2023.06.06
단순 선형 회귀 (Simple Linear Regression Model) (0)	2023.06.06
분석환경 설정 (Visual Studio Code + 주피터노트북) (0)	2023.06.05
[ADsP] 비지도학습 - 주성분 분석(PCA) (0)	2023.06.05
[ADsP] 지도학습 - 분류 분석 (0)	2023.06.05
[ADsP] 지도학습 - 시계열 분석 (0)	2023.06.04
[ADsP] 지도학습 - 회귀분석 (0)	2023.06.04
분석환경 설정 (파이썬 + 주피터노트북 + pandas) (0)	2023.06.03

I study SO

Menu

Category

Tags

[ADsP] 비지도학습 - 연관 분석

측도

지지도(support)

신뢰도(confidence)

향상도(lift) → 서로 관련 없으면 1

절차

최소 지지도

장점과 단점

장점

단점

최근 동향

Apriori 알고리즘

FP-Growth 알고리즘

활용방안

장바구니 분석

순차패턴 분석

'🥇 certification logbook' 카테고리의 다른 글

티스토리툴바