장바구니 분석, 서열 분석
일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용
조건과 반응의 형태(if-then)로 이루어짐
→ 시간(구매시점)이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것은 순차패턴 이라고 함
측도
지지도(support)
전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의
$지지도=P({A\bigcap B}) = {A\bigcap B \over 전체}$
신뢰도(confidence)
항목 A를 포함한 거래 중 항목 A와 항목 B가 같이 포함될 확률
$신뢰도={P({A\bigcap B})\over P(A)} = {지지도\over P(A)} $
향상도(lift) → 서로 관련 없으면 1
항목 A가 항목 B의 구매확률에 비해 항목 A가 구매됐을 때 항목 B의 구매확률의 증가 비.
항목 A를 구매한 고객 대비 항목 A가 구매한 후 항목 B를 구매하는 고객에 대한 확률.
항목 A와 항목 B의 구매가 서로 관련이 없는 경우 향상도는 1
1보다 크면 해당 규칙이 결과를 예측하는데 있어 우수하다는 것을 의미. 연관규칙의 측정 지표
-
절차
최소 지지도
최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것→ 품목 중 최소 지지도를 넘는 품목 분류
→ 2가지 품목 집합 생성
→ 반복적으로 수행해 빈발품목 집합을 찾음
-
장점과 단점
장점
연관성 분석의 결과를 쉽게 이해할 수 있음
비목적성 분석기법으로 분석 방향이나 목적이 특별히 없는 경우 유용하게 활용
데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료 구조를 갖음
분석을 위한 계산 간단
단점
품목수가 증가하면, 필요한 계산이 기하급수적으로 늘어남 (→ 유사한 품목을 한 범주로 일반화하거나, 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외한다)
너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수 있음 (→ 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함 시킨 후 그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행할 수 있음)
거래량이 적은 품목은 규칙 발견시 제거될 수 있음 (→ 그 품목이 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 과정에 포함시킴)
-
최근 동향
Apriori 알고리즘
최소 지지도보다 큰 지지도 값을 갖는 품목의 집합을 빈발항목집합이라 하는데, 이 빈발항목집합들에 대해서만 연관규칙을 계산하는 것
구현과 이해하기 쉽다는 장점
아이템 개수가 많아지면 계산 복잡도가 증가한다는 문제점
FP-Growth 알고리즘
후보 빈발항목집합을 생성하지 않고 FP-Tree(Frequent Pattern Tree)를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출하는 방법
Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스를 스캔하는 횟수가 작고, 빠른 속도로 분석 가능
-
활용방안
장바구니 분석
실시간 상품추천을 통한 교차판매에 응용
순차패턴 분석
A를 구매한 사람인데 B를 구매하지 않은 경우 B를 추천하는 교차판매 캠패인
'🥇 certification logbook' 카테고리의 다른 글
다항 회귀 (Polynomial Regression Model) (0) | 2023.06.06 |
---|---|
단순 선형 회귀 (Simple Linear Regression Model) (0) | 2023.06.06 |
분석환경 설정 (Visual Studio Code + 주피터노트북) (0) | 2023.06.05 |
[ADsP] 비지도학습 - 주성분 분석(PCA) (0) | 2023.06.05 |
[ADsP] 지도학습 - 분류 분석 (0) | 2023.06.05 |
[ADsP] 지도학습 - 시계열 분석 (0) | 2023.06.04 |
[ADsP] 지도학습 - 회귀분석 (0) | 2023.06.04 |
분석환경 설정 (파이썬 + 주피터노트북 + pandas) (0) | 2023.06.03 |