728x90
반응형

 

장바구니 분석, 서열 분석

일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용

조건과 반응의 형태(if-then)로 이루어짐

→ 시간(구매시점)이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것은 순차패턴 이라고 함

측도

지지도(support)

전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의

$지지도=P({A\bigcap B}) = {A\bigcap B \over 전체}$

 

신뢰도(confidence)

항목 A를 포함한 거래 중 항목 A와 항목 B가 같이 포함될 확률

$신뢰도={P({A\bigcap B})\over P(A)} = {지지도\over P(A)} $

 

향상도(lift) → 서로 관련 없으면 1

항목 A가 항목 B의 구매확률에 비해 항목 A가 구매됐을 때 항목 B의 구매확률의 증가 비.

항목 A를 구매한 고객 대비 항목 A가 구매한 후 항목 B를 구매하는 고객에 대한 확률.

항목 A와 항목 B의 구매가 서로 관련이 없는 경우 향상도는 1

1보다 크면 해당 규칙이 결과를 예측하는데 있어 우수하다는 것을 의미. 연관규칙의 측정 지표

 

-

 

절차

최소 지지도

최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것
최소지지도 결정 (5%정도로 잡고, 다양하게 조절하여 시도. 처음부터 너무 낮은 지지도를 선정하는 것은 많은 리소스가 소모됨)

→ 품목 중 최소 지지도를 넘는 품목 분류

→ 2가지 품목 집합 생성

→ 반복적으로 수행해 빈발품목 집합을 찾음

 

-

 

장점과 단점

장점

연관성 분석의 결과를 쉽게 이해할 수 있음

비목적성 분석기법으로 분석 방향이나 목적이 특별히 없는 경우 유용하게 활용

데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료 구조를 갖음

분석을 위한 계산 간단

단점

품목수가 증가하면, 필요한 계산이 기하급수적으로 늘어남 (→ 유사한 품목을 한 범주로 일반화하거나, 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외한다)

너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수 있음 (→ 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함 시킨 후 그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행할 수 있음)

거래량이 적은 품목은 규칙 발견시 제거될 수 있음 (→ 그 품목이 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 과정에 포함시킴)

 

-

 

최근 동향

Apriori 알고리즘

최소 지지도보다 큰 지지도 값을 갖는 품목의 집합을 빈발항목집합이라 하는데, 이 빈발항목집합들에 대해서만 연관규칙을 계산하는 것

구현과 이해하기 쉽다는 장점

아이템 개수가 많아지면 계산 복잡도가 증가한다는 문제점

FP-Growth 알고리즘

후보 빈발항목집합을 생성하지 않고 FP-Tree(Frequent Pattern Tree)를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출하는 방법

Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스를 스캔하는 횟수가 작고, 빠른 속도로 분석 가능

 

-

 

활용방안

장바구니 분석

실시간 상품추천을 통한 교차판매에 응용

순차패턴 분석

A를 구매한 사람인데 B를 구매하지 않은 경우 B를 추천하는 교차판매 캠패인

 

728x90
반응형