Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter4. 연관성 분석.

Similar presentations


Presentation on theme: "Chapter4. 연관성 분석."— Presentation transcript:

1 Chapter4. 연관성 분석

2 데이터의 탐색 1) 연관성규칙발견(Support, Confidence, Lift) 2) 순차적 패턴발견
3) 군집분석의 기본원리 4) 군집분석의 활용

3 연관성 규칙 (Association Rule)

4 목차 What? : Market Basket Analysis Association Rule 적용분야 Result Pattern How to use ? : Market Basket Analysis Association Rule Analysis - Probability The Basic Steps in Market Basket Analysis 장단점 사용예제

5 시장 바구니 분석 (연관성 규칙 발견) 이란 ? Window 청정재 clear 오렌지 주스 우유 바나나
하나의 거래나 사건에 포함되어 있는 항목들의 경향을 파악해서 상호 연관성을 발견 하는 것 EX) Products in Shop Cart (One trip, Together) 1) 구매자가 제품을 구매할 때 이웃의 영향이 있었는가? 2) 오렌지 주스와 청정재 구입시 윈도우 클리너를 같이 구입하는가? 3) 우유를 바나나 구입시 함께 구입하는가? 또한 구입 할 때 특정 브랜드를 구입 하는가? 4) 청정재를 어는 곳에 위치시켜야지만 판매고를 최대화하는가? Window clear 청정재 우유 바나나 오렌지 주스

6 거래(transaction)와 항목(item)
- Market Basket Analysis는 하나 또는 여러 개 의 product 나 service offering 의 거래와 이 거래에 대한 정보에서 시작. Ex) 마크로의 Point-Of-Sale Transaction customer Set of products 오렌지 주스, 바나나 오렌지 주스, 우유 청정제, Window Cleaner 1 2 3 transaction item

7 연관성 규칙 (Association Rule) - 어떤 Item 집합의 존재가 다른 Item 집합의 존재를 암시하는
것을 의미하며 다음과 같이 표시한다. - 함께 구매하는 상품의 조합이나 서비스 패턴 발견하는데 이용 - 특정 제품 또는 사건들이 동시에 발생 하는 패턴을 파악하는데 이용 EX) 가정 용품 판매 기간 동안 같이 판매해야 하는 상품의 패턴 발견 (Item set A) (Item set B ) ( if A then B : 만일 A 가 일어나면 B 가 일어난다. )

8 연관성 규칙 적용분야 교차 판매 ( Cross Selling ) 상품 진열 ( Inventory Display )
연관성 규칙 적용분야 교차 판매 ( Cross Selling ) 상품 진열 ( Inventory Display ) Catalog Design - 상품의 배치문제, 패키지 상품의 구성, 쿠폰 발행, 카탈로그의 구성, 신상품의 카테고리 선정

9 연관성 규칙 결과 유형 Useful Result - 마케팅 전략상 유용한 결과가 나온 경우
- 마케팅 전략상 유용한 결과가 나온 경우 EX) 주말을 위해, 목요일 소매점에 기저귀를 사러 온 아빠들은 맥주도 함께 사 간다. - 주말에 FOOTBALL을 보면서 마심 Trivial Result - 기존의 마케팅 전략에 의해 연관성이 높게 나온 경우 EX) 정비계약을 맺은 소비자들은 많은 설비를 구매 할 것 같다. - 정비계약은 대개의 경우 따로 맺어지는 것이 아니라, 많은 설비 구입시 함께 제시된다. Inexplicable Result - 의미를 발견하기 위해 많은 고민이 필요한 경우 EX) 새로 철물점을 개업하면, 대개 화장실 문고리를 많이 사 간다.

10 Co-occurrence of Product(횟수)
시장 바구니 분석의 기본 개념 고객의 구매 상품 List Co-occurrence of Product(횟수) 소주 , 콜라 ,맥주 ID 판매 상품 소주 , 콜라 , 와인 소주 , 주스 콜라 , 맥주 주스 소주 , 콜라 , 맥주 5 소주 , 콜라 ,맥주 , 와인 소주 맥주 콜라 주스 와인

11 1. 단순 패턴의 발견 - 소주와 콜라 , 맥주와 콜라가 다른 combination보다 많이 발생 - 주스는 맥주, 콜라, 와인 과는 결코 함께 구매되지 않는다. 연관성 규칙 발견 2. 연관성 규칙의 예 - 맥주를 구입한 사람들 모두는 콜라도 구매한다. 위에서 제시된 연관성 규칙은 얼마나 유용할까? 이 질문을 해결하기 위해 수치적으로 나타내는 것이 필요하고 , 이 수치적인 계산에는 확률을 사용한다.

12 연관성 규칙 측량화 방법 지지도 (Support)
연관성 규칙 측량화 방법 지지도 (Support) - 전체 거래 중 항목 X와 항목 Y를 동시에 포함하는 거래가 어느 정도인가 ? - 전체적 구매도에 대한 경향을 파악 - Reflexive(재귀 법칙) :

13 - 항목 X를 포함하는 거래 중에서 항목 Y가 포함될 확률은 어느 정도인가 ?
신뢰도(Confidence) - 항목 X를 포함하는 거래 중에서 항목 Y가 포함될 확률은 어느 정도인가 ? - 조건부확률 - 연관성의 정도 - not symmetric

14 리프트 ( Lift / improvement )
- 항목 X를 구매한 경우 그 거래가 항목 Y를 포함하는 경우와 항목 Y가 임의로 구매되는 경우의 비는 ? Lift 의 미 1 두 품목이 서로 독립적인 관계 두 품목이 서로 양의 상관 관계 두 품목이 서로 음의 상관 관계 > 1 < 1 과자와 후추 빵과 버터 지사제,변비약

15 1. 신뢰도의 값이 크면 좋지만 신뢰도가 크다고 최선의 연관성 규칙이라고 볼 수는 없다.
고려 사항 1. 신뢰도의 값이 크면 좋지만 신뢰도가 크다고 최선의 연관성 규칙이라고 볼 수는 없다. - 두 항목의 기본적인 구매율이 어느 정도 수준이 되어야만 의미가 있다. 즉, 지지도가 어는 정도 수준에 도달 해야만 한다. 2. 신뢰도와 지지도는 자주 구매되는 항목에 대해서는 연관성 때문이 아니라 우연하게 높게 나올 수도 있다 - Lift를 본다. 3. 신뢰도가 높을 경우에는 X  Y에서 항목 Y의 확률이 커야지 이 연관성 규칙에 의미가 있다. - Lift 값이 1보다 커야 유용한 정보가 된다.

16 The Basic Steps in Market Basket Analysis
choosing the right set of item and right level - taxonomy(관리도)를 이용 co-occurrence matrix 작성과 확률 ( 지지도, 신뢰도, Lift ) 계산 확률 분석과 유용한 연관성 규칙 결정

17 장 / 단점 장점 1. 결과가 명확하고 이해하기 쉽다. 2. 자료구조와 계산과정이 간단하다. 단점
1. 항목의 수를 결정하기가 어렵다. 2. 드물게 발생하는 항목에 대해서 처리가 어렵다. 3. DBMS등과 같은 전산화 작업이 없을 시는 동일한 거래를 추적하기가 힘들다. 4. 항목의 수가 증가하면 계산시간이 급격히 증가한다.

18 Lift = P(콜라|맥주) / P(콜라) = 1/ (4/6) = 1.5
시장 바구니 분석 예제 고객의 구매 상품 List 지지도가 50% 이상인 연관성 규칙 소주 , 콜라 , 맥주 ID 판매 상품 소주 , 콜라 , 와인 소주 , 주스 콜라 , 맥주 5 소주 , 콜라 ,맥주 , 와인 주스 소주 , 콜라 ,맥주 지지도 50% 이상인 규칙 해당 Transaction 신뢰도 소주 => 콜라 ,2, % 콜라 => 맥주 ,4, % 맥주 => 콜라 ,4, % Lift = P(콜라|맥주) / P(콜라) = 1/ (4/6) = 1.5 * 연관성 규칙 : 맥주를 구입한 사람들 모두는(100%) 콜라도 구매한다 - 그리고 이러한 경향을 가지는 사람들은 전체의 절반(50%) 정도이다 - 맥주 구매 시 콜라를 구입하게 될 가능성은 맥주 구매가 전제되지 않았을 경우보다 1.5배나 높아진다.

19 기 타 Sequences Association Rules Discovery Dissociation Rules Discovery
A B : A라는 사건이 발생한 후 B가 발생 예제 : 새 컴퓨터를 구입한 사람 중 25%는 그 다음날에 레이저 프린터를 구입할 것이다. Dissociation Rules Discovery If ~A and ~B then ~C If ~A and B then ~C If A and ~B then ~C If ~A and ~B then C If ~A and B then C If A and ~B then C

20 시장 바구니 분석 예제 #2 7,991명의 고객의 고객에 대한 은행의 상품과 서비스 자료

21 당좌예금계좌 보통예금계좌 - 지지도(Support) 54.17% - 신뢰도(Confidence) 87.56% - 향상도(Lift) 1.02

22 보통예금계좌와 당좌예금계좌는 독립적인 사건으로서 지지도와 신뢰도가 높은 것은 연관성에 의해서 아닌 대다수 고객들이 신청했기 때문

23 Disassociation Rule 보통예금계좌 - 지지도(Support) 54.14% - 신뢰도(Confidence)
87.50% - 향상도(Lift) 1.06 단기금융저축예금계좌가 없는 고객

24 ATM 상품 정책

25 당좌예금계좌 보통예금계좌

26 The End 감사합니다


Download ppt "Chapter4. 연관성 분석."

Similar presentations


Ads by Google