의사 결정 트리(decision tree) 고객 행동 예측 방안으로 고객의 특정 정보를 기준으로 다른 항목을 분류 예) 고객의 나이를 기준으로 자동차 잡지의 구입 여부 분류, 기준 설정 그림 4.22 44.5세 이상은 1%만이 구독, 이하는 62%가 구독 트리 레벨의 확장 수입이 높은 사람(34.5이상)은 잡지 구독을 안함 수입이 34.5보다 낮고, 나이가 31.5세 이하의 사람은 자동차 잡지에 대한 관심이 높다.
자동차 잡지에 대한 의사결정트리
자동차 잡지의 4-레벨 의사결정트리
자동차 잡지의 3차원 의사결정트리
의사 결정 트리 기법의 특징 장점 단점 대규모 데이터 집합으로 확장 용이 의사결정 과정을 직관적으로 제공 신경망의 경우 결론 도달 과정은 블랙박스 단점 주택 잡지 구독자 분석의 예: 그림 4.26 명확한 분류가 안되는 경우 발생
주택 잡지의 의사결정트리
연관 규칙(association rule) 데이타베이스 고객의 성별, 자동차의 색상과 차종, 애완동물의 종류, 구매하고자 하는 제품의 개수에 관한 정보 마이닝을 통한 관련성 규칙의 예 “빨간 스포츠카와 작은 개를 가진 90%의 주부들이 Chanel No. 5를 사용한다” 연관 규칙의 중요성 측정 척도 마이닝 결과는 많은 연관 규칙을 제시 잡음(noise) 정보와 중요 정보를 판단
연관 규칙 (계속) 연관 규칙의 표현 지지율(support) 신뢰도(confidence) MUSIC_MAG, HOUSE_MAG => CAR_MAG 음악과 주택 잡지 구독자는 자동차 잡지를 구독한다. 지지율(support) DB의 총 instance 비율 위의 경우, 전체 고객 중 음악/주택/자동차 잡지 구독자의 비율 신뢰도(confidence) 음악/주택 잡지 구독자 중에서, 자동차 잡지 구독자 비율
단일 항목간의 연관 분석 유머/음악, 자동차/음악이 관련이 큼.
연관 규칙의 대화식 분석 자동차 잡지의 경우, 그림 4.28 신뢰도: 33%, 지지율 3% 이상의 결과만 제시 분석 결과 SPORT_MAG => CAR_MAG (36%, 45%) MUSIC_MAG => CAR_MAG (96%, 15%) 신뢰도와 지지율이 상당히 높음. COMIC_MAG => CAR_MAG (57%, 8%)
자동차 잡지에 대한 이진 연관
대화식 분석 결과 음악잡지를 포함한 연관 분석 음악/주택을 포함한 연관 분석 MUSIC_MAG, HOUSE_MAG => CAR_MAG (97%, 9%), 의미 있는 결과 도출 MUSIC_MAG, SPORTS_MAG => CAR_MAG (95%, 6%) MUSIC_MAG, COMIC_MAG => CAR_MAG (100%, 4%) 음악/주택을 포함한 연관 분석 그림 4.30
음악 잡지가 포함된 연관 분석