연관규칙기법과 분류모형을 결합한 상품 추천 시스템: G인터넷 쇼핑몰의 사례
e-CRM(Customer Relationship Management)이란? 인터넷과 이메일의 보편화로 기업은 더욱 다양한 채널을 통해 고객 정보 수집 가능 eCRM은 인터넷을 통하여 e데이터웨어하우스로 모아진 고객과 관련된 데이터를 웹 마이닝(web mining)으로 분석 데어터웨어하우스: 방대한 고객 프로파일 데이터를 저장하는 정보창고 마이닝: 데어터베이스에 숨어 있는 유용한 정보를 통계적 기법을 이용해 찾아내는 과정 인터넷과 인트라넷을 이용한 eCRM은 고객층의 정교한 세분화와 개인고객과의 1:1관계 형성을 실현
데이터 마이닝이란? Data mining (knowledge discovery in databases): 대용량의 데이터베이스에 있는 데이터로부터 패턴인식, 통계적 기법, 인공지능 기법 등을 이용하여 숨겨져 있는 데이터간의 상호 관련성 및 유용한 정보를 추출하는 단계 이 단계에서는 소비자 성향 파악을 통한 마케팅 및 판매 전략, 고객 지원 등과 같은 목적에서부터 의학 치료방법 및 범죄 방지에 이르기까지 여러 가지 목적에 따라 알고리즘을 선택 SEMBA
데이터 마이닝의 기법 데이터 마이닝 OLAP (On-Line Analytic Processing) 유전자 알고리즘 (Genetic Algorithm) 군집분석 (Cluster Analysis) 의사결정 나무 (Decision Tree) 데이터 마이닝 인공신경망 (Artificial Neural Network) 연결분석 (Link Analysis) 연관성 규칙 발견(Association Rule Discovery, Market Basket Analysis) 사례기반 추론(Case-Based Reasoning)
의사결정나무(Decision Trees) 의사결정나무를 사용하게 되면 대출거절, 카드사용승인 거절과 같이 고객에게 그 이유를 반드시 설명해야 하는 경우에 사용할 수 있다.
신경망 모형 (Neural Networks) 매우 복잡한 구조를 가진 데이터들 사이의 관계나 패턴을 찾아내는 유연한 비선형 모형(Flexible nonlinear Model)의 하나로 신경망 모형은 입력변수와 결과변수의 관계를 그리기가 어려운 복잡한 데이터에 대해서도 좋은 결과를 주며 입력변수와 결과변수의 속성이 연속형이나 이산형인 경우를 모두 다룰 수가 있어 유연하기는 하지만 설명력이 부족하여 종종 black box로 불리고 있음 신경망 모형은 인간이 어떠한 현상을 인지하게 되는 것처럼 쉽게 설명되지 않는 내부적인 작업을 수행하고 이를 통해 얻어진 결과물을 제공할 뿐 어떠한 변수가 중요한지, 어떻게 상호작용이 이루어져 그러한 결과물을 주게 되는 지에 대한 설명은 없음 설명력 (Comprehensibility) 보다는 더욱 정확한 예측을 주는 것이 더 중요하게 고려되는 경우에 이용 될 수 있을 것이다.
Classification Example 나이 가족수 직업 월수입 기대출신용액 Classifier Class 1 신용도 우량 Class 2 신용도 보통 Class 3 신용도 불량
Decision Tree Classifier 직업 ? 유 무 월수입 나이>25 <200 >=200 No Yes 데이터로부터 Decision Tree 자동생성 가능 ID3 algorithm 부양가족수 >=1 =0 기대출금 >=3000 <1000 >=1000 <3000 우량 보통 불량
Neural Network Classifier 직업유무(1/0) 우량 나이 보통 월수입 부양가족수 불량 기대출금 Input layer Hidden layer Output layer
상품추천시스템( recommender system) 제안 연관규칙기법과 분류모형을 결합한 상품 추천 시스템
상품추천시스템( recommender system) 제안 연관규칙기법과 분류모형을 결합한 상품 추천 시스템 제 1모듈(연관규칙기반 추천 모듈) 과거 구매데이터를 기준 으로 구매된 아이템간에 연관규칙을 모델화재 방문 시 연관규칙 모델을 기반으로 한 상품추천 방식 아이템간 연관규칙을 기반으로 추천하므로 아이템단위로 추천됨 제 2모듈(구매행동 예측에 대한 분류모형 기반 추천 모듈) 프로필 정보를 토대로 모델링된 고객군들의 구매추세를 기반으로 상품군 개념으로 추천
상품추천시스템( recommender system) 제안 연관규칙기법과 분류모형을 결합한 상품 추천 시스템 조정 에이전트(Coordination Agent) 각 모듈들의 추천 결과를 모아, 그 중 우수한 것을 선정 후, 최종적으로 고객에게 보여 줄 추천결과 정리하는 기능 예측된 구매 예상 상품군을 구체적인 추천상품 리스트로 전환(모듈 2의 상품군 단위 추천결과에 판매자가 입력한 상품군별 추천 상품 제공) 두 모듈에서 추천결과를 생성하지 못하는 경우 가장 많이 팔린 제품중심으로 추천결과 생성
G 온라인 쇼핑몰 사례 적용 G 온라인쇼핑몰 개요 2000년 7월 오픈한 국내 유명 다이어트 전문 온라인 쇼핑몰 현황 방대한 컨텐츠, 우수한 서비스, 신뢰도 높은 브랜드해당분야 선두 양질의 고객정보 다량 보유(연령,체중,키,질병유무,감량목표 등) 현황 구매경험이 1건이라도 있는 고객은 전체 회원의 5%수준(3,298명) 최근 3개월간 전체 구매고객의 80.44%만이 단 1건 구매
G 온라인 쇼핑몰 사례 적용 제 1모듈(연관규칙기반 추천 모듈) 평가기준 : 지지도 0.5%,신뢰도 10% 14가지 규칙 도출(표 2)
G 온라인 쇼핑몰 사례 적용
G 온라인 쇼핑몰 사례 적용 제 2모듈(구매행동 예측을 위한 분류) 4가지 상품군으로 분류하여 3가지 알고리즘 비교 (로지스틱 회계분석,인공신경망,의사결정나무 분석) 사용된 데이터셋이‘비율형 변수’보다‘범주형 변수’를 많이 포함하기 때문에 <의사결정나무> 분석이 예측력이 높게 나타남(표 4)
G 온라인 쇼핑몰 사례 적용 상품군 1>상품군 2>상품군 3>상품군 4의 순서로 추천
G 온라인 쇼핑몰 사례 적용 프로토타입 형태의 웹 기반 시스템 구축 고객정보입력 구매이력 입력 최종 추천결과 제시
G 온라인 쇼핑몰 사례 적용 적용 결과 기 확보된 고객의 정보를 최대한 활용하여, 구매이력이 없어도 효과적인 추천이 가능한 추천 알고리즘 상품군 개념을 도입하여 판매자의의도 반영 가능하게 설계 프로토타입 제시를 통해 모델에 적용 가능성을 실제로 입증 적은 연산 용량만으로도 처리 가능