A CRM Consulting case with Point of Sales Data

Slides:

Advertisements

Similar presentations

5 조 - 음악학과 이수영 5 조 - 음악학과 이수영 사회복지학과 김원미 사회복지학과 김원미 신민지 신민지 이정원

Advertisements

언어의 자서전 소단원 (1) 단원. 언어의 특성 기호성 자의성 사회성 규칙성 창조성 역사성.

㈜티켓 몰 신규사업 Co-work ▣ 신용카드 결제 vs 모바일 결제 (QR 코드 ) 신용카드 결제모바일 결제 단말기시스템카드단말기 필요단말기 필요없음 초기투자비높다전혀 없음 유지비용월 유지비용 필요필요 없음 보안성단기에서 개인정보 확인 ( 정보 유출 가능 ) 개인휴대폰으로.

Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.

2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필 목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델.

성공취업! 지금부터… 면접편.

2010년도 DNI Consulting 인턴 모집요강

CRM에서의 고객 세분화를 통한 이탈방지 마케팅 전략

연관규칙기법과 분류모형을 결합한 상품 추천 시스템:

목차 1. CRM의 개념 2. CRM의 기대 효과 3. CRM의 구축/실행 4. CRM 추진의 걸림돌

서울시립대학교 전자전기컴퓨터공학부 인공지능연구실 김유상

CRM : 고객 관계 관리 Process Customer Relationship Management

장원인의 친절세상 만들기 밝고 따뜻한 장원인.

1. 던전 디자인 개요_1 1. ‘던전’ 룬스톤은 던전 한 층에도 여러 개가 존재하며, 각 룬스톤 마다 영향을 미치는 범위가 설정되어 있다. 룬스톤이 영향을 주는 범위에 일정시간 사용자가 위치해 있게 되면 사용자 캐릭터는 ‘유령화’ 되어 버리기 때문에, 사용자는.

Lec 4 Backpropagation & Neural Network

4장. 마케팅 정보 시스템과 마케팅 조사 마케팅정보시스템 마케팅조사.

(Classification – Advanced Techniques)

판별분석의 개념과 적용(→ 추계통계적 성격)

2장. 데이터의 시각적 묘사.

분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.

소매업의 POS Data 활용방법.

제4장 자연언어처리, 인공지능, 기계학습.

데이터마이닝의 소개 Data Mining Introduction

미래 예측 3가지 방법론.

제2절 법인세의 계산구조와 세무조정 1. 각 사업연도소득에 대한 법인세 계산구조 회계와 사회 결산서상 당기순이익

연관관계 분석을 통한 스마트폰과 기능의 융합 분석 서강대학교 경영전문대학원 노미정, 김진화, 이재범.

SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.

Total Profit Management

Technological Forecasting & social change(2014)

Cluster Analysis (군집 분석)

7. 자극과 반응 7-2. 신경계 3. 여러 가지 반응.

시스템 분석 및 설계.

머신 러닝 2 ㈜ 퀀트랩.

POWER POINT PRESENTATION

국가대표 생애주기교육 프로그램 참여방법 안내

SmartAnalyzerLE (Lite Edition) 메뉴얼

패턴인식 개론 패턴인식 개요 ( CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | )

세일즈분석/분석CRM을 위한 데이터마이닝 활용방안

법제도와 정부역할의 조정 이 상 호 (GS건설 대외정책전략지원위원)

정보 추출기술 (Data Mining Techniques ) : An Overview

세부 분석 절차 사업/재무성과 분석 제품/고객 분석 내부역량 분석 내부환경분석 시사점 도출 Objective

수업 첫 날 교육B 황유미 첫 수업 계획에 대해 알아보도록 하겠습니다..

Power Point 2007년 정보화교육 원미구청 총무과 통신전산팀.

Chapter 08 구조적 분석과 설계 8.1 구조적 분석(Structured Analysis)

뇌신경정보학연구사업 인지/추론 : 추론 기술 2002년 11월 15일 숭실대학교 컴퓨터학과 김명원.

연결링크 이미지를 마일리지샵 내에 기획전으로 제작하여 오픈/노출 사이즈 가로 1000/세로 상관x 배너사이즈 가로 400

자기 역할 인식 및 리더십.

회원서비스 기획, 운영(컨설턴트) 직무 내용 설명서 직군 항목 컨설턴트 직무 수행 내용 필요 지식 필요 기술 직무 수행 태도

인공지능 소개 및 1장.

장원인의 친절세상 만들기 밝고 따뜻한 장원인.

행 복 한 사 람 들 COOPERATION PROPOSAL 주식회사 해피플 더블적립카드소개

dECISION tree 모델의 갱신 시점 모니터링

비즈니스 협상의 효과(Effective)와 효율(Efficient)을 극대화 하는 협상 프로그램

택배고객판매재고관리 전용시스템 Ver “isendCRM2010” 코드나라 codenara.com

Data Analytics for Healthcare

미래를 준비하는 네트워크마케팅 구 현 모 교 수.

직장생활 예절 ① - 인사 1.내가 먼저 [인사의 5point] 2.상대방의 눈을 보고 미소지으며 3.상대방에 맞춰서

의사결정지원시스템 6조 오나연 송혜정 신은수 오경석

2018 인성교육 시행계획 광주광역시교육청 민주인권생활교육과.

1장. 서 론 데이터베이스의 개요 모델의 종류 관계형 모델과 객체 지향형 데이터베이스 SQL이란 무엇인가?

우리가 만든 학급 일과 옹달샘 12기 ver 아침시간 수업시간 쉬는시간 점심시간 하교시간

(Ⅰ) 독서와 언어의 본질 언어의 본질 1 2 [고등 국어] – 독서와 문법 독서의 본질 (1) 독서의 특성

▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행

8단계 3층을 완성한다 Case 1 Case 2 Case 3 Case 4

3차원에서 강체의 운동 : 회전축이 바뀔 수 있음 9.1. 임의의 축에 대한 강체의 회전 : 관성 모멘트, 각운동량, 운동에너지.

국제금융의 이해 I. 경제와 금융 II. 국제금융과 무역 III. 글로벌화와 국제금융 IV. 국제금융의 형태

Progress Seminar 신희안.

Python 라이브러리 딥러닝 강의소개 정성훈 연락처 : 이메일 :

Presentation transcript:

A CRM Consulting case with Point of Sales Data 김진화 2011. 06. 21

목 차 Ⅰ. 서론 Ⅱ. 이론적 배경 Ⅲ. 연구 설계 1. 자료 수집과 변수 선정 Ⅳ. 결론 2. 실험 설계 및 실행 3. 실험 결과 및 비교 분석 Ⅳ. 결론

서 론 1. CRM 분야 중 제품을 구매한 기존 고객의 정보를 기반으로 고객의 구매 패턴을 파악 기업 경쟁력 강화의 중요한 이슈가 되어버린 대량 개별화(mass customization)를 위하여, 통합 고객관계관리 프로세스로서의 CRM에 대한 관심과 요구는 증대되고 있다. 1. CRM 분야 중 제품을 구매한 기존 고객의 정보를 기반으로 고객의 구매 패턴을 파악 하고 예측함으로써 고객별로 신제품이나 서비스를 제안하는 것은 마케팅 분야에서 상당히 큰 비중을 차지함. 2. 고객관련 데이터베이스로부터 보다 정확한 정보의 획득과 활용이 필요로 되는 CRM 분야에서 데이터마이닝은 필수적인 요소임. 연구 3. 기존의 CRM 관련(상품 추천, 구매의도 예측) 데이터마이닝 기법들은 실제 활용 및 동기 예측 정확도 면에서 한계점을 가지고 있음. 고객의 구매의도 예측에 사용되는 일반적인 데이터마이닝 기법들의 한계점들을 최소화 하기 위하여, 최근 화두가 되고 있는 Support Vector Machine(SVM)을 이용하였으며, 그 성능을 기존의 기법들과 비교 및 분석해 봄. 기존 고객 구매의도 예측에 사용된 인터넷 쇼핑몰의 고객 데이터에서 벗어나 실질적인 편의점의 영수증 데이터를 기반으로 함으로써 실제 활용도를 높이고자 함.

서 론 연구 절차 1 단계 연구 목적과 관련 이론 및 문헌 제시 2 단계 연구에 필요한 데이터 수집 및 변환 3 단계 실험을 위한 데이터 추출 및 분류 4 단계 데이터 마이닝 기법들을 이용한 반복적 실험 수행 5 단계 실험 결과에 대한 비교 및 분석 6 단계 연구의 결과, 한계점 및 향후 연구 방향 제시

이론적 배경 내 용 본 연구의 궁극적 목적인 CRM 및 고객의 상품 구매의도 예측에 대해 알아보고, 데이터마이닝에 대한 정의와 관련 기법들에 대하여 간략하게 정리한다. 내 용 현대 기업이 제품 뿐만 아니라 다양한 고객 정보를 입수함으로써, 고객들과의 관계 관리 CRM 및 수익 모델 창출을 통하여 마케팅 비용 감소, 매출 증대 및 고객 이탈 방지 등과 같은 효과를 추구하는 방법론[Alex Berson 1999]. 대부분의 사업 조직이 직면하는 문제들에 대한 의사결정을 하는데 필요로 되어지며, 주로 방대한 양의 데이터베이스로부터 유용한 정보와 도움이 될 만한 지식을 추출하는 데이터 데 사용되는 기법[Ashok Savasere 1995]. 마이닝 기 의사결정나무(decision tree), 신경망(nueral network), 연관성 규칙 법 (association rule), 베이지언 망(bayesian network), SVM 고객들이 구매 또는 시험해보길 원하는 상품들에 대한 가이드를 제시하는 것으로써, 추천 상품 설명서나 새로운 관련 기사 또는 다른 제품들 등과 같은 다양한 정보를 통하여 시스템 상품을 추천하는 시스템[Burke. R. 2000].

이론적 배경 내 용 연관성 가장 일반적인 데이터마이닝 기법 중 하나로, 방대한 양의 데이터에서 규칙들을 발견 연관성 가장 일반적인 데이터마이닝 기법 중 하나로, 방대한 양의 데이터에서 규칙들을 발견 규칙 하는 것으로, 주로 장바구니 분석기법을 사용함[M. H. Margahny 2005]. 의사결정 의사결정규칙(decision rule)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으 나무 로 분류하거나 예측을 수행하는 분석방법[이극노 2003]. 신경망 생물학적 뇌의 작동 원리를 그대로 모방하는 방법으로, 데이터 안의 독특한 패턴이나 구조를 인지하는데 필요한 모델을 구축하는 도구[Kate A. Smith 2002]. 베이지언 그래프 이론과 확률 이론의 결합에 기초한 확률 그래프 모델로서, 모듈성(modularity) 망 개념하에 변수나 자질들간의 복잡한 관련성 및 의존관계를 망 구조상에서 보다 간결한 확률적 모듈들의 집합으로 표현함[Sun-Mi, Lee and Patricia A. Abbott 2003]. 로지스틱 자료가 두 모집단으로 나누어진 상황에서, 연구대상이 어떠한 모집단에 속한 지를 예 회귀분석 측하는 분류 목적으로 사용되는 통계적 분석방법[이군희 2004]. 데이터로부터 분류와 규칙을 학습하기 위한 훈련 알고리즘으로써, 통계적 학습 이론을 SVM 기반으로 하고 있음. 기본 원리는 훈련 데이터들을 서로 다른 두 개의 클래스로 분류 할 때 기준이 되는 분리경계면(hyperplane)을 학습 알고리즘을 이용하여 찾음[Robert Bu rdidge and Bernard Buxton 2001].

이론적 배경 SVM 장점 단점 연관성 규칙 미시/거시적 관점의 데이터 분석이 가능. 미시/거시적 관점의 데이터 분석이 가능. 생성되는 많은 양의 규칙 대부분이 실제 활용 가치가 적음. 의사결정 나무 적용 결과 및 분석 과정에 대한 명확하고 쉬운 이해. 새로운 자료의 예측에는 불안정. 신경망 자료에 대한 통계적 분석 없이 수행 가능하고, 실측 데이터를 처리 능력이 우수함. 모형 구축에 많은 시간이 소요되고, 모형에 대한 설명력이 부족함. 학습 진행 과정에서의 과적합화. 베이지언 망 변수들간의 상관관계를 쉽게 이해 할 수 있으며, 노드와 화살표를 이용하여 결과의 이해가 쉬움. 실질적으로 관심 있는 속성들과 연관이 없는 정보들로 인하여 데이터 자체의 축소 과정이 필요로 되어짐. 로지스틱 회귀분석 통계적 기법에 근간한 모형으로 각 변수의 영향력을 정확히 설명 가능. 예측 성과가 높지 않음. SVM - 결과 해석 용이 - 높은 성과 - 적은 자료 만으로도 신속한 분별학습 수행 가능

연구 설계 (자료 수집) - G 편의점 POS 관리 시스템 화면 - 서울시 용산구 청파동 G 편의점 1. 자료 수집 - 대상 고객의 구매 데이터(편의점 거래내역) - 장소 서울시 용산구 청파동 G 편의점 - 기간 2005년 9월 1일 ~ 2005년 12월 7일 - 데이터 수 1,334건 - 표본 POS 관리 시스템의 필드(판매일자, 판매시간, POS, 담당자, 영수증번호, 객층, 상품명, 수량, 금액, 구분) 중 ‘상품명’. - G 편의점 POS 관리 시스템 화면 -

연구 설계 (변수 선정) 2. 변수 선정 편의점 판매 제품의 종류가 다양한 관계로 총 1,334개의 데이터에 포함된 품목들을 제품의 유사상을 기준으로 21개의 카테고리로 분류하였다. <표5 참조> ID(w) 카테고리(변수) 품목 1 가공식품 동원참치, 천하장사 소시지, 유동 골뱅이, 오뚜기 3분 카레, 햄.. 2 건강음료 베지밀, 비타 600, 하늘보리, 녹차를 닮은 마음, 남양 십칠차… : 20 커피 레쓰비 마일드, 네스까페, 까페라떼, 프렌치 카페,산타페.. 21 탄산음료 코카콜라, 칠성 사이다, 데미소다, 밀키스, 맥콜, 환타.. - 입력 데이터 형태(0: 비구매 / 1:구매) <표6 참조> W N 1 2 3 4 5 6 7 - 16 17 18 19 20 21 : 1334

연구 설계 (실험 설계) 3. 실험 설계 및 실행 실험에 사용되는 데이터의 분류 및 적용 방법을 설명하고, 해당 데이터를 각각의 데이터마이닝 기법에 적용시킴으로써 예측정확도를 도출하고자 한다. 1) 데이터의 분류 및 적용 - 21개의 카테고리 변수들 중 단 하나의 카테고리 변수를 종속변수로 지정하고, 나머지 20개는 독립변수로 지정함. - 실험 결과의 신뢰성을 위하여 2번의 실험이 실행됨. - 실험 과정에서의 학습과 검증을 위하여 1,334건의 거래 내역 중 우유를 구매한 거래 500건과 우유를 구매하지 않은 거래 500건을 무작위로 추출하여 1,000건의 데이터를 생성함. 종속변수 독립변수 실험 1 우유 (17.1%) 나머지 20개의 카테고리 변수들 실험 2 냉동식품 (9.3%) 우유 구매 우유 비구매 합계 학습 데이터 400건 800건 검증 데이터 100건 200건

연구 설계 (실험 실행) 2) 데이터마이닝 기법별 실험 실행 - SVM(Support Vector Machine) LIBSVM Ver. 2.81(by Chin-Chung Chang & Chin-Jen Lin)을 이용하였으며, 실험을 위해 데이터를 텍스트 파일로 변환하였음. 목표 결과는 학습용 데이터 셋에 의해 생성된 모델이 검증용 데이터 셋의 우유에 대한 구매 여부를 얼마나 정확하게 분류 및 예측하는 것임. <그림 10. SVM 예측 결과 화면>

연구 설계 (실험 실행) - 연관성 규칙(Association Rule) 연관성 규칙을 이용한 예측 정확도를 측정하기 위하여 두 가지 알고리즘을 사용함. 첫 번째, SPSS사의 데이터마이닝 솔루션 Clementine 7.1의 GRI 사용. 최소 규칙 지지도 0%, 최소 규칙 신뢰도 50%, 최대 전항 수 3, 최대 규칙 수 100을 조건으로 설정하였으며, 본 연구의 목적이 우유를 구매하는 사람들에 대한 예측으로 이분형에 대한 참값만을 이용함. <그림 11. Clementine 7.1 GRI 알고리즘 모델>

연구 설계 (실험 실행) 두 번째, 상품들의 구매 빈도를 점수화하여 연관 정도를 파악함으로써 규칙을 추출하는 프로그램인 연관성 매트릭스(Association Matrix)를 사용. 단, 연관성 규칙은 두 가지 상품간의 연관 정도만 측정할 수 있는 단점이 있다. * 중복을 피하기 위하여 Matrix 우측에만 점수를 기입하는 것을 원칙으로 함. <그림 12. 연관성 매트릭스 모형의 예> 1 2 3 4 5 6 7 · 거래1: {3,7} · 거래2: {2,1,6} -> {1,2}, {1,6}, {2,6}

<우유 구매 거래 matrix> <우유 비구매 거래 matrix> 연구 설계 (실험 실행) <연관성 매트릭스를 이용한 우유 구매 예측에 대한 정확도 측정 과정> 800개의 훈련용 데이터에서 우유 구매 400건과 우유 비구매 400건에 대한 연관성 매트릭스를 구분해서 작성. 검증용 데이터 200건에 포함된 상품들을 연관성 매트릭스 작성원리와 같은 방법으로 상품 집합 구분. 구분된 상품 집합들을 우유 구매 400건과 우유 비구매 400건에 대한 매트릭스 각각에 대입해 봄으로써 우유 구매 여부 구분. 거래 N={1,5,6}={1,5},{1,6},{5,6} <우유 구매 거래 matrix> <우유 비구매 거래 matrix> 1 2 3 4 5 6 1 2 3 4 5 6 8 11 17 10 7 => 우유 비구매 matrix 점수의 합이 더 높음으로 거래 N은 우유를 구매하지 않음. <그림 13. Association matrix를 이용한 예측 정확도 측정 과정의 예>

연구 설계 (실험 실행) - 의사결정나무(Decision Tree) Clementine 7.1의 C5.0 알고리즘을 사용. 본 연구의 목적이 우유 제품에 대한 구매 예측의 정확도를 측정하는 것이기 때문에 목표 필드는 우유, 입력 필드는 나머지 20개의 변수로 지정하였고, 우선기준은 정확도로 설정하였음. - 신경망(Neural Network) <그림 14. Clementine 7.1의 C5.0 알고리즘 모델> <그림 15. Clementine 7.1의 신경망 알고리즘 모델>

연구 설계 (실험 실행) - 베이지안 망(Bayesian network) 실험을 위하여 BN PowerSoft package(by Jie Chen) 사용. 프로그램 특성상 기존 1,000개의 엑셀 파일을 엑세스 형태의 데이터베이스로 변환시킴. - 로지스틱 회귀분석(Logistic Regression Analysis) SPSS 12.0의 Binary Logistic Regression Analysis 사용. 종속변수는 우유, 독립변수는 우유를 제외한 20개의 카테고리 변수들로 지정. <그림 16. BN Power Predictor 실행 결과 화면> Classification Tableª Observed Predicted 우유 Percentage Correct 1 Step 1 우유 0 Overall Percentage 98 7 2 83 98.0 93.0 95.5 <그림 17. Logistic Regression Analysis 실험 결과 화면> a. The cut value is .500

연구 설계 (실험 결과) 3) 실험 결과 비교 및 분석 모든 데이터마이닝 기법에 대한 실험은 측정되는 결과의 신뢰성을 높이기 위하여 10번의 반복 실험을 하였으며, 각 실험에 적용된 데이터 셋(훈련용/학습용)은 전체 거래 내역에서 중복되지 않게 구분함. <표 7> 데이터마이닝 기법들의 우유 구매 예측 정확도에 대한 실험 결과 Association Rule (GRI) (%) Matrix (%) Bayesian Network (%) Decision Tree (C5.0) (%) Nueral Logistic Regession SVM (%) 1 15.0 52.5 66.1 85.0 93.0 92.5 2 24.0 51.5 68.6 78.0 97.0 89.0 3 51.0 66.6 88.0 92.0 4 52.0 66.7 79.0 94.0 5 67.3 82.0 6 50.5 66.4 73.0 87.0 89.5 7 65.5 77.0 83.0 87.5 8 65.1 67.0 81.0 9 64.8 74.0 86.0 10 76.0 Average 45.3 51.7 66.3 76.9 87.6 88.6 90.2

연구 설계 (실험 결과) <표 8> 데이터마이닝 기법들의 냉동식품 구매 예측 정확도에 대한 실험 결과 Association Rule (GRI) (%) Association Matrix (%) Bayesian Network (%) Decision Tree (C5.0) (%) Nueral Logistic Regession (%) SVM (%) 1 21.0 56.4 68.1 61.0 68.0 67.0 85.7 2 14.0 68.3 59.0 64.0 62.0 85.0 3 13.0 54.3 68.8 56.0 57.0 82.1 4 52.1 67.1 58.0 83.5 5 11.0 55.0 64.4 77.1 6 12.0 61.3 72.8 7 10.0 53.6 62.3 8 63.7 54.0 75.7 9 62.6 10 62.9 52.0 Average 12.5 64.9 57.8 58.8 78.3

연구 설계 (실험 결과) <표9> 우유와 냉동식품에 대한 구매 의도 예측 정확도 비교 예측 정확도 (%) 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 Association Rule Matirx Bayesian Decision Tree Nueral Network Logistic Regression SVM 데이터마이닝 기법 예측 정확도 (%) 우유 냉동식품 Average

결 론 실험의 신뢰도를 높이기 위하여 예측 목표 품목을 우유와 냉동식품으로 교차 검증하였으며, 각 품목에 대하여 모든 데이터 마이닝 기법들을 입력 데이터를 달리하여 10번씩 반복 실험하였다. 실험 결과, 전체 7가지 기법들 중에서 SVM이 가장 우수한 예측 정확도를 보여주었다. 시사점 본 연구의 목적인 고객의 상품 구매 여부를 예측하는 데는 SVM이 유용하지만, 고객들의 구매 패턴을 확인하는 데는 의사결정나무나 베이지언 망의 활용도가 높은 만큼 우수한 CRM 전략 수립을 위해서는 목적과 데이터의 형태에 따라 다양한 데이터마이닝 기법들의 적용 및 결과 조합의 능력이 필요로 된다. 한계점 - 전체 데이터의 수가 작기 때문에 데이터의 크기가 커짐에 따른 데이터마이닝 기법들의 단점을 파악할 수 없었다. - 실험에 사용된 입력 변수를 2~3개로 제한함에 따라. 본 연구의 결과가 편의점은 적용 가능할 지 모르나, 대량의 상품이 거래되는 대형 할인마트나 백화점에서는 활용도가 낮아질 수도 있다. 향후 연구 방향 연구 결과 분석에서 나타났듯이, SVM의 예측력이 로지스틱 회귀 분석이나 신경망에 비해 뛰어나긴 하지만 그 차이가 다소 미비하여, 통계적으로 유의한 수준의 우수함을 입증하지 못하였다. 따라서, 좀더 다양한 형태의 변수를 가지거나 보유하고 있는 정보의 양이 많은 데이터를 적용시켜서 그 결과를 비교함으로써 좀더 정확한 성능을 비교해 볼 필요가 있다.

감사합니다. Q & A