Presentation is loading. Please wait.

Presentation is loading. Please wait.

A CRM Consulting case with Point of Sales Data

Similar presentations


Presentation on theme: "A CRM Consulting case with Point of Sales Data"— Presentation transcript:

1 A CRM Consulting case with Point of Sales Data
김진화

2 목 차 Ⅰ. 서론 Ⅱ. 이론적 배경 Ⅲ. 연구 설계 1. 자료 수집과 변수 선정 Ⅳ. 결론 2. 실험 설계 및 실행
3. 실험 결과 및 비교 분석 Ⅳ. 결론

3 서 론 1. CRM 분야 중 제품을 구매한 기존 고객의 정보를 기반으로 고객의 구매 패턴을 파악
기업 경쟁력 강화의 중요한 이슈가 되어버린 대량 개별화(mass customization)를 위하여, 통합 고객관계관리 프로세스로서의 CRM에 대한 관심과 요구는 증대되고 있다. 1. CRM 분야 중 제품을 구매한 기존 고객의 정보를 기반으로 고객의 구매 패턴을 파악 하고 예측함으로써 고객별로 신제품이나 서비스를 제안하는 것은 마케팅 분야에서 상당히 큰 비중을 차지함. 2. 고객관련 데이터베이스로부터 보다 정확한 정보의 획득과 활용이 필요로 되는 CRM 분야에서 데이터마이닝은 필수적인 요소임. 연구 3. 기존의 CRM 관련(상품 추천, 구매의도 예측) 데이터마이닝 기법들은 실제 활용 및 동기 예측 정확도 면에서 한계점을 가지고 있음. 고객의 구매의도 예측에 사용되는 일반적인 데이터마이닝 기법들의 한계점들을 최소화 하기 위하여, 최근 화두가 되고 있는 Support Vector Machine(SVM)을 이용하였으며, 그 성능을 기존의 기법들과 비교 및 분석해 봄. 기존 고객 구매의도 예측에 사용된 인터넷 쇼핑몰의 고객 데이터에서 벗어나 실질적인 편의점의 영수증 데이터를 기반으로 함으로써 실제 활용도를 높이고자 함.

4 서 론 연구 절차 1 단계 연구 목적과 관련 이론 및 문헌 제시 2 단계 연구에 필요한 데이터 수집 및 변환 3 단계
실험을 위한 데이터 추출 및 분류 4 단계 데이터 마이닝 기법들을 이용한 반복적 실험 수행 5 단계 실험 결과에 대한 비교 및 분석 6 단계 연구의 결과, 한계점 및 향후 연구 방향 제시

5 이론적 배경 내 용 본 연구의 궁극적 목적인 CRM 및 고객의 상품 구매의도 예측에 대해 알아보고,
데이터마이닝에 대한 정의와 관련 기법들에 대하여 간략하게 정리한다. 내 용 현대 기업이 제품 뿐만 아니라 다양한 고객 정보를 입수함으로써, 고객들과의 관계 관리 CRM 및 수익 모델 창출을 통하여 마케팅 비용 감소, 매출 증대 및 고객 이탈 방지 등과 같은 효과를 추구하는 방법론[Alex Berson 1999]. 대부분의 사업 조직이 직면하는 문제들에 대한 의사결정을 하는데 필요로 되어지며, 주로 방대한 양의 데이터베이스로부터 유용한 정보와 도움이 될 만한 지식을 추출하는 데이터 데 사용되는 기법[Ashok Savasere 1995]. 마이닝 기 의사결정나무(decision tree), 신경망(nueral network), 연관성 규칙 법 (association rule), 베이지언 망(bayesian network), SVM 고객들이 구매 또는 시험해보길 원하는 상품들에 대한 가이드를 제시하는 것으로써, 추천 상품 설명서나 새로운 관련 기사 또는 다른 제품들 등과 같은 다양한 정보를 통하여 시스템 상품을 추천하는 시스템[Burke. R. 2000].

6 이론적 배경 내 용 연관성 가장 일반적인 데이터마이닝 기법 중 하나로, 방대한 양의 데이터에서 규칙들을 발견
연관성 가장 일반적인 데이터마이닝 기법 중 하나로, 방대한 양의 데이터에서 규칙들을 발견 규칙 하는 것으로, 주로 장바구니 분석기법을 사용함[M. H. Margahny 2005]. 의사결정 의사결정규칙(decision rule)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으 나무 로 분류하거나 예측을 수행하는 분석방법[이극노 2003]. 신경망 생물학적 뇌의 작동 원리를 그대로 모방하는 방법으로, 데이터 안의 독특한 패턴이나 구조를 인지하는데 필요한 모델을 구축하는 도구[Kate A. Smith 2002]. 베이지언 그래프 이론과 확률 이론의 결합에 기초한 확률 그래프 모델로서, 모듈성(modularity) 망 개념하에 변수나 자질들간의 복잡한 관련성 및 의존관계를 망 구조상에서 보다 간결한 확률적 모듈들의 집합으로 표현함[Sun-Mi, Lee and Patricia A. Abbott 2003]. 로지스틱 자료가 두 모집단으로 나누어진 상황에서, 연구대상이 어떠한 모집단에 속한 지를 예 회귀분석 측하는 분류 목적으로 사용되는 통계적 분석방법[이군희 2004]. 데이터로부터 분류와 규칙을 학습하기 위한 훈련 알고리즘으로써, 통계적 학습 이론을 SVM 기반으로 하고 있음. 기본 원리는 훈련 데이터들을 서로 다른 두 개의 클래스로 분류 할 때 기준이 되는 분리경계면(hyperplane)을 학습 알고리즘을 이용하여 찾음[Robert Bu rdidge and Bernard Buxton 2001].

7 이론적 배경 SVM 장점 단점 연관성 규칙 미시/거시적 관점의 데이터 분석이 가능.
미시/거시적 관점의 데이터 분석이 가능. 생성되는 많은 양의 규칙 대부분이 실제 활용 가치가 적음. 의사결정 나무 적용 결과 및 분석 과정에 대한 명확하고 쉬운 이해. 새로운 자료의 예측에는 불안정. 신경망 자료에 대한 통계적 분석 없이 수행 가능하고, 실측 데이터를 처리 능력이 우수함. 모형 구축에 많은 시간이 소요되고, 모형에 대한 설명력이 부족함. 학습 진행 과정에서의 과적합화. 베이지언 변수들간의 상관관계를 쉽게 이해 할 수 있으며, 노드와 화살표를 이용하여 결과의 이해가 쉬움. 실질적으로 관심 있는 속성들과 연관이 없는 정보들로 인하여 데이터 자체의 축소 과정이 필요로 되어짐. 로지스틱 회귀분석 통계적 기법에 근간한 모형으로 각 변수의 영향력을 정확히 설명 가능. 예측 성과가 높지 않음. SVM - 결과 해석 용이 - 높은 성과 - 적은 자료 만으로도 신속한 분별학습 수행 가능

8 연구 설계 (자료 수집) - G 편의점 POS 관리 시스템 화면 - 서울시 용산구 청파동 G 편의점 1. 자료 수집
- 대상 고객의 구매 데이터(편의점 거래내역) - 장소 서울시 용산구 청파동 G 편의점 - 기간 2005년 9월 1일 ~ 2005년 12월 7일 - 데이터 수 1,334건 - 표본 POS 관리 시스템의 필드(판매일자, 판매시간, POS, 담당자, 영수증번호, 객층, 상품명, 수량, 금액, 구분) 중 ‘상품명’. - G 편의점 POS 관리 시스템 화면 -

9 연구 설계 (변수 선정) 2. 변수 선정 편의점 판매 제품의 종류가 다양한 관계로 총 1,334개의 데이터에 포함된 품목들을 제품의 유사상을 기준으로 21개의 카테고리로 분류하였다. <표5 참조> ID(w) 카테고리(변수) 품목 1 가공식품 동원참치, 천하장사 소시지, 유동 골뱅이, 오뚜기 3분 카레, 햄.. 2 건강음료 베지밀, 비타 600, 하늘보리, 녹차를 닮은 마음, 남양 십칠차… : 20 커피 레쓰비 마일드, 네스까페, 까페라떼, 프렌치 카페,산타페.. 21 탄산음료 코카콜라, 칠성 사이다, 데미소다, 밀키스, 맥콜, 환타.. - 입력 데이터 형태(0: 비구매 / 1:구매) <표6 참조> W N 1 2 3 4 5 6 7 - 16 17 18 19 20 21 : 1334

10 연구 설계 (실험 설계) 3. 실험 설계 및 실행 실험에 사용되는 데이터의 분류 및 적용 방법을 설명하고, 해당 데이터를 각각의 데이터마이닝 기법에 적용시킴으로써 예측정확도를 도출하고자 한다. 1) 데이터의 분류 및 적용 - 21개의 카테고리 변수들 중 단 하나의 카테고리 변수를 종속변수로 지정하고, 나머지 20개는 독립변수로 지정함. - 실험 결과의 신뢰성을 위하여 2번의 실험이 실행됨. - 실험 과정에서의 학습과 검증을 위하여 1,334건의 거래 내역 중 우유를 구매한 거래 500건과 우유를 구매하지 않은 거래 500건을 무작위로 추출하여 1,000건의 데이터를 생성함. 종속변수 독립변수 실험 1 우유 (17.1%) 나머지 20개의 카테고리 변수들 실험 2 냉동식품 (9.3%) 우유 구매 우유 비구매 합계 학습 데이터 400건 800건 검증 데이터 100건 200건

11 연구 설계 (실험 실행) 2) 데이터마이닝 기법별 실험 실행 - SVM(Support Vector Machine)
LIBSVM Ver. 2.81(by Chin-Chung Chang & Chin-Jen Lin)을 이용하였으며, 실험을 위해 데이터를 텍스트 파일로 변환하였음. 목표 결과는 학습용 데이터 셋에 의해 생성된 모델이 검증용 데이터 셋의 우유에 대한 구매 여부를 얼마나 정확하게 분류 및 예측하는 것임. <그림 10. SVM 예측 결과 화면>

12 연구 설계 (실험 실행) - 연관성 규칙(Association Rule)
연관성 규칙을 이용한 예측 정확도를 측정하기 위하여 두 가지 알고리즘을 사용함. 첫 번째, SPSS사의 데이터마이닝 솔루션 Clementine 7.1의 GRI 사용. 최소 규칙 지지도 0%, 최소 규칙 신뢰도 50%, 최대 전항 수 3, 최대 규칙 수 100을 조건으로 설정하였으며, 본 연구의 목적이 우유를 구매하는 사람들에 대한 예측으로 이분형에 대한 참값만을 이용함. <그림 11. Clementine 7.1 GRI 알고리즘 모델>

13 연구 설계 (실험 실행) 두 번째, 상품들의 구매 빈도를 점수화하여 연관 정도를 파악함으로써 규칙을 추출하는
프로그램인 연관성 매트릭스(Association Matrix)를 사용. 단, 연관성 규칙은 두 가지 상품간의 연관 정도만 측정할 수 있는 단점이 있다. * 중복을 피하기 위하여 Matrix 우측에만 점수를 기입하는 것을 원칙으로 함. <그림 12. 연관성 매트릭스 모형의 예> 1 2 3 4 5 6 7 · 거래1: {3,7} · 거래2: {2,1,6} -> {1,2}, {1,6}, {2,6}

14 <우유 구매 거래 matrix> <우유 비구매 거래 matrix>
연구 설계 (실험 실행) <연관성 매트릭스를 이용한 우유 구매 예측에 대한 정확도 측정 과정> 800개의 훈련용 데이터에서 우유 구매 400건과 우유 비구매 400건에 대한 연관성 매트릭스를 구분해서 작성. 검증용 데이터 200건에 포함된 상품들을 연관성 매트릭스 작성원리와 같은 방법으로 상품 집합 구분. 구분된 상품 집합들을 우유 구매 400건과 우유 비구매 400건에 대한 매트릭스 각각에 대입해 봄으로써 우유 구매 여부 구분. 거래 N={1,5,6}={1,5},{1,6},{5,6} <우유 구매 거래 matrix> <우유 비구매 거래 matrix> 1 2 3 4 5 6 1 2 3 4 5 6 8 11 17 10 7 => 우유 비구매 matrix 점수의 합이 더 높음으로 거래 N은 우유를 구매하지 않음. <그림 13. Association matrix를 이용한 예측 정확도 측정 과정의 예>

15 연구 설계 (실험 실행) - 의사결정나무(Decision Tree)
Clementine 7.1의 C5.0 알고리즘을 사용. 본 연구의 목적이 우유 제품에 대한 구매 예측의 정확도를 측정하는 것이기 때문에 목표 필드는 우유, 입력 필드는 나머지 20개의 변수로 지정하였고, 우선기준은 정확도로 설정하였음. - 신경망(Neural Network) <그림 14. Clementine 7.1의 C5.0 알고리즘 모델> <그림 15. Clementine 7.1의 신경망 알고리즘 모델>

16 연구 설계 (실험 실행) - 베이지안 망(Bayesian network)
실험을 위하여 BN PowerSoft package(by Jie Chen) 사용. 프로그램 특성상 기존 1,000개의 엑셀 파일을 엑세스 형태의 데이터베이스로 변환시킴. - 로지스틱 회귀분석(Logistic Regression Analysis) SPSS 12.0의 Binary Logistic Regression Analysis 사용. 종속변수는 우유, 독립변수는 우유를 제외한 20개의 카테고리 변수들로 지정. <그림 16. BN Power Predictor 실행 결과 화면> Classification Tableª Observed Predicted 우유 Percentage Correct 1 Step 1 우유 Overall Percentage 98 7 2 83 98.0 93.0 95.5 <그림 17. Logistic Regression Analysis 실험 결과 화면> a. The cut value is .500

17 연구 설계 (실험 결과) 3) 실험 결과 비교 및 분석
모든 데이터마이닝 기법에 대한 실험은 측정되는 결과의 신뢰성을 높이기 위하여 10번의 반복 실험을 하였으며, 각 실험에 적용된 데이터 셋(훈련용/학습용)은 전체 거래 내역에서 중복되지 않게 구분함. <표 7> 데이터마이닝 기법들의 우유 구매 예측 정확도에 대한 실험 결과 Association Rule (GRI) (%) Matrix (%) Bayesian Network (%) Decision Tree (C5.0) (%) Nueral Logistic Regession SVM (%) 1 15.0 52.5 66.1 85.0 93.0 92.5 2 24.0 51.5 68.6 78.0 97.0 89.0 3 51.0 66.6 88.0 92.0 4 52.0 66.7 79.0 94.0 5 67.3 82.0 6 50.5 66.4 73.0 87.0 89.5 7 65.5 77.0 83.0 87.5 8 65.1 67.0 81.0 9 64.8 74.0 86.0 10 76.0 Average 45.3 51.7 66.3 76.9 87.6 88.6 90.2

18 연구 설계 (실험 결과) <표 8> 데이터마이닝 기법들의 냉동식품 구매 예측 정확도에 대한 실험 결과
Association Rule (GRI) (%) Association Matrix (%) Bayesian Network (%) Decision Tree (C5.0) (%) Nueral Logistic Regession (%) SVM (%) 1 21.0 56.4 68.1 61.0 68.0 67.0 85.7 2 14.0 68.3 59.0 64.0 62.0 85.0 3 13.0 54.3 68.8 56.0 57.0 82.1 4 52.1 67.1 58.0 83.5 5 11.0 55.0 64.4 77.1 6 12.0 61.3 72.8 7 10.0 53.6 62.3 8 63.7 54.0 75.7 9 62.6 10 62.9 52.0 Average 12.5 64.9 57.8 58.8 78.3

19 연구 설계 (실험 결과) <표9> 우유와 냉동식품에 대한 구매 의도 예측 정확도 비교 예측 정확도 (%)
0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 Association Rule Matirx Bayesian Decision Tree Nueral Network Logistic Regression SVM 데이터마이닝 기법 예측 정확도 (%) 우유 냉동식품 Average

20 결 론 실험의 신뢰도를 높이기 위하여 예측 목표 품목을 우유와 냉동식품으로 교차 검증하였으며,
각 품목에 대하여 모든 데이터 마이닝 기법들을 입력 데이터를 달리하여 10번씩 반복 실험하였다. 실험 결과, 전체 7가지 기법들 중에서 SVM이 가장 우수한 예측 정확도를 보여주었다. 시사점 본 연구의 목적인 고객의 상품 구매 여부를 예측하는 데는 SVM이 유용하지만, 고객들의 구매 패턴을 확인하는 데는 의사결정나무나 베이지언 망의 활용도가 높은 만큼 우수한 CRM 전략 수립을 위해서는 목적과 데이터의 형태에 따라 다양한 데이터마이닝 기법들의 적용 및 결과 조합의 능력이 필요로 된다. 한계점 - 전체 데이터의 수가 작기 때문에 데이터의 크기가 커짐에 따른 데이터마이닝 기법들의 단점을 파악할 수 없었다. - 실험에 사용된 입력 변수를 2~3개로 제한함에 따라. 본 연구의 결과가 편의점은 적용 가능할 지 모르나, 대량의 상품이 거래되는 대형 할인마트나 백화점에서는 활용도가 낮아질 수도 있다. 향후 연구 방향 연구 결과 분석에서 나타났듯이, SVM의 예측력이 로지스틱 회귀 분석이나 신경망에 비해 뛰어나긴 하지만 그 차이가 다소 미비하여, 통계적으로 유의한 수준의 우수함을 입증하지 못하였다. 따라서, 좀더 다양한 형태의 변수를 가지거나 보유하고 있는 정보의 양이 많은 데이터를 적용시켜서 그 결과를 비교함으로써 좀더 정확한 성능을 비교해 볼 필요가 있다.

21 감사합니다. Q & A


Download ppt "A CRM Consulting case with Point of Sales Data"

Similar presentations


Ads by Google