교수 김진화 서강대학교 경영대학 jinhwakim@sogang.ac.kr 705-8860 경영을 위한 데이터마이닝의 활용 교수 김진화 서강대학교 경영대학 jinhwakim@sogang.ac.kr 705-8860.

Slides:



Advertisements
Similar presentations
Help your book choice Kim Seoyul Kim Jinho Kim Doyoung Go Sungmin.
Advertisements

Little Bear DVD 1 집 학습 가이드 (1) Episode Comprehension Question Let's review each dvd episode after we watched. DVD 1 DVD 1 에피소드 1. Owl’s Dilemma Question.
마케팅관리 기업경영 장흥섭 교수님 1 조 ( 이한신, 이승환 ). 1 조는 누구 ? 이한신 (69) 이승환 (71) 신화전산폼㈜ 대표 한국게이츠㈜ 전산팀장.
Personal improvement project Fall, 2015 Prof. Baekseo Seong.
Marketing Marketing - 현안과 발전 방향 ㈜ 엠포스 대표이사 박상현
W2E(Where To Eat) - interim presentation - Team: 2&1 (Two and One) SEP527 Mobile Software Development Spring Professor : Chul Chung Software Expert.
Lesson 11 What’s Your Type? 여러분의 유형은 무엇인가요 ?. What job do you want to have in the future? 여러분은 미래에 어떤 직업을 갖고 싶은가 ? p.218.
Original Laundry ­ room Items Wash bench / IronMaid ◀ 신모델 Multi- Drying cabinet ▲ 신상품 수입공급원 ㈜삼덕물산 HP PH
Marketing for Hospitality and Tourism 환대산업 마케팅의 개요 Chapter 1.
W2E(Where To Eat) - interim announcement - Team: 2&1 (Two and One) SEP527 Mobile Software Development Spring Professor : Chul Chung Software Expert.
WEEK 1 DAY 1 COURSE INTRODUCTION
Social Network Service
의료서비스 마케팅 - 3차 진료기관의 마케팅 전략 사례
자원의 종류 왜 자원개발을 해야 하는가? ▪ 인적 자원 ▪ 물적 자원 ▪ 정보 자원 : 자원봉사자 : 돈과 현물
03 편 테이블 매너 제3장 양식코스별 메뉴이해 제4장 일본식 테이블 매너 제5장 중국식 테이블 매너
1-1. How to Make a Strong First Impression vocabulary
Application guideline for International students in Inha University
Introduction to Django
Mart - Looking for the Items
어떤 과정으로 쓰면 될까.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 연관 규칙 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
English Communication 2
7장 : 캐시와 메모리.
Internet Computing KUT Youn-Hee Han
데이터마이닝의 소개 Data Mining Introduction
12. 데이터베이스 설계.
미래 예측 3가지 방법론.
Presented at 이상네트웍스&태그스토리 2008년 6월 13일 연세대학교 정보대학원 이준기 교수
기술경영 Management of Technology (MOT) - Concepts -
BSC 기법에 의한 성과지표설정방법 강사 : 오영환(달란트HR컨설팅 대표/경영학박사)
마케팅전략에서의 STP Wisdom21 Management Consulting.
I. Find out information about hydraulic management facilities (monitoring and control devices)    in Internet such as Dam, weir, gate, pump, turbine(6장),
Chapter 2. Finite Automata Exercises
Cluster Analysis (군집 분석)
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
발표자 : 홍익대학교 소프트웨어 공학 연구실 변은영 지도교수 : 김영철
계수와 응용 (Counting and Its Applications)
KMS 구현 및 활용사례 경쟁력 강화를 위한 2002년 5월 28일(화) 김 연 홍 상무 / 기술사
Student A Say “I’m going to ask you some questions about The Internet and Technology.” Are you ready?
Open Class Lesson- L2B3 Greeting (5’ 00”) Word Like Daddy, Like Mommy
Honesty is the best policy.
BaskinRobbins의 커뮤니케이션 대응전략
Professional Sales Negotiations
Write and say bye to friends,
Data Mining Final Project
Chapter4. 연관성 분석.
정보 추출기술 (Data Mining Techniques ) : An Overview
세부 분석 절차 사업/재무성과 분석 제품/고객 분석 내부역량 분석 내부환경분석 시사점 도출 Objective
Introduction to Programming Language
소프트웨어 종합설계 (Software Capstone Design)
McGraw-Hill Technology Education
9. Do You Have a Scientific Mind?
: 부정(negative)의 의미를 나타내는 접두사
강변 교회 유초등부 설교. 강변 교회 유초등부 설교 강변 교회 유초등부 설교 이에 말씀하시되 내 마음이 매우 고민하여 죽게 되었으니 너희는 여기 머물러 나와 함께 깨어 있으라 하시고(마태복음 26:38) 이에 말씀하시되 내 마음이 매우 고민하여 죽게 되었으니.
Text Mining (Parsing) with R
시스템 분석 및 설계 글로컬 IT 학과 김정기.
CEO가 가져야 할 품질 혁신 마인드.
Speaking -두 번째 강의 (Part 1 실전테스트 1,2) RACHEL 선생님
이산수학(Discrete Mathematics)
점화와 응용 (Recurrence and Its Applications)
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
소프트웨어 종합설계 (Software Capstone Design)
Analysis of Customer Behavior and Service Modeling Final Team Project
Web based Presentation & Controller Service
Presentation by Timothy Kane
Elementary Korean 2 :Chapter 7 review
Personal Brand Management
Chapter 4. Energy and Potential
Chapter 7: Deadlocks.
Sawasdee ka.
Presentation transcript:

교수 김진화 서강대학교 경영대학 jinhwakim@sogang.ac.kr 705-8860 경영을 위한 데이터마이닝의 활용 교수 김진화 서강대학교 경영대학 jinhwakim@sogang.ac.kr 705-8860

목 차 I. 데이터마이닝 1.빅데이터소개 ………………………………. 4 2. 연관관계분석 ……………………………… 59 3. 의사결정나무 ……………………………… 98 4. 인공신경망 …………………………….…. 125 5. 사례기반추론 ……………………………. 154 6. 군집분석 …………………………………… 174

II. 비정형 데이터마이닝 7. 비정형 데이터마이닝 …………………………. 209 8. 텍스트 마이닝 …………………………………… II. 비정형 데이터마이닝 7. 비정형 데이터마이닝 …………………………. 209 8. 텍스트 마이닝 ……………………………………. 219 9. 웹 마이닝 …………………………………………… 229 10. 오피니언 마이닝 ……………………………….. 232 11. 소셜데이터 마이닝 ……………………………. 237 III. 빅데이터 사례 ……………………………….. 245 IV. 빅데이터의 미래 ……………………………. 286

1. 빅데이터 소개 빅데이터란 무엇인가? 빅데이터는 어디에 활용되는가? (유용성, 대중성, 필요성)

경영과 빅데이터, 그리고 전문인력

월드컵 우승? 점쟁이 문어 대신 '여기' 물어봐 2014..07.05 (머니투데이) 독일 축구팀의 훈련 장면 월드컵 우승? 점쟁이 문어 대신 '여기' 물어봐 2014..07.05 (머니투데이) 독일 축구팀의 훈련 장면 : IoT + 빅데이터 .골키퍼를 제외한 모든 선수가 양쪽 무릎과 어깨에 총 4개의 센서를 부착 골키퍼가 장착한 것은 양쪽 손을 더해 총 6개 센서 부착 . 센서 1개당 전송되는 데이터는 1분에 1만2000여개 . 선수가 움직일 때 마다 개인별 운동량, 순간 속도, 심박수, 슈팅 동작, 공의 방향 등에 대한 수많은 데이터가 IT솔루션을 통해 실시간 분석되고 그 결과는 어느새 감독의 태블릿PC에 바로 전송 . 분석결과를 본 감독은 고개를 저으며 A선수를 부름, A선수의 심박수 등이 과거 데이터와 다른 패턴을 보이자 이상 신호를 감지하고 휴식을 지시, 그 순간 교체 투입 선수로 적합한 리스트가 주르륵 뜸

빅데이터와 집단지성 아르헨티나 VS 네델란드 ? : 관중/독자들의 SNS 데이터 분석 -> 경기 승패 예측

아르헨티나 아르헨티나와 연관단어 아르헨티나와 연관 감성단어

네델란드 네델란드와 연관단어 네델란드와 연관 감성단어

독일

경기 외적인 요소에 따른 이승엽 선수의 경기 성적 빅데이터와 스포츠 매니지먼트 경기 외적인 요소에 따른 이승엽 선수의 경기 성적 - 날씨, 관중 수, 여론 관심도 반영한 Decision Tree 분석 -

PROBLEM DEFINITION PROBLEM DATA ANALYSIS APPLICATION 대한민국 대표 4번 타자 홈런왕, 연습벌레 이.승.엽! 2013 초라한 성적 타율 0.253 홈런 13 이승엽 선수가 왜 이렇게 부진했을까?

이승엽 선수의 성적은 경기 외적인 요소에 어떤 영향을 받을까? PROBLEM DATA ANALYSIS APPLICATION PROBLEM DEFINITION 이승엽 선수의 성적은 경기 외적인 요소에 어떤 영향을 받을까? 평균기온, 풍속, 일조량, 습도, 운량 날씨 경기 당일 입장 관람객의 수 관중 수 이승엽 선수에 대한 관심도 여론

DATA DESCRIPTION PROBLEM DATA ANALYSIS APPLICATION 한국프로야구협회 기상청 Google Trend

DATA DESCRIPTION PROBLEM DATA ANALYSIS APPLICATION X2 : 관중 수 : 타율, 안타, 홈런, 타점, 사구, 삼진, 병살, 승패(10항목) X1 : 날씨 정보 : 평균기온, 풍속, 일조량, 습도, 운량(5항목) X3 : 여론 관심도 : Google Trend 데이터 N : 111개(# of 경기출전)

MODEL PROBLEM DATA ANALYSIS APPLICATION Targets X1, X2, X3  Y1: 타율(AVG) X1, X2, X3  Y2: 득점(R) X1, X2, X3  Y3: 안타(H) X1, X2, X3  Y4: 2루타(2B) X1, X2, X3  Y5: 홈런(HR) X1, X2, X3  Y6: 타점(RBI) X1, X2, X3  Y7: 사구(BB) X1, X2, X3  Y8: 삼진(SO) X1, X2, X3  Y9: 병살(Dd) X1, X2, X3  Y10: 승패(result) Targets

ANALYSIS #1. Hit PROBLEM DATA ANALYSIS APPLICATION Insight (9.0 < trend < 70) 1. 여론의 부담이 적을 때 2. 약간 더운 날씨에  안타 확률이 가장 높다 Insight “1개 이상의 안타 확률 82%”

ANALYSIS #2. BB PROBLEM DATA ANALYSIS APPLICATION Insight (2,150 < trend < 27,000) Insight “사구 얻어낼 확률 3할 이상” 관중의 수가 적어 부담이 줄고, 습도와 운량의 조건이 갖추어지면 선구안이 좋아지는 것일까? or 상대투수들의 제구가 나빠지는 것일까?  아무튼 앞자리 타순 고려!!!

ANALYSIS #3. Result PROBLEM DATA ANALYSIS APPLICATION Insight “승리할 확률 (0.9 < trend < 7.7) “승리할 확률 92%” Insight 1) 바람이 많이 불고, 2) 기온이 선선한 날, 3) 관중 수가 최소한 8천5백명 이상이 되면 승리할 확률이 무려 92%!!  바람 불고 선선한 날은 무조건 경기장으로!!!

APPLICATION PROBLEM DATA ANALYSIS APPLICATION 컨디션 조절 출전/타순 조정 경기 외적인 요소를 고려하여, 이승엽 선수 스스로의 컨디션 조절에 데이터 활용 컨디션 조절 경기 외적인 요소를 고려하여, 이승엽 선수 출전 여부 및 타순을 경기 이전에 조정 출전/타순 조정

빅데이터의 정체는 무엇인가? 빅데이터 이슈: 세계경제포럼은 2012년 떠오르는 10대 기술 중 첫 번째로 빅데이터를 선정 세계경제포럼은 2012년 떠오르는 10대 기술 중 첫 번째로 빅데이터를 선정 2012년, 2013년, 2014년 경영과 경제의 핵심 키 워드로 빅데이터가 연속 선정 빅데이터(Bigdata)가 세계적으로 모든 분야에서 화두로 떠오름

구글 트랜드에 나타난 지난 10년 간 빅데이터에 대한 관심도 변화

어떤 데이터가 빅데이터로 분류되는가? I. 대용량 데이터(Large size data) - 1 테라 이상의 데이터 사이즈 II. 연속 발생 데이터 (Incremental/ Continuous) - 실시 간 주가 데이터, GIS, sensor 데이터 III. 비정형 데이터 (Unstructured) - text, web, SNS 데이터, 그림, 소리, 비디오 등

빅데이터의 활용 및 국내외 현황

빅데이터 활용 분야

해외 기업 빅데이터 활용 현황

국내 대기업의 SNS 빅데이터 활용

빅데이터 분석의 중요성

빅데이터는 모든 곳에 있음! Lots of data is being collected and warehoused Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions Social Network

도대체 얼마나 많은 데이터가 발생하는가? Google processes 20 PB a day (2008) Facebook has 2.5 PB of user data + 15 TB/day (4/2009) eBay has 6.5 PB of user data + 50 TB/day (5/2 009) 640K 면 한 개인이 충분히 쓰죠!.

기업과 빅데이터의 중요성 . 인터넷과 같은 정보기술의 성장 및 기술 발전에 따라 기업들은 데이터베이스의 필요성이 증가 . 대량의 데이터에서 유용한 패턴과 지식을 추출하기 위해 빅데이터 기술이 필요 . 빅데이터 기술의 활용분야는 카드사의 사기 발견이나, 금융권의 대출 승인, 투자 분석, 기업의 마케팅 및 판매데이터 분석, 생산 프로세스 분석, 기타 순수 과학 분야의 자료 분석 등 매우 다양함

기업과 빅데이터 기업은 업무의 효율적인 수행을 위해 데이터 분석을 통해 고객행동패턴을 추출해내고 그 결과를 업무와 생산의 효 율성 증대 기업 경쟁력 강화를 위한 개인화/개별화 제품을 구매한 기존 고객의 정보를 기반으로 고객에게 맞 는 새로운 제품이나 서비스를 제안 고객관계관리에서는 효과적인 고객관리 전략을 개발

빅데이터 활용 사례

Government Big data analysis played a large role in Barack Obama's successful 2012 re-election campaign. The United States Federal Government owns six of the ten most powerful supercomputers in the world. 2013.10.31 – Korean Government opens data from government sectors (data.go.kr). Similar one is data.gov.uk

빅데이터 사례 카트 동선 그래프: 상품진열 37

Wild Fire in Korea(1991 – 2011) 38

Google Flue Service 39

Find Location for your business busienss 40

Crime Mapping in Sanfrancisco : 71% accuracy 41

경영 빅데이터 분석 전문가의 필요성과 역량 (빅데이터 커뮤니티) 경영 빅데이터 분석 전문가의 필요성과 역량 (빅데이터 커뮤니티) 빅데이터의 다른/유사/친척들의 이름: 데이터 사이언스 비즈니스 애널리틱스 데이터 애널리틱스 데이터 마이닝 비즈니스 인텔리전스 Machine Learning

빅데이터 분석 기획과 그 활용

빅데이터 분석 기획

데이터 분석, 지식 추출 과정

데이터 분석 전 단계 과정 시 작

2. 연관관계분석(Association Rules) Market Basket Analysis 59

What Is Association Mining? Association rule mining: Finding frequent patterns, associations, correlations, or causal structures among sets of items or objects in transaction databases, relational databases, and other information repositories. Applications: Market basket analysis, cross-marketing, catalog design, loss-leader analysis, clustering, classification, etc. Examples: Rule form: “Body ® Head [support, confidence]” buys(x, “diapers”) ® buys(x, “beers”) [0.5%, 60%] major(x, “CS”) ^ takes(x, “DB”) ® grade(x, “A”) [1%, 75%]

Support and Confidence Percent of samples contain both A and B support(A  B) = P(A ∩ B) Confidence Percent of A samples also containing B confidence(A  B) = P(B|A) Example computer  financial_management_software [support = 2%, confidence = 60%]

Association Rules: Basic Concepts Given: (1) database of transactions, (2) each transaction is a list of items (purchased by a customer in a visit) Find: all rules that correlate the presence of one set of items with that of another set of items e.g., 98% of people who purchase tires and auto accessories also get automotive services done Applications Home Electronics - What other products should the store stocks up? Retailing – Shelf design, promotion structuring, direct marketing

Rule Measures: Support and Confidence Find all the rules A  C with minimum confidence and support Support (s) probability that a transaction contains {A & C} Confidence (c) conditional probability that a transaction having {A} also contains {C} Customer buys both Customer buys diaper Customer buys beer Let minimum support 50%, and minimum confidence 50%, we have A  C (50%, 66.6%) C  A (50%, 100%)

Mining Association Rules: An Example Target: Min. support 50% Min. confidence 50% For rule A  C: support = support({A, C}) = 50% confidence = support({A, C})/support({A}) = 66.6%

An Example of Market Basket(1) There are 8 transactions on three items on A (Apple), B (Banana) , C (Carrot). Check associations for below two cases. (1) A  B (2) (A, B)  C # Basket 1 A 2 B 3 C 4 A, B 5 A, C 6 B, C 7 A, B, C 8

An Example of Market Basket(1(2) Basic probabilities are below: (1) AB (2) (A, B)  C LHS P(A) = 5/8 = 0.625 P(A,B) = 3/8 = 0.375 RHS P(B) = 5/8 = 0.625 P(C) = 5/8 = 0.625 Coverage LHS = 0.625 LHS = 0.375 Support P(A∩B) = 3/8 = 0.375 P((A,B)∩C)) = 2/8 =0.25 Confidence P(B|A)=0.375/0.625=0.6 P(C|(A,B))=0.25/0.375=0.7 Lift 0.375/(0.625*0.625)=0.96 0.25/(0.375*0.625)=1.07 Leverage 0.375 - 0.390 = -0.015 0.25 - 0.234 = 0.016

Lift What are good association rules? (How to interpret them?) If lift is close to 1, it means there is no association between two items (sets). If lift is greater than 1, it means there is a positive association between two items (sets). If lift is less than 1, it means there is a negative association between two items (sets).

Leverage Leverage = P(A∩B) - P(A)*P(B) , it has three types ① Two items (sets) are positively associated ② Two items (sets) are independent ③Two items (sets) are negatively associated

Lab on Association Rules(1) SPSS Clementine, SAS Enterprise Miner have association rules softwares. This exercise uses Magnum Opus. Go to http://www.rulequest.com and download Magnum Opus evaluation version ( click)

After you install the problem, you can see below initial screen After you install the problem, you can see below initial screen. From menu, choose File – Import Data (Ctrl – O).

Demo Data sets are already there Demo Data sets are already there. Magnum Opus has two types of data sets available: (transaction data: *.idi, *.itl) and (attribute-value data: *.data, *.nam) Data format has below two types:(*.idi, *.itl). idi (identifier-item file) itl (item list file) 001, apples 001, oranges 001, bananas 002, apples 002, carrots 002, lettuce 002, tomatoes apples, oranges, bananas apples, carrots, lettuce, tomatoes

If you open tutorial.idi using note pad, you can see the file inside as left. The example left has 5 transactions (baskets)

File – Import Data, or click . click Tutorial.idi Check Identifier – item file and click Next >.

Click Yes and click Next > …

Click Next > … What percentage of whole file you want to use? Type 50% and click Next > …

click Import Data를 클릭 Then, you can see a screen like below left.

Set things as they are. Click GO Search by: LIFT Minimum lift: 1 Maximum no. of rules: 10 Click GO

Results are saved in tutorial.out file. Below are rules derived: lettuce & carrots are associated with tomatoes with strength = 0.857 coverage = 0.042: 21 cases satisfy the LHS support = 0.036: 18 cases satisfy both the LHS and the RHS lift 3.51: the strength is 3.51 times greater than the strength if there were no association leverage = 0.0258: the support is 0.0258 (12.9 cases) greater than

lettuce & carrots  tomatoes When Lettuce and carrots are purchase then they buy tomatoes coverage = 0.042: 21 cases satisfy the LHS LHS(lettuce & carrots) = 21/500 = 0.042 support = 0.036: 18 cases satisfy both the LHS and the RHS P((lettuce & carrots) ∩ tomatoes)) = 18/500 = 0.036 strength(confidence) = 0.857 P(support|LHS)= 18/21 = 0.036/0.042 = 0.857

lift 3.51: the strength is 3.51 times greater than the strength if there were no association 즉, (18/21)/(122/500) = 3.51 leverage = 0.0258: the support is 0.0258 (12.9 cases) greater than if there were no association P(LHS ∩ RHS) – P(A)*P(B) = 0.036 – 0.042*0.244 = 0.0258

Cases on Association Rules

CASE 1: Icecream -Target Brands & Variables

1. Icecream -Target Brands & Variables Varaibles Gusttimo Baskin Robbins Natture Haagen-dazs Etc. Taste Price Mood Distance Brand Image Service Rumor

Where do you visit the most for ice cream? 2. Questionnaires Where do you visit the most for ice cream? ①.Gusttimo ②.Baskin Robbins ③.Natture ④.Haagen-daz ⑤. Red Mango ⑥. Palazzo ⑦.etc Why do you visit there? ①.Taste ②.Price ③.Mood ④ .Distance ⑤. Image ⑥. Service ⑦. Rumor

Not important-------------Most important 3. Questionnaire Method Choose the number below according to your value level when you choose to eat ice cream Classification Not important-------------Most important Taste (1) (2) (3) (4) (5) (6) (7) Price Mood Distance Image Service Rumor

4. Average value on each variables

5. Derive rules by using Magnum Opus Mood -> Red Mango [Coverage=0.025 (4); Support=0.019 (3); Strength=0.750; Lift=4.11; Leverage=0.0143 (2.3); p=0.0195] Red Mango -> Mood [Coverage=0.182 (29); Support=0.019 (3); Strength=0.103; Baskin -> distance [Coverage=0.390 (62); Support=0.145 (23); Strength=0.371; Lift=2.03; Leverage=0.0735 (11.7); p=1.28E-006] distance -> Baskin [Coverage=0.182 (29); Support=0.145 (23); Strength=0.793; Gustimo -> Taste [Coverage=0.258 (41); Support=0.233 (37); Strength=0.902; Lift=1.56; Leverage=0.0835 (13.3); p=3.18E-007] Taste -> Gustimo [Coverage=0.579 (92); Support=0.233 (37); Strength=0.402; 87

CASE 2: Lotte World

Problem Definition & constraints Phases Alternatives Contents 1 Problem Definition & constraints Phases Alternatives 1. Using RFID 2. Exit Poll 4. Result Example 5. Effectiveness & application

Problem Definition & Phases 2 - Attraction locating : avoid conflict between target segments - inefficient customer route  Lower customer satisfaction Constraints - Attraction re-location : Impossible Phases 1. Data Mining 2. Using Model 3. Finding efficient customer route & Promotion strategy 4. Max (Customer satisfaction)

Indicating & Choice of Alternatives HOW – Association Rules 3 Association Rules Indicating & Choice of Alternatives 1. Using RFID - Clear understanding about customer’s moving route, location, time - Technical Difficulty, and Heavy cost 2. Exit Poll - Easy application - Light cost - Limit in data : quantity, quality Survey : Let customers to check all facilities they rode Make Market-Basket Association Rules Analysis : based on Market-Basket

Survey Example 4 Basic information gender age Marriage Children ※ Mark Attractions that you rode today For Lotteworld Adventure For Magic Island Adventure of Sinbad ( ) Atlantis Spain Pirate Ship Gyro Drop Frog Hooper Gyro Swing Marry-go-round Bunge Drop Crazy Bumper Car Comet Express Kids Bumper car Marry-go-Round 3 Ball Battle Sky Surfing Flume Ride Bumper car Giant Roop Ghost House Marry-go-round 2 Castle Music Show Illusion Odyssey Fantasy Dream Out-Law Automoblile Racing 4D Movies Kingdom of Children Magic Theater EureKa Puppet Theater Geneve Excursion Ship French Revolution Lake Boat Jungle Adventure World Monorail Rage of Parao Balloon Travel dynamic Theater Animal Theater Garden Stage Concert Street Concert Parade Basic information gender age Marriage Children Age of Children Place of Residence others

Result Example & Applications 5 1. Student (age 12~18) - P(Gyro drop  Atlantis) : 70% 2. Parents with Little children - P(Marry-go-Round  Kids Bumpercar) : 60% Applications We will be able to check : Who is using what kind of facilities Finding Effective Route Making Promotion Strategy Locate extra store at specific customer’s route

CASE 3: Gmart case

: Gmart located at Yongsan Data Collection : Gmart located at Yongsan - Customer data POS data from daily transaction - Location Chung-pa dong, Yongsa,, Seoul - Period 2005. 9. 1 ~ 2005. 12. 7. - Number of data 1,334 cases - Contents in the data POS fields names(date, time, POS manager, receipt number, product name , quantity, amount, classification) - G mart system screen -

Data Cookies, Milk Yogurt ,Frozen fool Bear, Cookies, Coffee Milk, Water .

Extracted Association Rule Water is associated with Cookies with strength = 0.500 coverage = 0.002: 2 cases satisfy the LHS support = 0.001: 1 case satisfies both the LHS and the RHS lift 500.00: the strength is 500.00 times greater than the strength if there were no association leverage = 0.0010: the support is 0.0010 (1.0 case) greater than if there were no association is associated with Coffee and Newspaper