Download presentation
Presentation is loading. Please wait.
Published byMolly Cameron Modified 6년 전
1
교수 김진화 서강대학교 경영대학 jinhwakim@sogang.ac.kr 705-8860
경영을 위한 데이터마이닝의 활용 교수 김진화 서강대학교 경영대학
2
목 차 I. 데이터마이닝 1.빅데이터소개 ………………………………. 4 2. 연관관계분석 ……………………………… 59
3. 의사결정나무 ……………………………… 98 4. 인공신경망 …………………………….…. 125 5. 사례기반추론 ……………………………. 154 6. 군집분석 …………………………………… 174
3
II. 비정형 데이터마이닝 7. 비정형 데이터마이닝 …………………………. 209 8. 텍스트 마이닝 ……………………………………
II. 비정형 데이터마이닝 7. 비정형 데이터마이닝 ………………………… 텍스트 마이닝 …………………………………… 웹 마이닝 …………………………………………… 오피니언 마이닝 ……………………………… 소셜데이터 마이닝 ……………………………. 237 III. 빅데이터 사례 ……………………………… IV. 빅데이터의 미래 ……………………………. 286
4
1. 빅데이터 소개 빅데이터란 무엇인가? 빅데이터는 어디에 활용되는가? (유용성, 대중성, 필요성)
5
경영과 빅데이터, 그리고 전문인력
6
월드컵 우승? 점쟁이 문어 대신 '여기' 물어봐 2014..07.05 (머니투데이) 독일 축구팀의 훈련 장면
월드컵 우승? 점쟁이 문어 대신 '여기' 물어봐 (머니투데이) 독일 축구팀의 훈련 장면 : IoT + 빅데이터 .골키퍼를 제외한 모든 선수가 양쪽 무릎과 어깨에 총 4개의 센서를 부착 골키퍼가 장착한 것은 양쪽 손을 더해 총 6개 센서 부착 . 센서 1개당 전송되는 데이터는 1분에 1만2000여개 . 선수가 움직일 때 마다 개인별 운동량, 순간 속도, 심박수, 슈팅 동작, 공의 방향 등에 대한 수많은 데이터가 IT솔루션을 통해 실시간 분석되고 그 결과는 어느새 감독의 태블릿PC에 바로 전송 . 분석결과를 본 감독은 고개를 저으며 A선수를 부름, A선수의 심박수 등이 과거 데이터와 다른 패턴을 보이자 이상 신호를 감지하고 휴식을 지시, 그 순간 교체 투입 선수로 적합한 리스트가 주르륵 뜸
7
빅데이터와 집단지성 아르헨티나 VS 네델란드 ? : 관중/독자들의 SNS 데이터 분석 -> 경기 승패 예측
8
아르헨티나 아르헨티나와 연관단어 아르헨티나와 연관 감성단어
9
네델란드 네델란드와 연관단어 네델란드와 연관 감성단어
10
독일
11
경기 외적인 요소에 따른 이승엽 선수의 경기 성적
빅데이터와 스포츠 매니지먼트 경기 외적인 요소에 따른 이승엽 선수의 경기 성적 - 날씨, 관중 수, 여론 관심도 반영한 Decision Tree 분석 -
12
PROBLEM DEFINITION PROBLEM DATA ANALYSIS APPLICATION 대한민국 대표 4번 타자
홈런왕, 연습벌레 이.승.엽! 2013 초라한 성적 타율 홈런 13 이승엽 선수가 왜 이렇게 부진했을까?
13
이승엽 선수의 성적은 경기 외적인 요소에 어떤 영향을 받을까?
PROBLEM DATA ANALYSIS APPLICATION PROBLEM DEFINITION 이승엽 선수의 성적은 경기 외적인 요소에 어떤 영향을 받을까? 평균기온, 풍속, 일조량, 습도, 운량 날씨 경기 당일 입장 관람객의 수 관중 수 이승엽 선수에 대한 관심도 여론
14
DATA DESCRIPTION PROBLEM DATA ANALYSIS APPLICATION 한국프로야구협회 기상청
Google Trend
15
DATA DESCRIPTION PROBLEM DATA ANALYSIS APPLICATION X2 : 관중 수
: 타율, 안타, 홈런, 타점, 사구, 삼진, 병살, 승패(10항목) X1 : 날씨 정보 : 평균기온, 풍속, 일조량, 습도, 운량(5항목) X3 : 여론 관심도 : Google Trend 데이터 N : 111개(# of 경기출전)
16
MODEL PROBLEM DATA ANALYSIS APPLICATION Targets
X1, X2, X3 Y1: 타율(AVG) X1, X2, X3 Y2: 득점(R) X1, X2, X3 Y3: 안타(H) X1, X2, X3 Y4: 2루타(2B) X1, X2, X3 Y5: 홈런(HR) X1, X2, X3 Y6: 타점(RBI) X1, X2, X3 Y7: 사구(BB) X1, X2, X3 Y8: 삼진(SO) X1, X2, X3 Y9: 병살(Dd) X1, X2, X3 Y10: 승패(result) Targets
17
ANALYSIS #1. Hit PROBLEM DATA ANALYSIS APPLICATION Insight
(9.0 < trend < 70) 1. 여론의 부담이 적을 때 2. 약간 더운 날씨에 안타 확률이 가장 높다 Insight “1개 이상의 안타 확률 82%”
18
ANALYSIS #2. BB PROBLEM DATA ANALYSIS APPLICATION Insight
(2,150 < trend < 27,000) Insight “사구 얻어낼 확률 3할 이상” 관중의 수가 적어 부담이 줄고, 습도와 운량의 조건이 갖추어지면 선구안이 좋아지는 것일까? or 상대투수들의 제구가 나빠지는 것일까? 아무튼 앞자리 타순 고려!!!
19
ANALYSIS #3. Result PROBLEM DATA ANALYSIS APPLICATION Insight “승리할 확률
(0.9 < trend < 7.7) “승리할 확률 92%” Insight 1) 바람이 많이 불고, 2) 기온이 선선한 날, 3) 관중 수가 최소한 8천5백명 이상이 되면 승리할 확률이 무려 92%!! 바람 불고 선선한 날은 무조건 경기장으로!!!
20
APPLICATION PROBLEM DATA ANALYSIS APPLICATION 컨디션 조절 출전/타순 조정
경기 외적인 요소를 고려하여, 이승엽 선수 스스로의 컨디션 조절에 데이터 활용 컨디션 조절 경기 외적인 요소를 고려하여, 이승엽 선수 출전 여부 및 타순을 경기 이전에 조정 출전/타순 조정
21
빅데이터의 정체는 무엇인가? 빅데이터 이슈: 세계경제포럼은 2012년 떠오르는 10대 기술 중 첫 번째로 빅데이터를 선정
세계경제포럼은 2012년 떠오르는 10대 기술 중 첫 번째로 빅데이터를 선정 2012년, 2013년, 2014년 경영과 경제의 핵심 키 워드로 빅데이터가 연속 선정 빅데이터(Bigdata)가 세계적으로 모든 분야에서 화두로 떠오름
22
구글 트랜드에 나타난 지난 10년 간 빅데이터에 대한 관심도 변화
23
어떤 데이터가 빅데이터로 분류되는가? I. 대용량 데이터(Large size data) - 1 테라 이상의 데이터 사이즈
II. 연속 발생 데이터 (Incremental/ Continuous) - 실시 간 주가 데이터, GIS, sensor 데이터 III. 비정형 데이터 (Unstructured) - text, web, SNS 데이터, 그림, 소리, 비디오 등
24
빅데이터의 활용 및 국내외 현황
25
빅데이터 활용 분야
26
해외 기업 빅데이터 활용 현황
27
국내 대기업의 SNS 빅데이터 활용
28
빅데이터 분석의 중요성
30
빅데이터는 모든 곳에 있음! Lots of data is being collected and warehoused
Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions Social Network
31
도대체 얼마나 많은 데이터가 발생하는가? Google processes 20 PB a day (2008)
Facebook has 2.5 PB of user data + 15 TB/day (4/2009) eBay has 6.5 PB of user data + 50 TB/day (5/2 009) 640K 면 한 개인이 충분히 쓰죠!.
32
기업과 빅데이터의 중요성 . 인터넷과 같은 정보기술의 성장 및 기술 발전에 따라 기업들은 데이터베이스의 필요성이 증가
. 대량의 데이터에서 유용한 패턴과 지식을 추출하기 위해 빅데이터 기술이 필요 . 빅데이터 기술의 활용분야는 카드사의 사기 발견이나, 금융권의 대출 승인, 투자 분석, 기업의 마케팅 및 판매데이터 분석, 생산 프로세스 분석, 기타 순수 과학 분야의 자료 분석 등 매우 다양함
33
기업과 빅데이터 기업은 업무의 효율적인 수행을 위해 데이터 분석을 통해 고객행동패턴을 추출해내고 그 결과를 업무와 생산의 효 율성 증대 기업 경쟁력 강화를 위한 개인화/개별화 제품을 구매한 기존 고객의 정보를 기반으로 고객에게 맞 는 새로운 제품이나 서비스를 제안 고객관계관리에서는 효과적인 고객관리 전략을 개발
34
빅데이터 활용 사례
35
Government Big data analysis played a large role in Barack Obama's successful 2012 re-election campaign. The United States Federal Government owns six of the ten most powerful supercomputers in the world. – Korean Government opens data from government sectors (data.go.kr). Similar one is data.gov.uk
37
빅데이터 사례 카트 동선 그래프: 상품진열 37
38
Wild Fire in Korea(1991 – 2011) 38
39
Google Flue Service 39
40
Find Location for your business busienss
40
41
Crime Mapping in Sanfrancisco : 71% accuracy
41
42
경영 빅데이터 분석 전문가의 필요성과 역량 (빅데이터 커뮤니티)
경영 빅데이터 분석 전문가의 필요성과 역량 (빅데이터 커뮤니티) 빅데이터의 다른/유사/친척들의 이름: 데이터 사이언스 비즈니스 애널리틱스 데이터 애널리틱스 데이터 마이닝 비즈니스 인텔리전스 Machine Learning
55
빅데이터 분석 기획과 그 활용
56
빅데이터 분석 기획
57
데이터 분석, 지식 추출 과정
58
데이터 분석 전 단계 과정 시 작
59
2. 연관관계분석(Association Rules)
Market Basket Analysis 59
60
What Is Association Mining?
Association rule mining: Finding frequent patterns, associations, correlations, or causal structures among sets of items or objects in transaction databases, relational databases, and other information repositories. Applications: Market basket analysis, cross-marketing, catalog design, loss-leader analysis, clustering, classification, etc. Examples: Rule form: “Body ® Head [support, confidence]” buys(x, “diapers”) ® buys(x, “beers”) [0.5%, 60%] major(x, “CS”) ^ takes(x, “DB”) ® grade(x, “A”) [1%, 75%]
61
Support and Confidence
Percent of samples contain both A and B support(A B) = P(A ∩ B) Confidence Percent of A samples also containing B confidence(A B) = P(B|A) Example computer financial_management_software [support = 2%, confidence = 60%]
62
Association Rules: Basic Concepts
Given: (1) database of transactions, (2) each transaction is a list of items (purchased by a customer in a visit) Find: all rules that correlate the presence of one set of items with that of another set of items e.g., 98% of people who purchase tires and auto accessories also get automotive services done Applications Home Electronics - What other products should the store stocks up? Retailing – Shelf design, promotion structuring, direct marketing
63
Rule Measures: Support and Confidence
Find all the rules A C with minimum confidence and support Support (s) probability that a transaction contains {A & C} Confidence (c) conditional probability that a transaction having {A} also contains {C} Customer buys both Customer buys diaper Customer buys beer Let minimum support 50%, and minimum confidence 50%, we have A C (50%, 66.6%) C A (50%, 100%)
64
Mining Association Rules: An Example
Target: Min. support 50% Min. confidence 50% For rule A C: support = support({A, C}) = 50% confidence = support({A, C})/support({A}) = 66.6%
65
An Example of Market Basket(1)
There are 8 transactions on three items on A (Apple), B (Banana) , C (Carrot). Check associations for below two cases. (1) A B (2) (A, B) C # Basket 1 A 2 B 3 C 4 A, B 5 A, C 6 B, C 7 A, B, C 8
66
An Example of Market Basket(1(2)
Basic probabilities are below: (1) AB (2) (A, B) C LHS P(A) = 5/8 = 0.625 P(A,B) = 3/8 = 0.375 RHS P(B) = 5/8 = 0.625 P(C) = 5/8 = 0.625 Coverage LHS = 0.625 LHS = 0.375 Support P(A∩B) = 3/8 = 0.375 P((A,B)∩C)) = 2/8 =0.25 Confidence P(B|A)=0.375/0.625=0.6 P(C|(A,B))=0.25/0.375=0.7 Lift 0.375/(0.625*0.625)=0.96 0.25/(0.375*0.625)=1.07 Leverage = = 0.016
67
Lift What are good association rules? (How to interpret them?)
If lift is close to 1, it means there is no association between two items (sets). If lift is greater than 1, it means there is a positive association between two items (sets). If lift is less than 1, it means there is a negative association between two items (sets).
68
Leverage Leverage = P(A∩B) - P(A)*P(B) , it has three types
① Two items (sets) are positively associated ② Two items (sets) are independent ③Two items (sets) are negatively associated
69
Lab on Association Rules(1)
SPSS Clementine, SAS Enterprise Miner have association rules softwares. This exercise uses Magnum Opus. Go to and download Magnum Opus evaluation version ( click)
70
After you install the problem, you can see below initial screen
After you install the problem, you can see below initial screen. From menu, choose File – Import Data (Ctrl – O).
71
Demo Data sets are already there
Demo Data sets are already there. Magnum Opus has two types of data sets available: (transaction data: *.idi, *.itl) and (attribute-value data: *.data, *.nam) Data format has below two types:(*.idi, *.itl). idi (identifier-item file) itl (item list file) 001, apples 001, oranges 001, bananas 002, apples 002, carrots 002, lettuce 002, tomatoes apples, oranges, bananas apples, carrots, lettuce, tomatoes
72
If you open tutorial.idi using note pad, you can see the file inside as left.
The example left has 5 transactions (baskets)
73
File – Import Data, or click . click Tutorial.idi
Check Identifier – item file and click Next >.
74
Click Yes and click Next > …
75
Click Next > … What percentage of whole file you want to use? Type 50% and click Next > …
76
click Import Data를 클릭 Then, you can see a screen like below left.
77
Set things as they are. Click GO Search by: LIFT Minimum lift: 1
Maximum no. of rules: 10 Click GO
78
Results are saved in tutorial.out file. Below are rules derived:
lettuce & carrots are associated with tomatoes with strength = 0.857 coverage = 0.042: 21 cases satisfy the LHS support = 0.036: 18 cases satisfy both the LHS and the RHS lift 3.51: the strength is 3.51 times greater than the strength if there were no association leverage = : the support is (12.9 cases) greater than
79
lettuce & carrots tomatoes
When Lettuce and carrots are purchase then they buy tomatoes coverage = 0.042: 21 cases satisfy the LHS LHS(lettuce & carrots) = 21/500 = 0.042 support = 0.036: 18 cases satisfy both the LHS and the RHS P((lettuce & carrots) ∩ tomatoes)) = 18/500 = 0.036 strength(confidence) = 0.857 P(support|LHS)= 18/21 = 0.036/0.042 = 0.857
80
lift 3.51: the strength is 3.51 times greater than the strength if there were no association
즉, (18/21)/(122/500) = 3.51 leverage = : the support is (12.9 cases) greater than if there were no association P(LHS ∩ RHS) – P(A)*P(B) = – 0.042*0.244 =
81
Cases on Association Rules
82
CASE 1: Icecream -Target Brands & Variables
83
1. Icecream -Target Brands & Variables
Varaibles Gusttimo Baskin Robbins Natture Haagen-dazs Etc. Taste Price Mood Distance Brand Image Service Rumor
84
Where do you visit the most for ice cream?
2. Questionnaires Where do you visit the most for ice cream? ①.Gusttimo ②.Baskin Robbins ③.Natture ④.Haagen-daz ⑤. Red Mango ⑥. Palazzo ⑦.etc Why do you visit there? ①.Taste ②.Price ③.Mood ④ .Distance ⑤. Image ⑥. Service ⑦. Rumor
85
Not important-------------Most important
3. Questionnaire Method Choose the number below according to your value level when you choose to eat ice cream Classification Not important Most important Taste (1) (2) (3) (4) (5) (6) (7) Price Mood Distance Image Service Rumor
86
4. Average value on each variables
87
5. Derive rules by using Magnum Opus
Mood -> Red Mango [Coverage=0.025 (4); Support=0.019 (3); Strength=0.750; Lift=4.11; Leverage= (2.3); p=0.0195] Red Mango -> Mood [Coverage=0.182 (29); Support=0.019 (3); Strength=0.103; Baskin -> distance [Coverage=0.390 (62); Support=0.145 (23); Strength=0.371; Lift=2.03; Leverage= (11.7); p=1.28E-006] distance -> Baskin [Coverage=0.182 (29); Support=0.145 (23); Strength=0.793; Gustimo -> Taste [Coverage=0.258 (41); Support=0.233 (37); Strength=0.902; Lift=1.56; Leverage= (13.3); p=3.18E-007] Taste -> Gustimo [Coverage=0.579 (92); Support=0.233 (37); Strength=0.402; 87
88
CASE 2: Lotte World
89
Problem Definition & constraints Phases Alternatives
Contents 1 Problem Definition & constraints Phases Alternatives 1. Using RFID 2. Exit Poll 4. Result Example 5. Effectiveness & application
90
Problem Definition & Phases 2
- Attraction locating : avoid conflict between target segments - inefficient customer route Lower customer satisfaction Constraints - Attraction re-location : Impossible Phases 1. Data Mining 2. Using Model 3. Finding efficient customer route & Promotion strategy 4. Max (Customer satisfaction)
91
Indicating & Choice of Alternatives
HOW – Association Rules 3 Association Rules Indicating & Choice of Alternatives 1. Using RFID - Clear understanding about customer’s moving route, location, time - Technical Difficulty, and Heavy cost 2. Exit Poll - Easy application - Light cost - Limit in data : quantity, quality Survey : Let customers to check all facilities they rode Make Market-Basket Association Rules Analysis : based on Market-Basket
92
Survey Example 4 Basic information gender age Marriage Children
※ Mark Attractions that you rode today For Lotteworld Adventure For Magic Island Adventure of Sinbad ( ) Atlantis Spain Pirate Ship Gyro Drop Frog Hooper Gyro Swing Marry-go-round Bunge Drop Crazy Bumper Car Comet Express Kids Bumper car Marry-go-Round 3 Ball Battle Sky Surfing Flume Ride Bumper car Giant Roop Ghost House Marry-go-round 2 Castle Music Show Illusion Odyssey Fantasy Dream Out-Law Automoblile Racing 4D Movies Kingdom of Children Magic Theater EureKa Puppet Theater Geneve Excursion Ship French Revolution Lake Boat Jungle Adventure World Monorail Rage of Parao Balloon Travel dynamic Theater Animal Theater Garden Stage Concert Street Concert Parade Basic information gender age Marriage Children Age of Children Place of Residence others
93
Result Example & Applications 5
1. Student (age 12~18) - P(Gyro drop Atlantis) : 70% 2. Parents with Little children - P(Marry-go-Round Kids Bumpercar) : 60% Applications We will be able to check : Who is using what kind of facilities Finding Effective Route Making Promotion Strategy Locate extra store at specific customer’s route
94
CASE 3: Gmart case
95
: Gmart located at Yongsan
Data Collection : Gmart located at Yongsan - Customer data POS data from daily transaction - Location Chung-pa dong, Yongsa,, Seoul - Period ~ - Number of data 1,334 cases - Contents in the data POS fields names(date, time, POS manager, receipt number, product name , quantity, amount, classification) - G mart system screen -
96
Data Cookies, Milk Yogurt ,Frozen fool Bear, Cookies, Coffee
Milk, Water .
97
Extracted Association Rule
Water is associated with Cookies with strength = 0.500 coverage = 0.002: 2 cases satisfy the LHS support = 0.001: 1 case satisfies both the LHS and the RHS lift : the strength is times greater than the strength if there were no association leverage = : the support is (1.0 case) greater than if there were no association is associated with Coffee and Newspaper
Similar presentations