Presentation is loading. Please wait.

Presentation is loading. Please wait.

데이터마이닝의 소개 Data Mining Introduction

Similar presentations


Presentation on theme: "데이터마이닝의 소개 Data Mining Introduction"— Presentation transcript:

1 데이터마이닝의 소개 Data Mining Introduction
숭실대학교 마이닝 연구실 2006년 11월 22일, 인공지능 수업

2 구성 데이터마이닝의 소개 분석기법 소개 및 적용 사례 데이터마이닝 솔루션의 소개 엘도라도를 통한 간단한 Demo
분류 기법 (Classification, Supervised Learning) 군집 기법 (Clustering, Unsupervised Learning) 연관규칙 탐사 기법 (Association Rule Discovery) 개인화 추천 기법 (Personalized Recommendation) 데이터마이닝 솔루션의 소개 엘도라도를 통한 간단한 Demo

3 1.데이터마이닝의 소개 <등장 배경>
데이터의 축적(OLTP) 거대한 양의 데이터를 축적하게 됨 (데이터의 홍수) 데이터의 통합 및 분석(OLAP) 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음 데이터마이닝의 출현 자동화된 시스템을 통한 지식(Knowledge)의 추출과 활용 통계학 마이닝 인공지능 60년대 70년대 80년대 90년대 MIS출현 - 데이터 축적 DB 통합 - 데이터의 통합 대용량 DB - 통합 데이터 베이스 발전 대용량 DB - DW 발전

4 1.데이터마이닝의 소개 <정의> Knowledge 데이터마이닝이란 무엇인가?
대량의 데이터로부터 그 안에 숨어있는(implicit) 새롭고(previously unknown), 가치있고(non-trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업 Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases Knowledge 대용량의 데이터 (Large Database) Data Mining

5 1.데이터마이닝의 소개 <데이터 예:백화점>
거래데이터 (Transaction DB) 고객ID, 구매일, 거래점, 거래파트, 브랜드명, 상품명, 가격. 고객 프로파일 데이터 (User Profile DB) 성별,나이,주소,거주형태,자택여부,결혼여부,회원타입,가입일,가입점

6 1.데이터마이닝의 소개 <데이터 예:웹로그>
웹로그 데이터

7 1.데이터마이닝의 소개 <어떻게 정보를 찾는가?>
대용량의 데이터가 여러분에게 주어졌다고 생각하자. 그 데이터에서 어떠한 방법으로 정보를 찾을 것인가? 매우 다양한 방법들이 있을 수 있다. Query Visualization OLAP Statistics Decision Tree Neural Network Genetic Algorithm K-Means Clustering

8 1.데이터마이닝의 소개 <기존방법과의 차이점>
가설확인 중심의 기존 방식 가설 발견 중심의 데이터마이닝 방식 질의도구 시각화도구 OLAP도구 DATA 가설 고객의 직업과 수입정도가 신용불량 여부와 관련이 많다. 데이터마이닝 DATA 어떤 사람들이 신용불량자(잠재)일까? 가설 *직업이 자영업,무직등에 속한 사람들 *수입이 233만원이하이고, 지역이 A지역에 거주하는 경우 신용불량 확률높음 검증 정보

9 1.데이터마이닝의 소개 <프로세스 모델>
Knowledge Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration Databases

10 (Association Rule Discovery) (Personalized Recommedation)
1.데이터마이닝의 기법 및 알고리즘 기법의 종류 설명 및 알고리즘 분류 분석 (Classfication) 레코드를 부류나 등급으로 나누는 작업 Decision Tree : ID3, C4.5 Algorithm Neural Network, Bayesian … 군집 분석 (Clustering) 레코드들을 유사한 성격을 가지는 소그룹으로 구분하는 작업 K-Means Algorithm EM Algorithm Cobweb Algorithm 연관규칙 탐사 (Association Rule Discovery) 구매데이터에서 상품 간의 판매 연관성을 파악하는 작업 - Apriori Algorithm 개인화 추천 (Personalized Recommedation) 각 고객별로 선호정보를 파악하여 그 고객에게 적합한 상품을 추천해 주는 작업 Collaborative Filtering Algorithm Content based Method

11 1.데이터마이닝의 적용 분야 분야 적용 사례 소매/마케팅 은행/카드 보험 통신 제조 유통 의료 고객의 구매패턴과 선호도 발견
고객분류, 그룹별 특성 발견 은행/카드 신용평가 모형 우수 고객 선정 및 특성 분석, 카드 부정사용 적발 보험 고객 분류를 통한 보험료 가격정책 수립 통신 우수고객 선정 및 특성 분석 장거리 전화/ 무선 전화의 부정한 이용패턴 추적 이탈고객 모델 선정 및 타겟마케팅 제조 제품 수용 예측 최종 생산품의 품질에 영향을 미치는 요인 발견 유통 매장 진열 전략 상품 카다로그 디자인 의료 환자 특성에 따른 의약품의 부작용 분석

12 2.분석방법 <분류: 의사결정트리>
분류(Classification)의 정의 의사결정나무 알고리즘의 특징 이해하기 쉬운 모델을 제공한다. 즉, 다른 방법(신경망, 통계방법)에 비해 이해하기가 쉽다. 현업에서 의사결정에 가장 많이 사용되는 기법이다. 범주형(Categorical) 속성을 대상으로 분석할 수 있다. 즉, 주식 데이터에서 주가 예측하는데에는 사용할 수 없다. 데이터집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성(범주형)의 값(범주값)을 분류하는 트리 형태의 모델을 생성하는 분석기법이다.

13 2.분석방법 <분류: 의사결정트리>
신용상태에 대한 분석 결과 신용상태가 <좋음, 나쁨>의 두개의 범주값을 갖음 과거의 데이터를 통하여 신용상태의 분류 모델을 생성 새로운 고객에 대하여 앞으로의 신용상태를 분류

14 2.분석방법 <분류: 의사결정트리 적용 예>
B 은행의 사례 분석 고객의 대출 신청 서류와 신용 정보를 관리 수익 : 대출금의 이자, 고객 만족 손해 : 대출금 미상환, 상환 독촉 비용 상환 비율 향상 수익율 증가 유용한 대출심사 모델 존재 ? YES 안전한 대출만 승인

15 2.분석방법 <분류: 의사결정트리 적용 예>
분석작업 : 대출금 상환에 대한 분류 모델 생성 분석목표 및 기대 효과 대출 심사 비용 감소 + 상환 독촉 비용 감소 + 대출 신청 정보 Mining 상환 비율의 증가 고객 신용 정보 수익율 증가

16 2.분석방법 <분류: 의사결정트리 적용 예>
입력데이터 설명 입력 데이터 Record의 수 : 5,960개, Field 수 : 13개 대출 신청 서류, 신용기관의 신용 정보, 목표 변수 대출 신청 서류 신용 기관의 신용 정보 REASON 대출 사유 (채무 정리, 주택개량) DEROG 불량 거래 보고수 JOB 직업 (노동자, 사무원,판매원) (자영업, 숙련기술자, 기타) CLNO 금융 거래의 수 LOAN 대출액 DELINQ 체납 회수 MORTDUE 저당 금액 CLAGE 최장 대출 기간 VALUE 자산금액 NINQ 최근 신용 조회 수 DEBTINC 대출금 대 수입 비율 분석 목표 변수 YOJ 근무년수 BAD 대출금 상환여부

17 2.분석방법 <분류: 의사결정트리 적용 예>
모델의 시각화 결과 (트리 보기) REASON JOB LOAN DebtCon Office 14,900 MORTDUE VALUE DEBTINC 58,204 71,257 YOJ DEROG CLNO 3 50 DELINQ CLAGE NINQ 2 207 1 노드를 따라 내려 간 단말 노드의 Class : 1 ∴ 대출 미승인

18 2.분석방법 <분류: 의사결정트리 적용 예>

19 2.분석방법 <분류: 의사결정트리 적용 예>
Case 1 – 모델이 없는 보통의 경우 3,364명 고객 비승인 : 0 접수 및 대출 심사 대출 승인 : 3,364 신용 기관 신용정보 미상환 : 300 금액 : 5,420,900 순이익 : 480,500 상환 : 3,064 이자 : 5,901,450

20 2.분석방법 <분류: 의사결정트리 적용 예>
Case 2 – 모델 이용 3,364명 대출심사 분류 모델 고객 비승인 : 110 접수 및 대출 심사 대출 승인 : 3,254 신용 기관 신용정보 미상환 : 200 금액 : 3,452,200 순이익 : 2,435,390 상환 : 3,064 이자 : 5,887,590

21 2.분석방법 <분류: 의사결정트리 적용 예>
기대효과 : 5배 이상의 순이익 증대 대출 심사/상환 독촉 비용을 고려시 훨씬 더 높은 순이익을 기대 모델 이용 X 모델 이용 O 대출 총액 \64,435,400 \62,328,100 반환 \59,014,500 \58,875,900 미수 -\5,420,900 -\3,452,200 이자 \5,901,450 \5,887,590 실제 이익 \480,500 \2,435,390

22 2.분석방법 <분류: 의사결정트리 활용 예>
의사결정트리를 이용한 이탈 고객 분석 선정 Operational DB Mining Server ETL Server Domain PowerMinerTM Mining & Campaign DB 이탈 고객 정보 입력 고객 정보 입력 이탈 고객 예측 모델 생성 모델을 통한 이탈 고객 예측 이탈 고객 예측 모델 마케팅 솔루션 결과 저장

23 2.분석방법 <분류: 의사결정트리 활용 예>
거주지 북구 달서구 중구 수성구 나이 이탈 유지 성별 94.11% 95.23% 27세 이하 28세 이상 남성 여성 이탈 유지 유지 결혼 여부 100% 78.57% 100% 미혼 기혼 이탈 유지 100% 100%

24 2.분석방법 <분류: 의사결정트리 활용 예>
거주지 북구 달서구 중구 수성구 나이 이탈 유지 성별 94.11% 95.23% 27세 이하 28세 이상 남성 여성 이탈 유지 유지 결혼 여부 100% 78.57% 100% 미혼 기혼 이탈 유지 100% 100% IF “거주지=북구 and 나이<=28” THEN “유지”(78.57%) 북구에 사는 28세 이상의 고객은 이탈하지 않음 (78.57%).

25 2.분석방법 <분류: 의사결정트리 활용 예>
거주지 북구 달서구 중구 수성구 나이 이탈 유지 성별 94.11% 95.23% 27세 이하 28세 이상 남성 여성 이탈 유지 유지 결혼 여부 100% 78.57% 100% 미혼 기혼 이탈 유지 100% 100% IF “거주지=중구 and 성별=여성 and 결혼여주=미혼” THEN “이탈”(100%) 중구에 사는 미혼 여성은 이탈 (100%).

26 2.분석방법 <군집> 군집(Clustering)의 정의 적용분야 적용 알고리즘
고객 세분화를 통한 타겟마케팅 적용 알고리즘 K-Means EM(Expectation Maximization) 주어진 레코드(고객, 상품)들을 여러가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 기법

27 2.분석방법 <군집> 군집 기법의 적용 예 : IRIS 데이터

28 2.분석방법 <군집> EM 군집 (백화점 고객 데이터)
군집0: 30,40대, 서울, APT, 본인소유(주택), 기혼. 군집1: 10,20대, 서울, 단독주택, 미혼. 군집2: 10-30대, 경기, APT.

29 2.분석방법 <연관규칙> 연관규칙(Association)의 정의 알고리즘 적용 예
Apriori 적용 예 오프라인 판매점에서의 분석을 통한 상품 배치 온라인 쇼핑몰에서의 자동화 된 연관 상품 추천 거래 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙(AB)을 찾아내는 분석기법이다. (AB: A상품을 구매하는 고객들은 B상품도 함께 구매하는 경향이 있다.)

30 2.분석방법 <연관규칙> 쇼핑몰에서의 적용 예
Example of Association Rules from

31 2.분석방법 <연관규칙> 규칙(Rule)에 대한 분석 결과 ※ 활용의 예
지지도 : 전체 고객중 2%의 고객이 ‘미소패구두’와 ‘지오다노진케쥬얼’을 같이 구매함 신뢰도 : ‘미소패구두’를 구매한 고객 중 57%의 고객이 ‘지오다노진케쥬얼’을 구매함 향상도 : 전체 고객 중 ‘지오다노진케쥬얼’을 구입한 고객의 비율보다 ‘미소패구두’를 구매한 고객 중 ‘지오다노진케쥬얼’을 구매한 고객의 비율이 2.81배 높음 ※ 활용의 예 1. ‘미소패구두’를 구매한 고객에게 ‘지오다노진케쥬얼’을 추천 2. ‘지오다노진케쥬얼’의 마케팅 대상 고객으로 ‘미소패구두’를 구매한 고객 선정 3. ‘미소패구두’와 ‘지오다노진케쥬얼’을 패키지 상품으로 구성

32 2.분석방법 <연관규칙> 은행 서비스 이용에 대한 연관규칙

33 2.분석방법 <연관규칙> 생성 규칙의 해석 및 적용 • 적용 : 저축 예금 계정과 현금 카드를 사용하는 고객에게
선행항목 후행항목 지지도 신뢰도 개선도 SVG ATM CKING 0.1162 0.9928 1.3262 • 지지도 → : 저축 예금 계정과 현금 카드, 당좌 예금 계정을 모두 사용하고 있는 고객이 %, 즉 2,700명 이상 • 신뢰도 → : 저축 예금 계정과 현금 카드를 사용하는 고객들 중 99%는 당좌 예금 계정을 사용 • 적용 : 저축 예금 계정과 현금 카드를 사용하는 고객에게 당좌 예금 계정을 추천

34

35 2.분석방법 <연관규칙> 생성 규칙의 해석 및 적용
신뢰도1 선행항목 후행항목 지지도 신뢰도 개선도 MMDA CKING 0.1080 0.7639 1.098 0.1553 • 지지도 → : 금융시장 예탁 계정과 당좌 예금 계정을 모두 사용하고 있는 고객이 %, 즉 2,500명 이상 신뢰도2 • 신뢰도1 → : 금융시장 예탁 계정을 사용하는 고객 중 76%는 당좌 예금 계정을 사용 • 신뢰도2 → : 당좌 예금 계정을 사용하는 고객 중 16%는 금융시장 예탁 계정을 사용 • 결론1 : 금융시장 예탁 계정 사용 고객에게 당좌 예금 계정을 추천 • 결론2 : 당좌예금 사용하는 고객에게 금융시장 예탁 계정은 추천 안함

36 2.분석방법 <개인화추천> 추천(Recommendation)의 정의 알고리즘 적용 예
협력적 추천 (Collaborative Filtering) 내용 기반 추천 (Content-based Method) 적용 예 오프라인 판매점에서의 분석을 통한 상품 배치 온라인 쇼핑몰에서의 자동화 된 추천 A상품을 구매한 고객에게 B 상품을 추천할 수 있다. 각 고객에게 그 고객이 아직 구매하지 않은 상품 중에서 구매할 가능성이 높은 상품(아이템)의 리스트를 제공하여 주는 것.

37 2.분석방법 <개인화추천> 협력적 추천(Collaborative Filtering) 협력적 추천의 과정
대상 고객과 유사한 성향을 갖는 이웃 고객이 공통적으로 선호하는 상품을 추천함. 협력적 추천의 과정 STEP1. 유사도 계산 대상 고객과 다른 고객들간의 유사도를 구한다. 대표적 유사도 계산식 Correlation(식) Cosine(식) STEP2. 예측 선호도 계산 목표 고객과 다른 고객과의 유사도를 가중치로 하여 각 상품에 대한 선호도를 예측한다.

38 2.분석방법 <개인화추천> 협력적 여과(Collaborative Filtering)
패턴이 유사한 고객들이 선호한 상품(아이템)를 추천하는 시스템 추천식 like A B high correlation Recommend A B C like

39 2.분석방법 <개인화추천> 아이템 기반 협력적 여과 활용 사례 아이템 간의 유사도를 고려하여 추천하는 방법
(쇼핑몰) (논문검색) Liked by A high correlation A B C D B Liked by A B C D E

40 2.분석방법 <개인화추천> 선호도 기입

41 2.분석방법 <개인화추천> 의 적용 선택 상품 유사 아이템 패키지 판매 유도

42 2.분석방법 <개인화추천> 의 적용 선택 비디오 과거 선택 아이템 유사 아이템

43 Inter-Item Cosine Similarity
2.분석방법 <개인화추천> Inter-Item Cosine Similarity A의 과거 구매 내역 시청 제목 1 영웅 2 이웃집 토토로 ‘영웅’ ‘이웃집 토토로’ 유사 영화 수치 반지의 제왕 0.141 캐치미 이프유켄 0.116 동갑내기 과외하기 0.112 색즉시공 0.106 살인의 추억 0.098 해리포터와 비밀의 방 0.096 유사영화 수치 바람계곡의 나우시카 0.894 마녀배탈부 키키 0.516 귀를 기울이면 0.365 센과치히로의 행방불명 0.316 붉은돼지 폼포코너구리 대작전 0.258 고객 A (7647) A를 위한 추천 추천 영화 수치 바람의 계곡의 나우시카 0.632 마녀배달비키키 0.365 귀를 기울이면 0.258 센과히치로의 행방불명 0.223 Weighted Sum Function

44 3.데이터마이닝 솔루션의 소개 SPSS Clementine SAS Enterprise Miner Eldorado

45 3.데이터마이닝 솔루션의 소개 Clementine Managers Stream Canvas Projects Palettes

46 3.데이터마이닝 솔루션의 소개 SAS Enterprise Miner

47 a a a a a 3.데이터마이닝 솔루션의 소개 Eldorado Data Mining Node
Data Mining Stream Design a a Project Information Result or Model Object a Batch Execution Button

48 3.데이터마이닝 솔루션의 소개 Eldorado 기능 데이터 입력 전처리 탐색 마이닝 모델 활용 파일 입력 DB 입력
전처리 출력 전처리 레코드 선택 레코드 병합 레코드 그룹핑 필드 선택 필드 병합 새필드 생성 정 렬 정규화 결측치 처리 값 매핑 탐색 통계 탐색 테이블 보기 마이닝 의사결정트리 베이지안 신경망 K-평균 SEM 연관규칙 CF RFM 선형 회귀 모델 활용 분류 활용 군집 활용


Download ppt "데이터마이닝의 소개 Data Mining Introduction"

Similar presentations


Ads by Google