데이터마이닝의 소개 Data Mining Introduction

Slides:



Advertisements
Similar presentations
1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
Advertisements

인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
SQL Server 2005 기반의 Microsoft Business Intelligence 전략 박명은 차장 SQL Technology Specialist 기술사업부 기업고객사업 한국마이크로소프트.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
Kim Jun Woo 지식정보처리및응용 1 지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우.
Table of Contents I. OLAP 의 이해 II. OLAP의 CRM 적용 사례 III. 향후 OLAP의 발전 방향.
CRM에서의 고객 세분화를 통한 이탈방지 마케팅 전략
MrDataBld 2.x 제품 소개 2007.
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
CRM 추진 제안서 OVERVIEW CRM PROCESS 고객 DB 구축 프로세스 고객 DB 분석 프로세스
서울시립대학교 전자전기컴퓨터공학부 인공지능연구실 김유상
2.1 In-Memory Computing 디스크 기반 데이터베이스에서 인메모리 기반 데이터베이스로 BW시스템 전환
Data Mining(Knowledge Discovery in Database)
컴퓨터공학부 교수님 연구 분야 소개.
삼성 SDS 멀티캠퍼스 데이터웨어하우스, OLAP, 데이터 마이닝 삼성 SDS 멀티캠퍼스
Chapter 7 데이터웨어하우징 의사결정지원시스템.
교육과정개발.
(Data Mining Overview)
A CRM Consulting case with Point of Sales Data
데이터 마이닝 소개 Introduction to Data Mining
INI STEEL 성과관리시스템 구축을 위한 SAP 제안설명회
BW & CDRS 활용 사례 BW & CDRS 활용 사례 강남 세브란스병원 의료정보팀 김홍재 파트장.
Business Strategy & KMS in Financial Industry
데이터마이닝 데이터마이닝.
제4장 자연언어처리, 인공지능, 기계학습.
Information Technology
Enterprise Data Warehouse
12. 데이터베이스 설계.
최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )
Excel OLAP Reporting / OWC를 이용한
지식저장 및 활용사례 삼성SDS 아리샘 KMS 오승연 책임
미래 예측 3가지 방법론.
제10장 지식경영과 지식관리시스템 박 성 수 박 성 수 Cafe: Mobile Phone:
제9장 지식경영과 지식관리시스템 제9장 지식경영과 지식경영시스템.
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
오라클 데이터베이스 성능 튜닝.
데이터 웨어하우스 목차 1.데이터 웨어하우스 개발방법론 2슬라이드~13슬라이드
데이터웨어하우스(DW)
From introduction to implementation
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
CRM에서의 Data Quality Management
1.BW 기본개념과 구조의 이해 Sep 2004 이웨어시스템 (주) EWARESYSTEM.
인간의 신경인지기전의 모델에 기반한 추론/학습기술 개발
Data Mining 기법을 이용한 침입탐지 시스템
Dept. of CSE, Ewha Womans Univ.
제 3 장 신경회로망 (Neural Networks)
적극적 지식경영 솔루션 - SINGLE 양 재 삼 삼성 SDS.
Cluster Analysis (군집 분석)
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
머신 러닝 2 ㈜ 퀀트랩.
Data Mining.
개인화 추천 기술 (협력적 추천을 중심으로 …)
Data Mining Final Project
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
2009, 46th KLA General Conference
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
Chapter4. 연관성 분석.
정보 추출기술 (Data Mining Techniques ) : An Overview
뇌신경정보학연구사업 인지/추론 : 추론 기술 2002년 11월 15일 숭실대학교 컴퓨터학과 김명원.
인공지능 소개 및 1장.
의사결정지원시스템 개요 Database DBMS D G M S MBMS Modelbase User Interface
dECISION tree 모델의 갱신 시점 모니터링
Machine Learning using Neural Networks
0801 Workshop.
Data Analytics for Healthcare
Advanced Data Analytics 데이터분석 전문가
데이터 베이스의 내부 구조.
1. 데이터베이스 환경.
Progress Seminar 선석규.
Digital TV 통합 캠페인 시스템 case study(wise campaign)
Presentation transcript:

데이터마이닝의 소개 Data Mining Introduction 숭실대학교 마이닝 연구실 김완섭(wskim92@mining.ssu.ac.kr) 2006년 11월 22일, 인공지능 수업

구성 데이터마이닝의 소개 분석기법 소개 및 적용 사례 데이터마이닝 솔루션의 소개 엘도라도를 통한 간단한 Demo 분류 기법 (Classification, Supervised Learning) 군집 기법 (Clustering, Unsupervised Learning) 연관규칙 탐사 기법 (Association Rule Discovery) 개인화 추천 기법 (Personalized Recommendation) 데이터마이닝 솔루션의 소개 엘도라도를 통한 간단한 Demo

1.데이터마이닝의 소개 <등장 배경> 데이터의 축적(OLTP) 거대한 양의 데이터를 축적하게 됨 (데이터의 홍수) 데이터의 통합 및 분석(OLAP) 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음 데이터마이닝의 출현 자동화된 시스템을 통한 지식(Knowledge)의 추출과 활용 통계학 마이닝 인공지능 60년대 70년대 80년대 90년대 MIS출현 - 데이터 축적 DB 통합 - 데이터의 통합 대용량 DB - 통합 데이터 베이스 발전 대용량 DB - DW 발전

1.데이터마이닝의 소개 <정의> Knowledge 데이터마이닝이란 무엇인가? 대량의 데이터로부터 그 안에 숨어있는(implicit) 새롭고(previously unknown), 가치있고(non-trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업 Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases Knowledge 대용량의 데이터 (Large Database) Data Mining

1.데이터마이닝의 소개 <데이터 예:백화점> 거래데이터 (Transaction DB) 고객ID, 구매일, 거래점, 거래파트, 브랜드명, 상품명, 가격. 고객 프로파일 데이터 (User Profile DB) 성별,나이,주소,거주형태,자택여부,결혼여부,회원타입,가입일,가입점

1.데이터마이닝의 소개 <데이터 예:웹로그> 웹로그 데이터

1.데이터마이닝의 소개 <어떻게 정보를 찾는가?> 대용량의 데이터가 여러분에게 주어졌다고 생각하자. 그 데이터에서 어떠한 방법으로 정보를 찾을 것인가? 매우 다양한 방법들이 있을 수 있다. Query Visualization OLAP Statistics Decision Tree Neural Network Genetic Algorithm K-Means Clustering

1.데이터마이닝의 소개 <기존방법과의 차이점> 가설확인 중심의 기존 방식 가설 발견 중심의 데이터마이닝 방식 질의도구 시각화도구 OLAP도구 DATA 가설 고객의 직업과 수입정도가 신용불량 여부와 관련이 많다. 데이터마이닝 DATA 어떤 사람들이 신용불량자(잠재)일까? 가설 *직업이 자영업,무직등에 속한 사람들 *수입이 233만원이하이고, 지역이 A지역에 거주하는 경우 신용불량 확률높음 검증 정보

1.데이터마이닝의 소개 <프로세스 모델> Knowledge Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration Databases

(Association Rule Discovery) (Personalized Recommedation) 1.데이터마이닝의 기법 및 알고리즘 기법의 종류 설명 및 알고리즘 분류 분석 (Classfication) 레코드를 부류나 등급으로 나누는 작업 Decision Tree : ID3, C4.5 Algorithm Neural Network, Bayesian … 군집 분석 (Clustering) 레코드들을 유사한 성격을 가지는 소그룹으로 구분하는 작업 K-Means Algorithm EM Algorithm Cobweb Algorithm 연관규칙 탐사 (Association Rule Discovery) 구매데이터에서 상품 간의 판매 연관성을 파악하는 작업 - Apriori Algorithm 개인화 추천 (Personalized Recommedation) 각 고객별로 선호정보를 파악하여 그 고객에게 적합한 상품을 추천해 주는 작업 Collaborative Filtering Algorithm Content based Method

1.데이터마이닝의 적용 분야 분야 적용 사례 소매/마케팅 은행/카드 보험 통신 제조 유통 의료 고객의 구매패턴과 선호도 발견 고객분류, 그룹별 특성 발견 은행/카드 신용평가 모형 우수 고객 선정 및 특성 분석, 카드 부정사용 적발 보험 고객 분류를 통한 보험료 가격정책 수립 통신 우수고객 선정 및 특성 분석 장거리 전화/ 무선 전화의 부정한 이용패턴 추적 이탈고객 모델 선정 및 타겟마케팅 제조 제품 수용 예측 최종 생산품의 품질에 영향을 미치는 요인 발견 유통 매장 진열 전략 상품 카다로그 디자인 의료 환자 특성에 따른 의약품의 부작용 분석

2.분석방법 <분류: 의사결정트리> 분류(Classification)의 정의 의사결정나무 알고리즘의 특징 이해하기 쉬운 모델을 제공한다. 즉, 다른 방법(신경망, 통계방법)에 비해 이해하기가 쉽다. 현업에서 의사결정에 가장 많이 사용되는 기법이다. 범주형(Categorical) 속성을 대상으로 분석할 수 있다. 즉, 주식 데이터에서 주가 예측하는데에는 사용할 수 없다. 데이터집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성(범주형)의 값(범주값)을 분류하는 트리 형태의 모델을 생성하는 분석기법이다.

2.분석방법 <분류: 의사결정트리> 신용상태에 대한 분석 결과 신용상태가 <좋음, 나쁨>의 두개의 범주값을 갖음 과거의 데이터를 통하여 신용상태의 분류 모델을 생성 새로운 고객에 대하여 앞으로의 신용상태를 분류

2.분석방법 <분류: 의사결정트리 적용 예> B 은행의 사례 분석 고객의 대출 신청 서류와 신용 정보를 관리 수익 : 대출금의 이자, 고객 만족 손해 : 대출금 미상환, 상환 독촉 비용 상환 비율 향상 수익율 증가 유용한 대출심사 모델 존재 ? YES 안전한 대출만 승인

2.분석방법 <분류: 의사결정트리 적용 예> 분석작업 : 대출금 상환에 대한 분류 모델 생성 분석목표 및 기대 효과 대출 심사 비용 감소 + 상 환 예 고 객 만 대 출 대 출 심 사 모 델 생 성 상환 독촉 비용 감소 + 대출 신청 정보 Mining 상환 비율의 증가 고객 신용 정보 수익율 증가

2.분석방법 <분류: 의사결정트리 적용 예> 입력데이터 설명 입력 데이터 Record의 수 : 5,960개, Field 수 : 13개 대출 신청 서류, 신용기관의 신용 정보, 목표 변수 대출 신청 서류 신용 기관의 신용 정보 REASON 대출 사유 (채무 정리, 주택개량) DEROG 불량 거래 보고수 JOB 직업 (노동자, 사무원,판매원) (자영업, 숙련기술자, 기타) CLNO 금융 거래의 수 LOAN 대출액 DELINQ 체납 회수 MORTDUE 저당 금액 CLAGE 최장 대출 기간 VALUE 자산금액 NINQ 최근 신용 조회 수 DEBTINC 대출금 대 수입 비율 분석 목표 변수 YOJ 근무년수 BAD 대출금 상환여부

2.분석방법 <분류: 의사결정트리 적용 예> 모델의 시각화 결과 (트리 보기) REASON JOB LOAN DebtCon Office 14,900 MORTDUE VALUE DEBTINC 58,204 71,257 43.76293 YOJ DEROG CLNO 3 50 DELINQ CLAGE NINQ 2 207 1 노드를 따라 내려 간 단말 노드의 Class : 1 ∴ 대출 미승인

2.분석방법 <분류: 의사결정트리 적용 예>

2.분석방법 <분류: 의사결정트리 적용 예> Case 1 – 모델이 없는 보통의 경우 3,364명 고객 비승인 : 0 접수 및 대출 심사 대출 승인 : 3,364 신용 기관 신용정보 미상환 : 300 금액 : 5,420,900 순이익 : 480,500 상환 : 3,064 이자 : 5,901,450

2.분석방법 <분류: 의사결정트리 적용 예> Case 2 – 모델 이용 3,364명 대출심사 분류 모델 고객 비승인 : 110 접수 및 대출 심사 대출 승인 : 3,254 신용 기관 신용정보 미상환 : 200 금액 : 3,452,200 순이익 : 2,435,390 상환 : 3,064 이자 : 5,887,590

2.분석방법 <분류: 의사결정트리 적용 예> 기대효과 : 5배 이상의 순이익 증대 대출 심사/상환 독촉 비용을 고려시 훨씬 더 높은 순이익을 기대 모델 이용 X 모델 이용 O 대출 총액 \64,435,400 \62,328,100 반환 \59,014,500 \58,875,900 미수 -\5,420,900 -\3,452,200 이자 \5,901,450 \5,887,590 실제 이익 \480,500 \2,435,390

2.분석방법 <분류: 의사결정트리 활용 예> 의사결정트리를 이용한 이탈 고객 분석 선정 Operational DB Mining Server ETL Server Domain PowerMinerTM Mining & Campaign DB 이탈 고객 정보 입력 고객 정보 입력 이탈 고객 예측 모델 생성 모델을 통한 이탈 고객 예측 이탈 고객 예측 모델 마케팅 솔루션 결과 저장

2.분석방법 <분류: 의사결정트리 활용 예> 거주지 북구 달서구 중구 수성구 나이 이탈 유지 성별 94.11% 95.23% 27세 이하 28세 이상 남성 여성 이탈 유지 유지 결혼 여부 100% 78.57% 100% 미혼 기혼 이탈 유지 100% 100%

2.분석방법 <분류: 의사결정트리 활용 예> 거주지 북구 달서구 중구 수성구 나이 이탈 유지 성별 94.11% 95.23% 27세 이하 28세 이상 남성 여성 이탈 유지 유지 결혼 여부 100% 78.57% 100% 미혼 기혼 이탈 유지 100% 100% IF “거주지=북구 and 나이<=28” THEN “유지”(78.57%) 북구에 사는 28세 이상의 고객은 이탈하지 않음 (78.57%).

2.분석방법 <분류: 의사결정트리 활용 예> 거주지 북구 달서구 중구 수성구 나이 이탈 유지 성별 94.11% 95.23% 27세 이하 28세 이상 남성 여성 이탈 유지 유지 결혼 여부 100% 78.57% 100% 미혼 기혼 이탈 유지 100% 100% IF “거주지=중구 and 성별=여성 and 결혼여주=미혼” THEN “이탈”(100%) 중구에 사는 미혼 여성은 이탈 (100%).

2.분석방법 <군집> 군집(Clustering)의 정의 적용분야 적용 알고리즘 고객 세분화를 통한 타겟마케팅 적용 알고리즘 K-Means EM(Expectation Maximization) 주어진 레코드(고객, 상품)들을 여러가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 기법

2.분석방법 <군집> 군집 기법의 적용 예 : IRIS 데이터

2.분석방법 <군집> EM 군집 (백화점 고객 데이터) 군집0: 30,40대, 서울, APT, 본인소유(주택), 기혼. 군집1: 10,20대, 서울, 단독주택, 미혼. 군집2: 10-30대, 경기, APT.

2.분석방법 <연관규칙> 연관규칙(Association)의 정의 알고리즘 적용 예 Apriori 적용 예 오프라인 판매점에서의 분석을 통한 상품 배치 온라인 쇼핑몰에서의 자동화 된 연관 상품 추천 거래 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙(AB)을 찾아내는 분석기법이다. (AB: A상품을 구매하는 고객들은 B상품도 함께 구매하는 경향이 있다.)

2.분석방법 <연관규칙> 쇼핑몰에서의 적용 예 Example of Association Rules from www.global-reach.com

2.분석방법 <연관규칙> 규칙(Rule)에 대한 분석 결과 ※ 활용의 예 지지도 : 전체 고객중 2%의 고객이 ‘미소패구두’와 ‘지오다노진케쥬얼’을 같이 구매함 신뢰도 : ‘미소패구두’를 구매한 고객 중 57%의 고객이 ‘지오다노진케쥬얼’을 구매함 향상도 : 전체 고객 중 ‘지오다노진케쥬얼’을 구입한 고객의 비율보다 ‘미소패구두’를 구매한 고객 중 ‘지오다노진케쥬얼’을 구매한 고객의 비율이 2.81배 높음 ※ 활용의 예 1. ‘미소패구두’를 구매한 고객에게 ‘지오다노진케쥬얼’을 추천 2. ‘지오다노진케쥬얼’의 마케팅 대상 고객으로 ‘미소패구두’를 구매한 고객 선정 3. ‘미소패구두’와 ‘지오다노진케쥬얼’을 패키지 상품으로 구성

2.분석방법 <연관규칙> 은행 서비스 이용에 대한 연관규칙

2.분석방법 <연관규칙> 생성 규칙의 해석 및 적용 • 적용 : 저축 예금 계정과 현금 카드를 사용하는 고객에게 선행항목 후행항목 지지도 신뢰도 개선도 SVG ATM CKING 0.1162 0.9928 1.3262 • 지지도 → 0.1162 : 저축 예금 계정과 현금 카드, 당좌 예금 계정을 모두 사용하고 있는 고객이 0.1162%, 즉 2,700명 이상 • 신뢰도 → 0.9928 : 저축 예금 계정과 현금 카드를 사용하는 고객들 중 99%는 당좌 예금 계정을 사용 • 적용 : 저축 예금 계정과 현금 카드를 사용하는 고객에게 당좌 예금 계정을 추천

2.분석방법 <연관규칙> 생성 규칙의 해석 및 적용 신뢰도1 선행항목 후행항목 지지도 신뢰도 개선도 MMDA CKING 0.1080 0.7639 1.098 0.1553 • 지지도 → 0.1080 : 금융시장 예탁 계정과 당좌 예금 계정을 모두 사용하고 있는 고객이 0.1080%, 즉 2,500명 이상 신뢰도2 • 신뢰도1 → 0.7639 : 금융시장 예탁 계정을 사용하는 고객 중 76%는 당좌 예금 계정을 사용 • 신뢰도2 → 0.1553 : 당좌 예금 계정을 사용하는 고객 중 16%는 금융시장 예탁 계정을 사용 • 결론1 : 금융시장 예탁 계정 사용 고객에게 당좌 예금 계정을 추천 • 결론2 : 당좌예금 사용하는 고객에게 금융시장 예탁 계정은 추천 안함

2.분석방법 <개인화추천> 추천(Recommendation)의 정의 알고리즘 적용 예 협력적 추천 (Collaborative Filtering) 내용 기반 추천 (Content-based Method) 적용 예 오프라인 판매점에서의 분석을 통한 상품 배치 온라인 쇼핑몰에서의 자동화 된 추천 A상품을 구매한 고객에게 B 상품을 추천할 수 있다. 각 고객에게 그 고객이 아직 구매하지 않은 상품 중에서 구매할 가능성이 높은 상품(아이템)의 리스트를 제공하여 주는 것.

2.분석방법 <개인화추천> 협력적 추천(Collaborative Filtering) 협력적 추천의 과정 대상 고객과 유사한 성향을 갖는 이웃 고객이 공통적으로 선호하는 상품을 추천함. 협력적 추천의 과정 STEP1. 유사도 계산 대상 고객과 다른 고객들간의 유사도를 구한다. 대표적 유사도 계산식 Correlation(식) Cosine(식) STEP2. 예측 선호도 계산 목표 고객과 다른 고객과의 유사도를 가중치로 하여 각 상품에 대한 선호도를 예측한다.

2.분석방법 <개인화추천> 협력적 여과(Collaborative Filtering) 패턴이 유사한 고객들이 선호한 상품(아이템)를 추천하는 시스템 추천식 like A B high correlation Recommend A B C like

2.분석방법 <개인화추천> 아이템 기반 협력적 여과 활용 사례 아이템 간의 유사도를 고려하여 추천하는 방법 http://www.amazon.com (쇼핑몰) http://citeseer.nj.nec.com (논문검색) Liked by A high correlation A B C D B Liked by A B C D E

2.분석방법 <개인화추천> http://citeseer.nj.nec.com 선호도 기입

2.분석방법 <개인화추천> http://www.amazon.com 의 적용 선택 상품 유사 아이템 패키지 판매 유도

2.분석방법 <개인화추천> http://www.cdnow.com 의 적용 선택 비디오 과거 선택 아이템 유사 아이템

Inter-Item Cosine Similarity 2.분석방법 <개인화추천> Inter-Item Cosine Similarity A의 과거 구매 내역 시청 제목 1 영웅 2 이웃집 토토로 ‘영웅’ ‘이웃집 토토로’ 유사 영화 수치 반지의 제왕 0.141 캐치미 이프유켄 0.116 동갑내기 과외하기 0.112 색즉시공 0.106 살인의 추억 0.098 해리포터와 비밀의 방 0.096 유사영화 수치 바람계곡의 나우시카 0.894 마녀배탈부 키키 0.516 귀를 기울이면 0.365 센과치히로의 행방불명 0.316 붉은돼지 폼포코너구리 대작전 0.258 고객 A (7647) A를 위한 추천 추천 영화 수치 바람의 계곡의 나우시카 0.632 마녀배달비키키 0.365 귀를 기울이면 0.258 센과히치로의 행방불명 0.223 Weighted Sum Function

3.데이터마이닝 솔루션의 소개 SPSS Clementine SAS Enterprise Miner Eldorado

3.데이터마이닝 솔루션의 소개 Clementine Managers Stream Canvas Projects Palettes

3.데이터마이닝 솔루션의 소개 SAS Enterprise Miner

a a a a a 3.데이터마이닝 솔루션의 소개 Eldorado Data Mining Node Data Mining Stream Design a a Project Information Result or Model Object a Batch Execution Button

3.데이터마이닝 솔루션의 소개 Eldorado 기능 데이터 입력 전처리 탐색 마이닝 모델 활용 파일 입력 DB 입력 전처리 출력 전처리 레코드 선택 레코드 병합 레코드 그룹핑 필드 선택 필드 병합 새필드 생성 정 렬 정규화 결측치 처리 값 매핑 탐색 통계 탐색 테이블 보기 마이닝 의사결정트리 베이지안 신경망 K-평균 SEM 연관규칙 CF RFM 선형 회귀 모델 활용 분류 활용 군집 활용