Department of Statistics & Information Science

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

빅 데이터의 정의와 특징 빅 데이터의 이용사례 빅 데이터의 문제점 or 한계점 빅 데이터의 전망.
: 생활밀착형 결제수단인 T 머니 기반 T 머니는 6,000 만장이 발급된 대표적 선불결제수단 교통을 기반으로 금융, 모바일, 유통제휴 카드를 통한 보급 확대 4 선불 교통 점유율 ,000 카드 보급수 1,200 30% 40% 45% 50% 65%
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
SNS ! 건대 ▶ 오리 정보 제공 : 해당 지역에서 이슈화 되고 있는 서비스, 제품의 기업에게 정보 제공.
영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.
PRESENTATION EMBEDDED AND BIO DATABASE LAB YONSEI UNIVERSITY, XX JUNGRIM KIM.
ICT 기반 베이비붐 세대 창업 사업계획서 작성양식. 목차 1. 창업 동기 2. 지원 동기 3. 자체역량 분석 4. 시장 전망 5. 재무 분석 6. 창업자 및 경영진 준비하시는 사업 특성에 따라 목차 및 세부내용의 일부 변경 ( 추가 및 Skip) 은 가능합니다.
대표자명 / 연락처 / 이메일 ( 기 창업인 경우 회사 명칭 ) 지원하려는 사업 명칭 사업계획서 작성양식.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
국내 조사 산업의 현황 장 재 섭 ACNielsen Korea.
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
Introduction to Data Mining
CRM의 성공사례와 실패사례 6조 송혜정 신은수 원종환
논문 모집 안내 한국BI데이터마이닝학회 빅 데이터 시대의 데이터마이닝 역할 초대의 글 주요 일정
Data Mining(Knowledge Discovery in Database)
인공지능(지능형 시스템) “현황과 전망” “Artificial Intelligence is the study of ideas which enable computers to do things which make people seem intelligent.” Patrick.
Data Interface, Data mart Technology
의사 결정 트리(decision tree)
Information & Communication Technology
(Classification – Advanced Techniques)
Entity Relationship Diagram
Introduction to Data Mining
호텔마케팅 의의와 필요성 계획의 설정 고객의 욕구 경영환경의 변화 목표에 도달하고자 하는 기업 의도 조직으로 하여금 시간,
Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee
데이터마이닝 데이터마이닝.
제12주 회귀분석 Regression Analysis
Hybrid INDIGO project 중간보고
데이터마이닝의 소개 Data Mining Introduction
Learning Classifier using DNA Bagging
5장 Mysql 데이터베이스 한빛미디어(주).
데이터 마이닝 Data Mining 김홍주 김기흔 최준혁.
분석적 사고 (Analytical Thinking)
제 3 장 신경회로망 (Neural Networks)
Data Mining.
5장 Mysql 데이터베이스 한빛미디어(주).
SK Telecom 매출 통계 시스템의 SQL Server Reporting Services 적용사례
G 경영연구소 (GMRI) 영업계획서 양식(案) G 경영연구소 (GMRI)
영업계획서 양식(案).
소매경영의 특성과 유통전략 1. 소매의 정의 “최종고객에게 그들이 원하는 제품이나 서비스를 판매하는 행위”
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
자바 5.0 프로그래밍.
군집 분석.
제 10 장 의사결정이란 의사결정은 선택이다.
정보 추출기술 (Data Mining Techniques ) : An Overview
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
CASE STUDY 윤동섭 권단비 2007년 2학기 Data Mining.
04. DBMS 개요 명지대학교 ICT 융합대학 김정호.
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
Decision Tree & Ensemble methods
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
데이터 베이스 DB2 관계형 데이터 모델 권준영.
Clustering Algorithm KUT Youn-Hee Han.
단계1 단계2 단계3 단계4 단계5 단계별 제목 상세내용1 상세내용
Progress Seminar 선석규.
마케팅 4. 우리회사의 마케팅,고객관리,홍보전략 MD상대-상품의 다양성 (3가지 포장방법 - 70여종 - 250개)
경영정보시스템(MIS) management information system.
Data Analytics for Healthcare
Word2Vec.
오라클 11g 보안.
Data Mining 에 대하여... 건양대학교 컴퓨터학과 / 유 태 규 안녕하십니까?
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
Bizforms PowerPoint 엔터테이먼트, 이벤트7 파워포인트 디자인
텍스트 분석 ㈜ 퀀트랩.
마케팅 의사결정과정 시장조사 의사결정 시장 상황 분석
.Net FrameWork for Web2.0 한석수
 6장. SQL 쿼리.
Progress Seminar 선석규.
교육 교육목적: Why ? 교육내용: What ? 교육방법: How ?.
Progress Seminar 선석규.
Presentation transcript:

Department of Statistics & Information Science What is Data Mining ? Jinseog Kim Department of Statistics & Information Science Dongguk University jinseog.kim@gmail.com

의사결정을 위한 정보 추출 데이타 정보 의사결정 인구통계 Point of Sale ATM 금융통계 신용정보 문헌 첩보자료 진료기록 신체검사기록 A상품 구매자의 80%가 B상품도 구매한다 미국시장의 자동차 구매력이 6개월간 감소 A상품의 매출 중가가 B상품의 2배 탈수 증상을 보이면 위험 광고전략은 ? 상품의 진열 최적의 예산 할당은 ? 시장점유의 확대방안은 ? 고객의 이탈 방지책은 ? 처방은 ? Jinseog Kim

Data Mining 이란 ? 대용량의 데이터로부터 유용한 정보를 추출하여 이해하기 쉬운 형태로 변환하고 이를 실제의 의사결정에 적용하는 일련의 과정 저장된 데이터에서 정보, 지식, 규칙, 패턴,특성을 추출함 Jinseog Kim

배 경 저장되는 데이터 양의 폭발적 증가 정보, 지식의 부족 (언제나) 인지적 처리의 한계 배 경 저장되는 데이터 양의 폭발적 증가 데이타베이스 시스템의 사용 증가 데이터 수집의 자동화-POS data, Internet Log 정보, 지식의 부족 (언제나) 인지적 처리의 한계 자동처리의 요구 증대 기계학습(Machine Learning) 기술의 발전 Knowledge Discovery, Knowledge Extraction, Machine Learning, Data/Pattern Analysis Jinseog Kim

Data Mining 과정 데이터 선택 데이터 변환 정보 추출 결과 해석 사용될 데이터 유형 선택 정보 추출 유형에 따른 자료 변환 수치화, 논리값, 정규화, 정보 추출 결과 해석 가시화 (도표), 선택 제시 평가, 피드백 Jinseog Kim

Data Mining 과정 Select Transform Mine Assimilate Extracted Data 자료선택 자료변환 정보추출 해석 및 취합 DATABASE 추출된 데이타 Extracted Data Selected Data Assimilated data Transformed Data Visualization 가시화 Jinseog Kim

고객관계관리(CRM)의 예 자료선택 자료변환 정보추출 해석 및 취합 Targeting for Sales DATABASE 추출된 데이타 Targeting for Sales 오렌지주스를 구입한 거래자료 구매이력 POS Data Survey data 60세 넘으신 분들이 많이 산다 우수고객정의 (buys the same brand 80% of time) Jinseog Kim

Data Mining기법 분류 u 탐사할 지식, 정보의 종류에 따라서 u 탐사할 데이타베이스의 종류에 따라서 Jinseog Kim

Data Mining기법 분류 : 발견할 지식의 종류에 따라서 Summarization (요약) Association (연관성 발견) Classification (분류) Clustering (군집화) Characterization (특성발견) Sequential Pattern Discovery (연속패턴발견) Trend (경향 발견) Deviation Detection (추세변화발견) Jinseog Kim

Data Mining기법 분류 : 탐사할 DB의 종류에 따라서 Relational DB transactional DB Object-oriented DB Spatial DB Temporal DB Textual vs Multimedia Hetrogeneous, … Jinseog Kim

Data Mining기법 분류 : 탐사 기법에 따라서 인공지능, 신경망적 방법 논리적 추론, rule induction 이론적으론 어떠한 functional mapping도 가능 강력한 학습 algorithm이 있음 통계적 방법/ 패턴인식 Statistical Classification(supervised learning) Clustering Techniques(unsupervised learning) Time Series Analysis, … Jinseog Kim

연관성 규칙 탐사 Transaction DB의 자료분석 <장바구니분석>이라고도 함 RULE 강도의 척도 A ==> B [support, confidence] support = #(A and B) / #(total transactions) confidence = #(A and B) / #(A) 예 : 맥주 ==> 기저귀 (Agrawal, 최초의 데이터마이닝 소개) 사례 1: 식품판매업소의 판촉전략 사례 2: AMAZON.COM 관련서적을 추천 사례 3: 호주의 의료보험협회 필요없는 진료 후 경비청구 사례 적발(의료사기탐지) Jinseog Kim

Association Rules with 연관성 탐사 예제 1 소주 , 콜라 맥주 2 포도주 3 주스 4 5 6 Association Rules with Maximum support of 50% 판매 기록 Rules with Support>50% Supporting Transactions Confidence 소주 è 콜라 1,2,5 75% 맥주 1,4,5 100% Jinseog Kim

Classification 훈련데이터를 근거로 자료의 분류 동일분류에 동일한 예측, 동일한 대응 훈련데이터 : Class-label 과 feature set으로 표현 지도학습(Supervised Learning)의 하나 동일분류에 동일한 예측, 동일한 대응 새로운 상황을 분류한 후 예비된 대응 조치 응용: Credit Approval, 의료 진단 예: 대출시 은행이익 및 지불능력에 따른 특정인의 대출 이자 결정 Decision Tree, 신경망, 통계적 결정론(logistic model, LDA, QDA) Jinseog Kim

Classification Example 나이, 가족수, 직업, 월수입, 기대출신용액 Classifier Class 1 신용도 우량 Class 2 신용도 보통 Class 3 신용도 불량 Jinseog Kim

Decision Tree Classifier 직업 ? 월수입 기대출금 부양가족수 나이>25 우량 불량 보통 유 무 No Yes =0 <200 >=200 >=1 <1000 >=1000 <3000 >=3000 데이터로부터 Decision Tree 자동생성 가능 ID3, CART, C5.0 Jinseog Kim

Neural Network Classifier 생물체 신경세포들의 분산형 정보처리 모델 다수의 Neuron이 계층적으로 연결됨 학습 = 연결강도 조정 Error-back-propagation 지도학습알고리즘 어떠한 Functional Mapping도 학습 가능함 S X1 X2 Xn . w1 w2 wn F(X1, X2, …, Xn) Jinseog Kim

Neural Network Classifier 직업유무(1/0) 나이 월수입 부양가족수 기대출금 우량 보통 불량 Input layer Hidden Output Jinseog Kim

Sequential Pattern Discovery Transaction 자료로부터 사건의 순서 발견 응용 우편판매업자의 판촉 전략 수립 신용카드 사고 예측 특정 질병의 진행 경과 예측, 대응 원자력 발전소 사고 발견, 대응 방법론 연관성 타사의 확장 Hidden Markov Model for doubly stochastic process modeling Jinseog Kim

Sequential Pattern Example in DataBase Jinseog Kim

Similar Time Series Matching Curve Found Jinseog Kim

Clustering(군집화) 개별 데이터들 간의 유사성을 측정하여 유사한 자료를 같은 그룹으로 모음 “유사하다”는 정의가 중요함 Unsupervised Learning Algorithms Symbolic, Neural Network based (Kohonen Feature Map) Statistical clustering 방법론 응용 은행에서 고객의 군집화 - 다른 서비스 제공 고객의 지역적, 생활관습에 따른 차별 홍보전략 Jinseog Kim

Clustering Example Jinseog Kim

Symbolic Clustering Similarity = 2 Similarity = 2 Diff=3 Diff=2.83 Total Score for this cluster partition = average similarity + average difference = 2.33 + 2.94 = 5.27 Jinseog Kim

Data Mining Interface Interactive Mining Data Mining Query Language GUI를 통한 Task의 지정 Data Mining Query Language find association rules related to gpa, birth_place, family_income from student where major = “CS” and birth_place = “Seoul” with support threshold = 0.05 with confidence threshold = 0.7 Jinseog Kim

Kohonen’s Feature Map 신경망을 이용한 군집화 방안 유사한 것들이 한곳에 모이도록 연결강도 조정 이웃관계 유지 Feature Map 상의 거리가 바로 Difference 연결강도의 조정 방법 1) 주어진 입력 X에 가장 잘 맞는 노드 N을 구함 2) N및 의 N의 이웃들의 연결강도를 X의 방향으로 수정 3) 모든 입력에 대하여 이웃의 범위를 줄여 가며 반복 Jinseog Kim

국내사례: 백화점 고객 세분(customer segmentation) 현대정보기술 팀 백화점 고객 세분화가 목적 주 고객은 누구인가 ? 어떤 종류의 고객을 유치하면 매출이 증가하는가 ? 고객 그룹별 주요 상품은 무엇인가? 상품별 주요 고객 은 어떤 그룹에 속해있는가? 어떤 특성의 고객이 연체하는가 ? 기대 효과 일률적 마켓팅전략(mass marketing)에서 부분적이고 차별화된 마켓팅전략(personalization or target marketing)으로 전환 매출 증대, 비용감소, 연체 감소, 이익 증대 Jinseog Kim

백화점 고객 분류 신상정보 매출정보 우량 우수 연체정보 보통 고객분류 불량 신용도 정보 매우불량 각 그룹의 신용한도 Scoring기준표 우량 우수 보통 불량 매우불량 고객분류 각 그룹의 신용한도 Jinseog Kim

백화점고객분류 시스템 Overview 연체정보 신상정보 매출정보 신용도정보 통합고객 DB Credit 신청자 Decision Tree 신청자 분류 기존고객 분류 고객 구룹별 Scoring (Neural Network Scoring 기준표 Credit 등급 및 신용한도 설정 Jinseog Kim

국내 사례 : 신용카드 사기검출 LG종합기술원 신용카드 사기거래의 효과적 검출 사기거래의 특징 변수 기존 신용카드 승인업무 시스템에 통합 운영 목표 사기거래의 특징 변수 거래속도, 거래금액, 가맹점 정보, 사용자 정보 신경망 기법으로 Fraud Score 생성 1995년 LG신용카드 거래자료 14만건으로 훈련 사용 가능한 성능 Jinseog Kim

Data mining Tools IBM Intelligent Miner SAS E-miner Splus Insightful … Jinseog Kim

기타 적용분야 분 야 적 용 사 례 소매/마케팅 고객의 구매패턴과 선호도 분   야 적    용     사    례 소매/마케팅 고객의 구매패턴과 선호도 DM (Direct Mail)에 응답할 가능성이 높은 고객 예측 제품/서비스 교차 판매 판매실적에 영향을 미치는 요소 발견 고객분류, 그룹별 특성발견 광고, 프로모션, 이벤트 은행/카드 신용카드 도용 패턴 추적 이탈 예상고객 선정 및 특성분석 우수고객 선정 및 특성 분석 서비스별 홍보 대상고객 선정 신용평가 모형 개발 주식 거래 규칙 발견 보험 고객분류를 통한 보험료 가격 정책 수립 보험료 청구 사기 패턴 추적 클래임 처리 시간에 영향을 미치는 요소 발견 통신 장거리 전화/무선 전화의 부정한 이용 패턴 추적 이탈 예상 고객 선정 및 특성 분석 서비스간의 연관 관계 발견 우수 고객 선정 및 특성 분석 Jinseog Kim

추가 정보 Mining Business Databases, Brachman, et al., CACM, Vol39, No11, 1996 Mining Scientific Data, Fayyad, et al., CACM, Vol39, No11, 1996 Quest(IBM Almaden) http://www.almaden.ibm.com/cs/quest DBMiner(Simon Fraser Univ.) http://db.cs.sfu.ca/DBMiner KDD(GTE) http://info.gte.com/~kdd/index.html International Conference on Knowledge Discovery and Data Mining Advances in Knowledge Discovery and Data Mining, MIT press, 1996 Jinseog Kim

결 론 대량의 자료 분석 ==> 정보, 지식의 자동 추출 현장에서 쓰이는 솔루션 제공 수준에 도달 데이터베이스의 새로운 활용 새로운 통계분석방법의 필요성 증대 현장에서 쓰이는 솔루션 제공 수준에 도달 현재 많은 연구가 진행 중 다양한 형태로부터의 정보 추출 연구 Hot Research Item Jinseog Kim