정보 추출기술 (Data Mining Techniques ) : An Overview

Slides:



Advertisements
Similar presentations
1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
Advertisements

Computer Science and Engineering. 컴퓨터는 미래 지식 사회의 핵심 요인  지식 사회의 도래 : 매 50 년 마다 큰 기술, 사회적 변화 발생.
김수연 Capstone Design Realization Cost Reduction through Deep Artificial Neural Network Analysis.
인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
Kim Jun Woo 지식정보처리및응용 1 지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우.
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
CRM 추진 제안서 OVERVIEW CRM PROCESS 고객 DB 구축 프로세스 고객 DB 분석 프로세스
빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013
Department of Statistics & Information Science
Data Mining(Knowledge Discovery in Database)
컴퓨터공학부 교수님 연구 분야 소개.
Neural Network - Perceptron
유 제 흥 지원업체 분석 및 잡서칭 스킬 유 제 흥
제 6 장 생체인식.
MIS Report 2 제출일: 2008년 11월 04일 과목명: 경영정보시스템 교수명: 이 건창 교수님 성 명:조재선.
(Data Mining Overview)
데이터 마이닝 소개 Introduction to Data Mining
분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Chapter 5. Q-LEARNING & DEEP SARSA
정 의 학습의 일반적 정의 기계학습(Machine Learning)의 정의
데이터마이닝 데이터마이닝.
REINFORCEMENT LEARNING
소형화된 인공두뇌의 제작과 생물학적 이용에 관한 탐구
DBMS실습(I) 데이터베이스 기본개념 2015년 1학기 동서울대학교 컴퓨터소프트웨어과.
제4장 자연언어처리, 인공지능, 기계학습.
Information Technology
데이터마이닝의 소개 Data Mining Introduction
12. 데이터베이스 설계.
소프트웨어 공학 (Software Engineering)
최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )
미래 예측 3가지 방법론.
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
EPS Based Motion Recognition algorithm Comparison
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
Data Modeling Database 활용을 위한 기초 이론 Database의 개요 Data Modeling
2장 운영 체제의 개요 운영체제의 개념 운영체제의 유형 운영체제의 발전 과정 운영체제의 구성 운영체제 서비스 시스템 구조
Visual C++ Programming
Computational Finance
Data Mining 기법을 이용한 침입탐지 시스템
CH 851 지식기반 시스템 응용 (모바일 시스템) 2006년도 제 2학기.
A Survey of Affect Recognition Methods :
소형화된 인공두뇌의 제작과 생물학적 이용에 관한 탐구
개요 신경회로망(Neural Networks)
제 3 장 신경회로망 (Neural Networks)
9. 기계학습.
Cluster Analysis (군집 분석)
Point Pattern Matching by Using Parameterization
Data Mining.
제 9장: 파일과 데이터베이스 데이터 구성에서부터 데이터 채굴 까지.
Data Mining Final Project
패턴인식 개론 패턴인식 개요 ( CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | )
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
Chapter4. 연관성 분석.
인공지능 소개 및 1장.
dECISION tree 모델의 갱신 시점 모니터링
Machine Learning using Neural Networks
시스템 분석 및 설계 글로컬 IT 학과 김정기.
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
0801 Workshop.
Data Analytics for Healthcare
의사결정지원시스템 6조 오나연 송혜정 신은수 오경석
1장. 서 론 데이터베이스의 개요 모델의 종류 관계형 모델과 객체 지향형 데이터베이스 SQL이란 무엇인가?
(Association Rules Mining)
ER-관계 사상에 의한 관계 데이터베이스 설계
데이터 베이스의 내부 구조.
데이터 마이닝 소개 Introduction to Data Mining
CSI 진화연산 2008년도 제 1학기.
Progress Seminar 선석규.
Presentation transcript:

정보 추출기술 (Data Mining Techniques ) : An Overview 연구개발정보센터 김 진형 jkim@kordic.re.kr

의사결정을 위한 정보 추출 데이타 의사결정 정보 인구통계 A상품 구매자의 80%가 B상품도 구매한다 Point of Sale ATM 금융통계 신용정보 문헌 첩보자료 진료기록 신체검사기록 A상품 구매자의 80%가 B상품도 구매한다 미국시장의 자동차 구매력이 6개월간 감소 A상품의 매출 중가가 B상품의 2배 탈수 증상을 보이면 위험 광고전략은 ? 상품의 진열 최적의 예산 할당은 ? 시장점유의 확대방안은 ? 고객의 이탈 방지책은 ? 처방은 ?

Data Mining 이란 ? 대량의 데이터로부터 유용한 정보를 추출하여 이해하기 쉬운 형태로 변환하여 실제의 의사결정과정에 적용하는 전과정 저장된 데이터에서 정보, 지식, 규칙, 패턴,특성을 추출함

배 경 저장되는 데이터 양의 폭발적 증가 정보, 지식의 부족 (언제나) 인지적 처리의 한계 배 경 저장되는 데이터 양의 폭발적 증가 데이타베이스 시스템의 사용 증가 데이터 수집의 자동화 정보, 지식의 부족 (언제나) 인지적 처리의 한계 자동처리의 요구 증대 인공지능(Machine Learning) 기술의 발전 Knowledge Discovery, Knowledge Extraction, Machine Learning, Data/Pattern Analysis

Data Mining 과정 1) 데이터 선택 2) 데이터 변환 3) 정보 추출 4) 결과 해석 - 사용될 데이터 유형 선택 - 정보 추출 유형에 따른 자료 변환 - 수치화, 논리값, 정규화, 3) 정보 추출 4) 결과 해석 - 가시화 (도표), 선택 제시 - 평가, 피드백

Data Mining 과정 Select Transform Mine Assimilate Extracted Data 자료선택 자료변환 정보추출 해석 및 취합 DATABASE 추출된 데이타 Extracted Data Selected Data Assimilated data Transformed Data Visualization 가시화

고 객 관 리 Target Audience Customers Purchased frozen Purchase History orange juice in 12oz cans Purchase History Point of Sale Data Survey data 60세 넘으신 분들이 많이 산다 Royal Customers (buys the same brand 80% of time)

Data Mining기법 분류 탐사할 지식, 정보의 종류에 따라서 탐사할 데이타베이스의 종류에 따라서 u 탐사할 지식, 정보의 종류에 따라서 탐사할 데이타베이스의 종류에 따라서 적용할 탐사 기법에 따라서

발견할 지식의 종류에 따라서 Association(연관성 발견) Characterization(특성발견) Data Mining기법 분류 발견할 지식의 종류에 따라서 Association(연관성 발견) Characterization(특성발견) Classification(분류) Summarization(요약) Clustering(군집화) Sequential Pattern Discovery(연속패턴발견) Trend(경향 발견) Deviation Detection(추세변화발견)

탐사할 DB의 종류에 따라서 Relational DB transactional DB Object-oriented DB Data Mining기법분류 탐사할 DB의 종류에 따라서 Relational DB transactional DB Object-oriented DB Spatial DB Temporal DB Textual vs Multimedia Hetrogeneous, …

탐사 기법에 따라서 기호처리식 인공지능적 방법론 패턴인식/통계적 방법 신경망적 방법 Data Mining 기법분류 논리적 추론, rule induction 패턴인식/통계적 방법 Statistical Classification(supervised learning) Clustering Techniques(unsupervised learning) Time Series Analysis 신경망적 방법 이론적으론 어떠한 functional mapping도 가능 강력한 학습 algorithm이 있음

연관성 규칙 탐사 Transaction DB의 자료분석 RULE 강도의 척도 A ==> B [support, confidence] support = #(A and B) / #(total transactions) confidence = #(A and B) / #(A) 예 : milk ==> bread [7%, 70%] 사례 1: 식품판매업소의 판촉전략 사례 2: 호주의 의료보험협회 필요없는 진료후 경비청구 사례 적발

Association Rules with 연관성 탐사 예제 Association Rules with Maximum support of 50% 판매 기록

Data Classification 훈련데이터를 근거로 자료의 분류 동일분류에 동일한 예측, 동일한 대응 훈련데이터 : Class-label 과 feature set으로 표현 지도학습(Supervised Learning) 동일분류에 동일한 예측, 동일한 대응 새로운 상황을 분류한 후 예비된 대응 조치 응용: Credit Approval, 의료 진단 예: 대출시 은행이익및 지불능력에 따른 특정인의 대출 이자 결정 Decision Tree, 신경망, 통계적 결정론

Classification Example 나이 가족수 직업 월수입 기대출신용액 Classifier Class 1 신용도 우량 Class 2 신용도 보통 Class 3 신용도 불량

Decision Tree Classifier 직업 ? 월수입 기대출금 부양가족수 나이>25 우량 불량 보통 유 무 No Yes =0 <200 >=200 >=1 <1000 >=1000 <3000 >=3000 데이터로부터 Decision Tree 자동생성 가능 ID3 algorithm

Neural Network Classifier 생물체 신경세포들의 분산형 정보처리 모델 다수의 Neuron이 계층적으로 연결됨 학습 = 연결강도 조정 Error-back-propagation 지도학습알고리즘 어떠한 Functional Mapping도 학습 가능함 S X1 X2 Xn . w1 w2 wn F(X1, X2, …, Xn)

Neural Network Classifier 직업유무(1/0) 우량 나이 보통 월수입 부양가족수 불량 기대출금 Input layer Hidden layer Output layer

Sequential Pattern Discovery Transaction 자료로부터 사건의 순서 발견 응용 우편판매업자의 판촉 전략 수립 신용카드 사고 예측 특정 질병의 진행 경과 예측, 대응 원자력 발전소 사고 발견, 대응 방법론 연관성 타사의 확장 Hidden Markov Model for doubly stochastic process modeling

Sequential Pattern Example in DataBase

Similar Time Series Matching Curve Found

Clustering(군집화) 유사한 데이터를 한 구룹으로 모음 “유사하다”는 정의가 중요함 Unsupervised Learning Algorithms Symbolic Neural Network based (Kohonen Feature Map) 응용 은행에서 고객의 군집화 - 다른 서비스 제공 고객의 지역적, 생활관습에 따른 차별 홍보전략

Clustering Example

Symbolic Clustering Similarity = 2 Similarity = 2 Diff=3 Diff=2.83 Total Score for this cluster partition = average similarity + average difference = 2.33 + 2.94 = 5.27

Data Mining Interface Interactive Mining Data Mining Query Language GUI를 통한 Task의 지정 Data Mining Query Language find association rules related to gpa, birth_place, family_income from student where major = “CS” and birth_place = “Seoul” with support threshold = 0.05 with confidence threshold = 0.7

Kohonen’s Feature Map 신경망을 이용한 군집화 방안 유사한 것들이 한곳에 모이도록 연결강도 조정 이웃관계 유지 Feature Map 상의 거리가 바로 Difference 연결강도의 조정 방법 1) 주어진 입력 X에 가장 잘 맞는 노드 N을 구함 2) N및 의 N의 이웃들의 연결강도를 X의 방향으로 수정 3) 모든 입력에 대하여 이웃의 범위를 줄여 가며 반복

국내사례: 백화점 고객 분류 현대정보기술 팀 백화점 고객분류가 목적 기대 효과 주 고객은 누구인가 ? 어떤 종류의 고객을 유치하면 매출이 증가하는가 ? 고객 구룹별 주요 상품, 상품별 주요고객 구룹 어떤 특성의 고객이 연체하는가 ? 기대 효과 일률적 마켓팅전략에서 부분적이고 차별화된 마켓팅전략으로 매출 증대, 비용감소, 연체 감소, 이익 증대

백화점 고객 분류 신상정보 매출정보 우량 우수 연체정보 보통 고객분류 불량 신용도 정보 매우불량 각 구룹의 신용한도 Scoring기준표 우량 우수 보통 불량 매우불량 고객분류 각 구룹의 신용한도

백화점고객분류 시스템 Overview 연체정보 신상정보 매출정보 신용도정보 통합고객 DB Credit 신청자 Decision Tree 신청자 분류 기존고객 분류 고객 구룹별 Scoring (Neural Network Scoring 기준표 Credit 등급 및 신용한도 설정

국내 사례 : 신용카드 사기검출 LG종합기술원 신용카드 사기거래의 효과적 검출 사기거래의 특징 변수 기존 신용카드 승인업무 시스템에 통합 운영 목표 사기거래의 특징 변수 거래속도, 거래금액, 가맹점 정보, 사용자 정보 신경망 기법으로 Fraud Score 생성 1995년 LG신용카드 거래자료 14만건으로 훈련 사용 가능한 성능

IBM Intelligent Miner Open Data Access Standard API Visualization Data Mining Methods Pre/Post Processing Functions Statistical functions

추가 정보 Mining Business Databases, Brachman, et al., CACM, Vol39, No11, 1996 Mining Scientific Data, Fayyad, et al., CACM, Vol39, No11, 1996 Quest(IBM Almaden) http://www.almaden.ibm.com/cs/quest DBMiner(Simon Fraser Univ.) http://db.cs.sfu.ca/DBMiner KDD(GTE) http://info.gte.com/~kdd/index.html International Conference on Knowledge Discovery and Data Mining Advances in Knowledge Discovery and Data Mining, MIT press, 1996

결 론 대량의 자료 분석 ==> 정보, 지식의 자동 추출 인공지능, DB 기술의 통합 활용 데이터베이스의 새로운 활용 인공지능, DB 기술의 통합 활용 현장에서 쓰이는 솔루션 제공 수준에 도달 현재 많은 연구가 진행 중 다양한 형태로부터의 정보 추출 연구 Hot Research Item