Data Mining(Knowledge Discovery in Database)

Slides:

Advertisements

Similar presentations

Computer Science and Engineering. 컴퓨터는 미래 지식 사회의 핵심 요인  지식 사회의 도래 : 매 50 년 마다 큰 기술, 사회적 변화 발생.

Advertisements

2012 Knowledge Service Engineering Knowledge Service Engineering.

인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.

Semantic Web 최 성 희. 시맨틱 웹이란 W3C 가 차세대 인터넷의 가치를 내걸고 추진중인 규 격 컴퓨터가 정보의 의미를 이해하고 의미를 조작할 수 있는 웹 의미있는 웹으로써 보이지 않는 공간의 혁명이라 함.

MDD The Pragmatics of Model-Driven Development Bran Selic, IBM Rational Software 서강대 정보통신대학원 소프트웨어공학 차우람 (A50014) 조용성 (A49012) 최종 수정.

Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.

What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.

Kim Jun Woo 지식정보처리및응용 1 지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우.

1. IT 환경 변화 Ⅳ. 프로젝트 추진방안 기업이 당면한 다양한 문제 해결을 위해서 문제를 효과적으로 해결할 수 있는 IT 시스템이 개발되었으며, 이는 기업 내 데이터 발생의 원인으로 작용하고 있음. IT 환경 변화는 단순 데이터가 아닌 다양한 형태의 데이터를 급격하게.

School of Computer Science and Engineering Seoul National University

7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술

Table of Contents I. OLAP 의 이해 II. OLAP의 CRM 적용 사례 III. 향후 OLAP의 발전 방향.

MrDataBld 2.x 제품 소개 2007.

연관규칙기법과 분류모형을 결합한 상품 추천 시스템:

CRM 추진 제안서 OVERVIEW CRM PROCESS 고객 DB 구축 프로세스 고객 DB 분석 프로세스

빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013

CRM : 고객 관계 관리 Process Customer Relationship Management

연무대기계공업고등학교 좋은 수업과 프로젝트 기반 학습 경일관광경영고등학교 수석교사 조경희.

컴퓨터공학부 교수님 연구 분야 소개.

Global network Los Angeles N. AMERICA EUROPE ASIA AFRICA S. AMERICA

Chapter 7 데이터웨어하우징 의사결정지원시스템.

KMS/Portal 에서의 효율적인 정보검색

(Data Mining Overview)

CRM의 개념과 국내 도입 현황.

Knowledge Enterprise Portal Solution(iKEP)

Business Strategy & KMS in Financial Industry

Information Technology

Enterprise Data Warehouse

데이터마이닝의 소개 Data Mining Introduction

12. 데이터베이스 설계.

최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )

Excel OLAP Reporting / OWC를 이용한

지식저장 및 활용사례 삼성SDS 아리샘 KMS 오승연 책임

[2008년 상반기 신입사원 입문 교육] 비즈니스 프로세스 관리 기술지원센터 기술기획팀.

데이터웨어하우스(DW)

SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.

기술경영 Management of Technology (MOT) - Concepts -

CRM에서의 Data Quality Management

인간의 신경인지기전의 모델에 기반한 추론/학습기술 개발

Computational Finance

Data Mining 기법을 이용한 침입탐지 시스템

Web상에서의 Network Management

Technological Forecasting & social change(2014)

제8장 BSC와 지식경영.

패턴인식 개론 패턴인식 개요 ( CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | )

세일즈분석/분석CRM을 위한 데이터마이닝 활용방안

2009, 46th KLA General Conference

제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야

Chapter4. 연관성 분석.

정보 추출기술 (Data Mining Techniques ) : An Overview

정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼

생산운영관리 입문 CHAPTER01 (Introduction to Operations Management)

Course Guide - Algorithms and Practice -

McGraw-Hill Technology Education

인공지능 소개 및 1장.

dECISION tree 모델의 갱신 시점 모니터링

Insight Deep MininG 건강을 위한 마이너스, 무첨가 식품 인사이트코리아/식품음료신문 공동 기획 기사

Machine Learning using Neural Networks

정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용

성공적인 웹사이트 구축 (2) 변화 발전하는 Site의 미래를 예측 반영해야 함.

Data Analytics for Healthcare

제1장 인적자원관리의 의의 노무관리, 인사관리, 인적자원관리란? 전략적 인적자원관리란? 인적자원관리의 발전 추이는?

17. Spawning Information Agents on the Web

Advanced Data Analytics 데이터분석 전문가

1. 데이터베이스 환경.

기술경영학 박사과정 곽규태 사회학과 석사과정 권애정

Progress Seminar 선석규.

Presentation transcript:

Data Mining(Knowledge Discovery in Database) 2000. 4.20 지도교수 : 박상희 교수님 산업정보 4학기 최윤호 연세대학교 산업대학원

Knowledge Integration 지식기반센터 전략방향과 Data Mining 지식의 축적, 공유, New 분야에 지식 적용에 있어서 강점을 가지고 있으나 New 지식의 조합, 창조에 있어 연구가 요구됨 지식의 수집,검증 (축적) 조직내,조직간 지식공유 Capture Sharing New 분야에 축적된 지식 적용 New 지식의 조합, 창조 Creating Leverage Data Mining 지능System Knowledge Embedding 지식통합 Knowledge Integration 인재,문화 조직체계 지식경영

전망 산업계 조사에 따르면 Fortune 誌 500대 기업 80%가 2000년까지 데이터 마이닝을 기업 성공의 중요한 요소로 인식. 그런 기업 대부분이 D/W에서 대량의 데이타를 모으고 정제하는 중 데이터 마이닝과 인공 지능은 3-5년 이내에 산업계 전반에 걸쳐 확실하게 중요한 영향을 미칠 5대 중요 기술 가운데 최고로 꼽히는 중요한 기술이며, 기업들이 다음 5년 동안에 투자할 10대 기술 중 하나라고 꼽고 있다. - 1997년의 Gartner Group 보고서 “ 1999 ~2003 사이 어떤 기술의 진보와 변화가 정보 기술에 가장 큰 영향을 미치겠는가? ” CIO의 답변 10위 중 데이터 마이닝이 7위를 차지 - Gartner Group 조사 결과

배경 D/W 대량의 데이터, 정보로부터 유용한, 사용하기 편리한 지식차원의 정보를 대량의 데이터, 정보로부터 유용한, 사용하기 편리한 지식차원의 정보를 추출하는 방법이나 도구들에 대한 연구가 시작됨 디지털 시대의 정보의 홍수 통계 위주의 수작업 수준 분석 기법의 한계 ― 의미 없는 패턴 돌출 가능성 대량 Database Data처리 문제 ― 비용, 처리 시간 KDD (Data Mining) 기업에 유용한, 의미 있는 지식의 발견 Company’s Core Competence Database (Raw Data) D/W

KDD(Data Mining)의 정의 The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data(Large Database). ※ 협의의 Data Mining: a process of kinding patterns and regularities in sets of data. ● Goals of KDD (or Data Mining) Acquiring an insight on data(데이터에 대한 직관) Getting previously unknown or hidden pattern(숨겨진 패턴 발견) Extracting useful information from data(유용한 정보의 획득) KDD(or Data Mining) = AI + statistics + database techniques ● 유사어 Knowledge Discovery in Databases (KDD) = Data Mining Knowledge Extraction Data Pattern Processing Data Archaeology Information Harvesting Siftware Data Dredging

Data Mining 개념도 Knowledge Discovery in Database(KDD)라고 불리우는게 타당함 Summarizing Testing /Verifying Cleansing Data Warehouse Knowledge Discovery in Database(KDD)라고 불리우는게 타당함 - Data Mining은 KDD내의 핵심 Operation Data 정제,정리 작업이 KDD의 80%차지

KDD Process(1) Domain 분석 Data 선택 Data 청결 모델과 가설 개발 알고리즘 선택 Data 변환 적절한 해당 지식 습득, 도메인(비지니스)의 목적 분석 Data 선택 기존 데이터 셋을 선택하거나, 발견된 데이터 표본이나 변수 집합을 선정 Data 청결 잘못된 데이터 제거, 빠진 데이타의 처리 문제 등 해결 모델과 가설 개발 데이타를 가장 적절하게 처리할 수 있는 모델 및 필요한 가설을 개발. 알고리즘 선택 모델과 가설을 검증할 수 있고, 데이터 및 도메인 특성에 맞도록 알고리즘(NN, ID3, etc.) 선택. Data 변환 목적에 따른 차원 줄이기 등 사용될 알고리즘에 맞게 데이터 변환

KDD Process(2) → Process가 위에서 아래로의 순서로 이뤄진다기보다 원하는 결과를 얻을 때가지 계속 반복된다. 데이터 마이닝 데이터 분석(알고리즘 적용)을 통하여 일정한 패턴 및 새로운 유추되는 지식을 찾아내며, 이전 스텝에서 세운 가설을 검증 실험과 검증 밝혀진 지식을 기존 데이타를 통한 실험 및 분석작업을 통하여 평가 해석과 사용 이미 존재하는 해당 분야 지식을 기반으로 새롭게 밝혀 낸 지식의 확정, 거부 등의 작업을 통한 통합화 작업, 논리적 시각적 제시 → Process가 위에서 아래로의 순서로 이뤄진다기보다 원하는 결과를 얻을 때가지 계속 반복된다.

Techniques of Data Mining Prediction Classification - Class Model 생성, Similarity Search using some variables or fields in the database to predict unknown or future values of other variables of interest Regression - 변수간 상호 관련성 파악 - 단순회귀, 다중 회귀, 다항 회귀 - 시계열 자료 예측 - 이동 평균, 지수 평활 Time Series Analysis - 객체를 비슷한 객체군으로 그룹핑 - Neural Network, ID3 Clustering Description Association Analysis finding human- interpretable patterns describing the data - 아이템 집합 간의 친화도 예측 Sequence Analysis - 레코드 집합 간 시간적 연관성과 규칙 Deviation Detection -이상 데이터 파악 및 원인 규명 - statistical techniques -사용자의 이해를 도와 줌 -Histogram, Scatter Plot Display Visualization

통계와 데이터 마이닝과의 차이 통계 Data Mining과 통계의 비교 The science of learning from data(데이터로부터 배움의 학문) Design of experiments, analysis and inference from experimental or observational data Data Mining과 통계의 비교 구분 통계학 데이타 마이닝 대상 데이터 observational & experimental data observational 데이터 양 small datasets large datasets 추론 probabilistic inference based on population models Inference based on various models

Machine Learning과 데이터 마이닝과의 차이 기계 학습과 데이터 마이닝의 비교 구분 기계 학습 데이터 마이닝 주목적(관점) improving the performance of an agent finding understandable knowledge 데이터 크기 ML *typically* (but not always) looked at smaller data sets(training set) very large, real-world databases (efficiency가 중요) 데이터 특성 데이터가 정적이며, 잘 정리된, 정확함 (Training Set) 데이터가 동적, Noisy하고, 불확실하며 중요 정보가 빠질 수도 있다. 데이터베이스 특정 Application의 목적에 부합되도록 설계, Learning을 용이하게 하는 구조 일반 구조화된 데이터베이스를 대상 학습 넓은 기능 제공( learning from examples, reinforcement learning, learning with teacher, etc. 데이터로부터 learning(learning from examples) → KDD is that part of ML which is concerned with finding *understandable* knowledge in large sets of real-world examples.

CBR vs. Data Mining Data mining- 지식의 발견에 촛점 Case based reasoning (CBR)의 문제 Rule base reasoning(RBR)의 지식 획득 문제를 어느 정도 해결하나 상당한 지식 획득 노력이 요구됨 Ex) acquiring cases, case vocabulary, retrieval knowledge, adaptation knowledge Case Filtering, acquiring solving strategy or background knowledge → 도메인 전문가에 의존 데이터 마이닝으로 CBR을 보완 오늘날 대부분 조직은 다양한 실세계 과정을 나타내는 거대한 운영 data sets를 가지고 있음. 이러한 데이터베이스에 담겨있는 묵시적 지식을 데이터 마이닝을 통해 활용해서 사례 기반 시스템 개발에서 요구되는 도메인 전문가에 대한 의존을 줄일 수 있지 않나? → CBR의 지식 획득 과정에 기여 지식획득을 위한 데이터 마이닝 지식 획득을 자동화 자동화된 지식 획득은 지식의 왜곡을 줄인다. 지식의 획득 뿐 아니라 창조도 가능. 데이터 마이닝은 단지 데이타의 경향에 관점을 두나 전문가 의존 시 도메인 이해가 필요 비용/시간 문제

Applications 의약품 부작용 분석, 의료 비용 분석 Medicine/Biology 유전자 순서 분석(genetic sequence analysis) Scientific Discovery superconductivity research Marketing/Sales 제품 분석, 구매 패턴 분석, 판매 예측, target mailing Finance/Banking 주식 시장 예측, 신용 평가, 사기 탐지, 은행 연체 관리 Engineering 공장에서의 품질 변수와 프로세스 변수, 조절 변수들간의 관계 규명 및, 불량 감지 항공사의 여객기 문제점 분석, 자동차 문제 진단 Security 음성 인식

성공 사례 Improve product quality and customer service via a data mining LTV Steel Corp. In Cleveland 미국 내 3대 철강 생산업체(http://www.ltvsteel.com/) - with $4 billion in revenue(1996) ○ 문제1 특정 제품에 대해 과거에는 불량이 3-5%까지 인정되었으나 최근 고객은 무결점을 원함 → Data Mining을 통해 결점을 0.03 - 0.05 %정도로 줄이고 $10 million을 절감. ○ 문제2 두 공장(East & West)의 불량률 차(7-8% & 2-3%) 규명 → 불량률과 용광로 재설의 관계를 알아냄 → West는 매 2년마다 용광로 재설하지만 East는 전혀 하지 않음. → $16.8 million절감

Data mining 관련 분야 통계학 패턴 인식 데이터베이스 KDD 인공 지능 정보 검색 지식 습득 데이터(지식) 표현

KDD 상용 Tool Product Company URL Clementine Integral Solutions, Ltd. http://www.isl.co.uk/clem.html Darwin Thinking Machines, Corp. http://www.think.com/html/products/products.htm DataCruncher DataMind http://www.datamindcorp.com DBMiner DBMiner Technology Inc. http://fas.sfu.ca/0h/cs/research/groups/DB/DBMiner/ Enterprise Miner SAS Institute http://www.sas.com/software/components/miner.html GainSmatrs Urban Science http://www.urbanscience.com/main/gainpage.htm Intelligent Miner IBM http://www.software.ibm.com/data/iminer/ MineSet Silicon Graphics, Inc. http://www.sgi.com/Products/software/MineSet/ Model 1 Group 1/Unica Technologies http://www.unica-usa.com/model1.htm ModelQuest AbTech Corp. http://www.abtech.com PRW Unica Technologies, Inc. http://www.unica-usa.com/prodinfo.htm CART Salford Systems http://www.salford-systems.com NeuroShell Ward Systems Group, Inc. http://www.wardsystems.com/neuroshe.htm OLPARS PAR Government Systems mailto://olpars@partech.com Quest IBM http://www.almaden.ibm.com/cs/quest/ Scenario Cognos http://www.cognos.com/busintell/products/index.html See5 RuleQuest Research http://www.rulequest.com/see5-info.html S-Plus MathSoft http://www.mathsoft.com/splus/ Wiz Why WizSoft http://www.wizsoft.com/why.html

Research Issues and Challenges - 대량의 데이터와 고차원,복잡한 데이터 처리 - 사용자의 역할과 선행 지식의 문제 - 통계적 중요성 해석과 검증 - 빠진 데이터, 오류 데이터, 다양한 환경의 영향을 받은 데이터 처리 - 여러 가지 패턴의 다양성 및 그 해석 - 데이터와 지식의 변화에 대응 - 의사 결정 시스템 등 타 시스템과 통합 - 표준이 없는 데이터, multimedia 데이터 등의 고려 - Web 및 document에서의 Mining 추진 시 고려해야 할 문제 데이터 마이닝이 처리하고자 하는 실세계의 데이터는 많은 오류와 필수 지식에 대한 결여 또는 불일치성과 같은 치명적인 문제를 가질 수 있음 데이터 마이닝에 의해서 발견된 지식에 대한 타당성은 전적으로 이를 사용하는 사용자의 책임이지 데이터 마이닝 자체가 자동적으로 발견 지식에 대한 타당성을 보장하지는 못한다. 적절하지 못한 교육, 충분하지 못한 지원 도구, 데이터 수집의 부재 얻고자 하는 목표를 분명히 정의 외부 요소(기업 환경 변화)도 고려

Conclusion -유효하지만 전에는 알려지지 않았던 그리고 궁극적으로 수긍할 수 있는 지식을 거대한 데이터 베이스로부터 끄집어 내어 의사 결정자들이 또 다른 기회로 활용할 수 있도록 도와줌 - 데이터 Warehouse나 DSS와 결합하여 사용될 때 가장 효과적 - 데이터 마이닝의 핵심 알고리즘은 전체 프로세스에서 10%밖에 차지하지 않음. - 얼마나 정제된 정확한 데이터를 갖는가가 관건(정제, 요약 작업이 80%) - 다양한 기법이 사용되어질 수 있고 혼합되어 사용되어짐, 적절한 기법을 찾는 게 중요 → 실질적인 가치는 이러한 데이터 마이닝을 통하여 적용, 사용되어져서 도출되는 지식 암묵지를 형식지로 변환시킴으로 해서 엄청난 가치를 창출할 수 있다. 지식 혁명 보고서(매일경제신문사) 데이터 마이닝은 암묵지를 형식지로 변환해 준다. Masato Koda(University of Tsukuba)