Data Mining(Knowledge Discovery in Database) 2000. 4.20 지도교수 : 박상희 교수님 산업정보 4학기 최윤호 연세대학교 산업대학원
Knowledge Integration 지식기반센터 전략방향과 Data Mining 지식의 축적, 공유, New 분야에 지식 적용에 있어서 강점을 가지고 있으나 New 지식의 조합, 창조에 있어 연구가 요구됨 지식의 수집,검증 (축적) 조직내,조직간 지식공유 Capture Sharing New 분야에 축적된 지식 적용 New 지식의 조합, 창조 Creating Leverage Data Mining 지능System Knowledge Embedding 지식통합 Knowledge Integration 인재,문화 조직체계 지식경영
전망 산업계 조사에 따르면 Fortune 誌 500대 기업 80%가 2000년까지 데이터 마이닝을 기업 성공의 중요한 요소로 인식. 그런 기업 대부분이 D/W에서 대량의 데이타를 모으고 정제하는 중 데이터 마이닝과 인공 지능은 3-5년 이내에 산업계 전반에 걸쳐 확실하게 중요한 영향을 미칠 5대 중요 기술 가운데 최고로 꼽히는 중요한 기술이며, 기업들이 다음 5년 동안에 투자할 10대 기술 중 하나라고 꼽고 있다. - 1997년의 Gartner Group 보고서 “ 1999 ~2003 사이 어떤 기술의 진보와 변화가 정보 기술에 가장 큰 영향을 미치겠는가? ” CIO의 답변 10위 중 데이터 마이닝이 7위를 차지 - Gartner Group 조사 결과
배경 D/W 대량의 데이터, 정보로부터 유용한, 사용하기 편리한 지식차원의 정보를 대량의 데이터, 정보로부터 유용한, 사용하기 편리한 지식차원의 정보를 추출하는 방법이나 도구들에 대한 연구가 시작됨 디지털 시대의 정보의 홍수 통계 위주의 수작업 수준 분석 기법의 한계 ― 의미 없는 패턴 돌출 가능성 대량 Database Data처리 문제 ― 비용, 처리 시간 KDD (Data Mining) 기업에 유용한, 의미 있는 지식의 발견 Company’s Core Competence Database (Raw Data) D/W
KDD(Data Mining)의 정의 The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data(Large Database). ※ 협의의 Data Mining: a process of kinding patterns and regularities in sets of data. ● Goals of KDD (or Data Mining) Acquiring an insight on data(데이터에 대한 직관) Getting previously unknown or hidden pattern(숨겨진 패턴 발견) Extracting useful information from data(유용한 정보의 획득) KDD(or Data Mining) = AI + statistics + database techniques ● 유사어 Knowledge Discovery in Databases (KDD) = Data Mining Knowledge Extraction Data Pattern Processing Data Archaeology Information Harvesting Siftware Data Dredging
Data Mining 개념도 Knowledge Discovery in Database(KDD)라고 불리우는게 타당함 Summarizing Testing /Verifying Cleansing Data Warehouse Knowledge Discovery in Database(KDD)라고 불리우는게 타당함 - Data Mining은 KDD내의 핵심 Operation Data 정제,정리 작업이 KDD의 80%차지
KDD Process(1) Domain 분석 Data 선택 Data 청결 모델과 가설 개발 알고리즘 선택 Data 변환 적절한 해당 지식 습득, 도메인(비지니스)의 목적 분석 Data 선택 기존 데이터 셋을 선택하거나, 발견된 데이터 표본이나 변수 집합을 선정 Data 청결 잘못된 데이터 제거, 빠진 데이타의 처리 문제 등 해결 모델과 가설 개발 데이타를 가장 적절하게 처리할 수 있는 모델 및 필요한 가설을 개발. 알고리즘 선택 모델과 가설을 검증할 수 있고, 데이터 및 도메인 특성에 맞도록 알고리즘(NN, ID3, etc.) 선택. Data 변환 목적에 따른 차원 줄이기 등 사용될 알고리즘에 맞게 데이터 변환
KDD Process(2) → Process가 위에서 아래로의 순서로 이뤄진다기보다 원하는 결과를 얻을 때가지 계속 반복된다. 데이터 마이닝 데이터 분석(알고리즘 적용)을 통하여 일정한 패턴 및 새로운 유추되는 지식을 찾아내며, 이전 스텝에서 세운 가설을 검증 실험과 검증 밝혀진 지식을 기존 데이타를 통한 실험 및 분석작업을 통하여 평가 해석과 사용 이미 존재하는 해당 분야 지식을 기반으로 새롭게 밝혀 낸 지식의 확정, 거부 등의 작업을 통한 통합화 작업, 논리적 시각적 제시 → Process가 위에서 아래로의 순서로 이뤄진다기보다 원하는 결과를 얻을 때가지 계속 반복된다.
Techniques of Data Mining Prediction Classification - Class Model 생성, Similarity Search using some variables or fields in the database to predict unknown or future values of other variables of interest Regression - 변수간 상호 관련성 파악 - 단순회귀, 다중 회귀, 다항 회귀 - 시계열 자료 예측 - 이동 평균, 지수 평활 Time Series Analysis - 객체를 비슷한 객체군으로 그룹핑 - Neural Network, ID3 Clustering Description Association Analysis finding human- interpretable patterns describing the data - 아이템 집합 간의 친화도 예측 Sequence Analysis - 레코드 집합 간 시간적 연관성과 규칙 Deviation Detection -이상 데이터 파악 및 원인 규명 - statistical techniques -사용자의 이해를 도와 줌 -Histogram, Scatter Plot Display Visualization
통계와 데이터 마이닝과의 차이 통계 Data Mining과 통계의 비교 The science of learning from data(데이터로부터 배움의 학문) Design of experiments, analysis and inference from experimental or observational data Data Mining과 통계의 비교 구분 통계학 데이타 마이닝 대상 데이터 observational & experimental data observational 데이터 양 small datasets large datasets 추론 probabilistic inference based on population models Inference based on various models
Machine Learning과 데이터 마이닝과의 차이 기계 학습과 데이터 마이닝의 비교 구분 기계 학습 데이터 마이닝 주목적(관점) improving the performance of an agent finding understandable knowledge 데이터 크기 ML *typically* (but not always) looked at smaller data sets(training set) very large, real-world databases (efficiency가 중요) 데이터 특성 데이터가 정적이며, 잘 정리된, 정확함 (Training Set) 데이터가 동적, Noisy하고, 불확실하며 중요 정보가 빠질 수도 있다. 데이터베이스 특정 Application의 목적에 부합되도록 설계, Learning을 용이하게 하는 구조 일반 구조화된 데이터베이스를 대상 학습 넓은 기능 제공( learning from examples, reinforcement learning, learning with teacher, etc. 데이터로부터 learning(learning from examples) → KDD is that part of ML which is concerned with finding *understandable* knowledge in large sets of real-world examples.
CBR vs. Data Mining Data mining- 지식의 발견에 촛점 Case based reasoning (CBR)의 문제 Rule base reasoning(RBR)의 지식 획득 문제를 어느 정도 해결하나 상당한 지식 획득 노력이 요구됨 Ex) acquiring cases, case vocabulary, retrieval knowledge, adaptation knowledge Case Filtering, acquiring solving strategy or background knowledge → 도메인 전문가에 의존 데이터 마이닝으로 CBR을 보완 오늘날 대부분 조직은 다양한 실세계 과정을 나타내는 거대한 운영 data sets를 가지고 있음. 이러한 데이터베이스에 담겨있는 묵시적 지식을 데이터 마이닝을 통해 활용해서 사례 기반 시스템 개발에서 요구되는 도메인 전문가에 대한 의존을 줄일 수 있지 않나? → CBR의 지식 획득 과정에 기여 지식획득을 위한 데이터 마이닝 지식 획득을 자동화 자동화된 지식 획득은 지식의 왜곡을 줄인다. 지식의 획득 뿐 아니라 창조도 가능. 데이터 마이닝은 단지 데이타의 경향에 관점을 두나 전문가 의존 시 도메인 이해가 필요 비용/시간 문제
Applications 의약품 부작용 분석, 의료 비용 분석 Medicine/Biology 유전자 순서 분석(genetic sequence analysis) Scientific Discovery superconductivity research Marketing/Sales 제품 분석, 구매 패턴 분석, 판매 예측, target mailing Finance/Banking 주식 시장 예측, 신용 평가, 사기 탐지, 은행 연체 관리 Engineering 공장에서의 품질 변수와 프로세스 변수, 조절 변수들간의 관계 규명 및, 불량 감지 항공사의 여객기 문제점 분석, 자동차 문제 진단 Security 음성 인식
성공 사례 Improve product quality and customer service via a data mining LTV Steel Corp. In Cleveland 미국 내 3대 철강 생산업체(http://www.ltvsteel.com/) - with $4 billion in revenue(1996) ○ 문제1 특정 제품에 대해 과거에는 불량이 3-5%까지 인정되었으나 최근 고객은 무결점을 원함 → Data Mining을 통해 결점을 0.03 - 0.05 %정도로 줄이고 $10 million을 절감. ○ 문제2 두 공장(East & West)의 불량률 차(7-8% & 2-3%) 규명 → 불량률과 용광로 재설의 관계를 알아냄 → West는 매 2년마다 용광로 재설하지만 East는 전혀 하지 않음. → $16.8 million절감
Data mining 관련 분야 통계학 패턴 인식 데이터베이스 KDD 인공 지능 정보 검색 지식 습득 데이터(지식) 표현
KDD 상용 Tool Product Company URL Clementine Integral Solutions, Ltd. http://www.isl.co.uk/clem.html Darwin Thinking Machines, Corp. http://www.think.com/html/products/products.htm DataCruncher DataMind http://www.datamindcorp.com DBMiner DBMiner Technology Inc. http://fas.sfu.ca/0h/cs/research/groups/DB/DBMiner/ Enterprise Miner SAS Institute http://www.sas.com/software/components/miner.html GainSmatrs Urban Science http://www.urbanscience.com/main/gainpage.htm Intelligent Miner IBM http://www.software.ibm.com/data/iminer/ MineSet Silicon Graphics, Inc. http://www.sgi.com/Products/software/MineSet/ Model 1 Group 1/Unica Technologies http://www.unica-usa.com/model1.htm ModelQuest AbTech Corp. http://www.abtech.com PRW Unica Technologies, Inc. http://www.unica-usa.com/prodinfo.htm CART Salford Systems http://www.salford-systems.com NeuroShell Ward Systems Group, Inc. http://www.wardsystems.com/neuroshe.htm OLPARS PAR Government Systems mailto://olpars@partech.com Quest IBM http://www.almaden.ibm.com/cs/quest/ Scenario Cognos http://www.cognos.com/busintell/products/index.html See5 RuleQuest Research http://www.rulequest.com/see5-info.html S-Plus MathSoft http://www.mathsoft.com/splus/ Wiz Why WizSoft http://www.wizsoft.com/why.html
Research Issues and Challenges - 대량의 데이터와 고차원,복잡한 데이터 처리 - 사용자의 역할과 선행 지식의 문제 - 통계적 중요성 해석과 검증 - 빠진 데이터, 오류 데이터, 다양한 환경의 영향을 받은 데이터 처리 - 여러 가지 패턴의 다양성 및 그 해석 - 데이터와 지식의 변화에 대응 - 의사 결정 시스템 등 타 시스템과 통합 - 표준이 없는 데이터, multimedia 데이터 등의 고려 - Web 및 document에서의 Mining 추진 시 고려해야 할 문제 데이터 마이닝이 처리하고자 하는 실세계의 데이터는 많은 오류와 필수 지식에 대한 결여 또는 불일치성과 같은 치명적인 문제를 가질 수 있음 데이터 마이닝에 의해서 발견된 지식에 대한 타당성은 전적으로 이를 사용하는 사용자의 책임이지 데이터 마이닝 자체가 자동적으로 발견 지식에 대한 타당성을 보장하지는 못한다. 적절하지 못한 교육, 충분하지 못한 지원 도구, 데이터 수집의 부재 얻고자 하는 목표를 분명히 정의 외부 요소(기업 환경 변화)도 고려
Conclusion -유효하지만 전에는 알려지지 않았던 그리고 궁극적으로 수긍할 수 있는 지식을 거대한 데이터 베이스로부터 끄집어 내어 의사 결정자들이 또 다른 기회로 활용할 수 있도록 도와줌 - 데이터 Warehouse나 DSS와 결합하여 사용될 때 가장 효과적 - 데이터 마이닝의 핵심 알고리즘은 전체 프로세스에서 10%밖에 차지하지 않음. - 얼마나 정제된 정확한 데이터를 갖는가가 관건(정제, 요약 작업이 80%) - 다양한 기법이 사용되어질 수 있고 혼합되어 사용되어짐, 적절한 기법을 찾는 게 중요 → 실질적인 가치는 이러한 데이터 마이닝을 통하여 적용, 사용되어져서 도출되는 지식 암묵지를 형식지로 변환시킴으로 해서 엄청난 가치를 창출할 수 있다. 지식 혁명 보고서(매일경제신문사) 데이터 마이닝은 암묵지를 형식지로 변환해 준다. Masato Koda(University of Tsukuba)