데이터 마이닝 Data Mining 04606000김홍주 05606002김기흔 05606042최준혁
◈목차 (1)데이터마이닝의 정의 (2)탄생배경 (3)데이터마이닝과 OLAP,SQL의 차이점 (4)기능 (5)특성 (6)관련분야 (7)기법 (8)과정 및 절차 (9)활용분야
⑴데이터 마이닝의 정의 "대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화함으로써 유용한 지식을 추출하는 일련의 과정들” ◈통계적인 관점 "대용량 데이터에 대한 탐색적 데이터 분석 (Exploratory Data Analysis for large amount data )" (Friedman, 1997).
Data Mining 개념도
정보인프라의 구축으로 인해 방대해진 데이터의 양 ⑵데이터 마이닝 탄생 배경 기술적 요인 정보인프라의 구축으로 인해 방대해진 데이터의 양 데이터베이스를 통한 새로운 지식 창출 가능 기계학습기법의 급속한 발전 기업적 환경요인 경쟁력 있는 정보분석환경 출현 데이터베이스 마케팅의 지속적인 대두
(3)데이터마이닝과 OLAP,SQL의 차이점 OLAP(On-Line Analytical Processing)는 최종 사 용자가 다차원 정보에 직접 접근하여 대화식으로 정 보를 분석하고 의사결정에 활용하는 과정을 말하며 SQL(Structured Qurey Language)은 컴퓨터에 서 운용되는 데이터베이스 관리 시스템(Data Base Managemen System:DBMS)과 대화를 하기 위해 서 대화의 도구가 필요한데 이 대화의 도구가 바로 SQL이다. 가장 큰 차이점은 검색에 대한 자료의 형태이다. 단순 한 자료들에 대한 검색이나 통계와는 달리 Mining에 서는 의사결정에 도움이 되는 패턴을 찾기 위해서 목 적변수를 설정하여 분석해야 한다.
⑷데이터 마이닝의 기능 1)분류(Classification) 2)추정(Estimation) 3)예측(Predication) 4)유사집단화(Affinity Grouping) 5)군집화(Clustering) 6)기술(Descriotion)
1)분류 (Classification) 분류는 개체의 새로운 특성들을 관찰하고, 이것을 미리 정의된 집단에 소속시키는 단계로 구성되어 있다. 2)추정 (Estimation) 분류는 “예, 아니오”등의 이산형 결과를 다루는 반면, 추정은 연속적인 결과를 다룬다.추정을 통하여 수입, 키, 신용잔고와 같은 알려지지 않은 연속적인 값들을 찾는다. 3)예측 (Predication) 예측은 미래의 행위나 가치를 다룬다는 것을 제외하면, 분류나 추정과 거의 동일하다. 측정될 변수를 알고, 이에 대한 과거의 자료가 있다면, 분류와 추정을 위한 모든 기법들이 예측에 사용될 수 있다.
4)유사집단화 (Affinity Grouping) 유사 집단화는 어떤 것들이 함께 움직이는가를 결정하는 작업이다 4)유사집단화 (Affinity Grouping) 유사 집단화는 어떤 것들이 함께 움직이는가를 결정하는 작업이다. 5)군집화 (Clustering) 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하 는 작업이다. 군집화가 분류와 구분되는 가장 큰 특징은 사전에 정 의된 집단을 가지고 있지 않다는 것이다. 군집화에서는 자료들을 그 자체의 유사성에 따라 나눈다. 이는 결국 분석가에게 군집의 의미를 부여하는 문제를 던지게 된다. 6)기술 (Descriotion) 때때로 데이터마이닝은 복잡한 데이터베이스를 통해 사람,제품,공정 등에 대한 이해를 돕기 위한 서술을 그 목적으로 할 때도 있다. 충분한 서술은 그 자체만으로도 행동에 대한 설명을 제공하며, 최소 한 어디에서부터 설명을 시작할지를 제시한다.
(5)데이터마이닝의 특성
1)대량의 관측자료 2)컴퓨터 중심적 기법 현대의 컴퓨터 중심적 기법들은 기존의 각종 세련된 기법들 로서 결과를 얻지 못할 경우, 결과를 도출하기 위해 컴퓨터 의 각종 역량을 무제한적으로 활용하는 특성을 가지고 있다. 3)비정형적 자료분석 대다수의 데이터마이닝 기법들은 논리적 원칙에 입각 하였 다기 보다는 경험적으로 개발 되었다.따라서 이러한 기법들 은 대부분 수학적으로 증명되지 않는다.
4)일반화 데이터마이닝 기법의 비정형성을 어느 정도 해결 혹은 보완 하여 주는 기법이 일반화이다.일반화는 예측모형이 새로운 자료에 얼마나 잘 적용되는가를 의미하는데,데이터마이닝 의 구심점이라 할 수 있다. 5)경영에 필요한 의사결정에 적용 다양한 경영분석 상황에서 필요한 경쟁력 확보를 위한 의사 결정을 지원되어 활용될 수 있다. 6)다양한 배경 데이터마이닝은 통계학, 전산과학,인공지능,공학 분야에서 개발되기 시작하였다. 실제로 이를 활용하는 전문가들은 경 영, 경제 정보기술 분야에서 배출되고 있다.
(6)데이터 마이닝 관련분야
Statistics Pattern Recognition KDD AI Data Mining Machine Learning Databases
▶KDD(Knowledge Discovery in Databases) 지식을 추출하는 전 과정을 의미하며, Data Mining은 KDD의 한 분야라고 할 수 있다. ▶기계학습(Machine learning) 인공지능의 한 분야로 자동적인 학습 기법을 설계하고 구연하는 분야 ▶패턴인식(Pattern recognition) 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법을 제공한다. ▶통계학(Statistics) Data Mining의 대부분은 통계학의 한 분야라고 할 수 있다. ▶뉴로컴퓨팅(Neurocomputing) 신경망등과 관련된 다양한 학문적 배경을 가진 한 분야이다.
(7)데이터마이닝의 기법
(On-Line Analytic Processing) -데이터 마이닝의 기법 유전자 알고리즘 OLAP (On-Line Analytic Processing) 의사 결정 나무 데이터 마이닝 기법들 인공신경망 연결분석 연관성 규칙 발견 군집분석 사례 기반 추론
1)의사결정트리 (Decision Tree) 주어진 데이터를 분류 (Classification)하는 목적 으로 사용된다 1)의사결정트리 (Decision Tree) 주어진 데이터를 분류 (Classification)하는 목적 으로 사용된다. 예측(Prediction)하는데는 사용할 수 없다. 즉, 목표 변수가 범주형인 경 우 사용되며 목표변수가 수 치형인 경우에는 결정트리 알고리즘에 적용할 수 없다. 목표 변수가 수치형인 데이터 에 적용하고자 한다면 목표 변수를 수치형 변수에서 범 주형 변수로 이산화한 후 적 용하면 된다. 직업 ? 월수입 기대출금 부양가족수 나이>25 우량 불량 보통 유 무 No Yes =0 <200 >=200 >=1 <1000 >=1000 <3000 >=3000
-상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법 2)연관성규칙발견(Association Rule Discovery) -상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법 - 연관성측정(Associations)은 어떤 특정 문제에 대해 아직은 일어나지 않은 답 ...(예를 들어, 부도·건전)을 얻고자 하는 예측(Prediction)의 문제나 고객들을 특정목적에 따라 분류(Segmentation)하는 문제가 아니라, 상품 혹은 서비스(이하 상품)의 거래기록(Historical)데이터로부터 상품간의 연관성 정도를 측정하여 관성이 많은 상품들을 그룹화하는 클러스터링(clustering)의 일종 - 동시에 구매될 가능성이 큰 상품들을 찾아냄으로써 시장바구니분석(Market Basket Analysis)에서 다루는 문제들에 적용 - 연관성측정에서의 연관규칙은 “상품 A가 구매되어진 경우는 상품 B도 구 매된다.” 라고 해석된다. - 연관 규칙기법을 이용할 수 있는 데이터는 판매시점에서 기록되어진 거 래와 품목에 관한 정보를 담고 있어야 한다. (Item set A) (Item set A) (if A then B : 만일 A가 일어나면 B가 일어난다.)
Input layer Hidden layer Output layer 3)인공신경망(Artificial Neural Network) 자신이 가진 데이터로부터의 반복적인 학습 과정을 거쳐 패턴을 찾 아내고 이를 일반화함으로써 특히 향후를 예측(Prediction)하고 자 하는 문제에 있어서 유용하게 이용되는 기법으로 매우 복잡한 구조를 가진 데이터들 사이의 관계나 패턴을 찾아내는 유연한 비 선형 모형(Flexible nonlinear Model)의 하나다. 직업유무(1/0) 우량 나이 보통 월수입 부양가족수 불량 기대출금 Input layer Hidden layer Output layer
4)군집분석 - 어떤 목적변수(target)를 예측하기보다는 고객수입, 고객연 령과 같이 속성이 비슷한 고객들을 묶어서 몇 개의 의미 있는 군집으로 나누는 것 - 대용량의 데이터가 너무 복잡할 때는 이를 구성하고 있는 몇 개의 군집을 나누어 살펴봄으로써 전체에 대한 윤곽을 잡을 수 있을 것이다. - 군집분석은 주로 다른 분석을 위한 사전 단계로 쓰여질 때가 많다. - 비슷한 속성을 가진 고객을 군집으로 묶는다는 개념을 이해해 보도록 하자. 눈으로 볼 수 있듯이 3개의 군집이 형성되며 가깝 게 위치한 점(고객)들끼리가 각 군집을 이루는 점(고객)들이 된다. 3차원에서도 마찬가지로 가깝게 위치한 점들을 눈으로 확인해가면서 같은 군집으로 묶을 수가 있겠는데 문제는 눈으 로 어느 점이 가까운지를 확인 할 수 없는 4차원 이상부터이다.
5)사례기반추론 -사례 기반 추론 기법(CBR)은 한마디로 주어진 새로운 문제를 과거 의 유사한 사례를 바탕으로 주어진 문제의 상황에 맞게 응용하여 해 결해 가는 기법 -인공지능과 관련된 여러 가지 기법 중의 하나인 사례기반추론은 기 억장치에서 현재의 문제와 유사한 이미 해결된 문제를 찾고, 과거의 문제와 현재의 문제간의 차이를 고려하여 이전의 해결책 또는 해결책 들을 현재의 문제에 맞게끔 수행하는 과정을 가진다. -사례기반추론을 이용한 방법은 과거의 전문가 시스템에서 사용하던 지식 (정형화된 Rule)의 추론을 통해서 해를 얻는 방법보다는 단순 하면서도 문제 영역이 잘 정형화되지 않는 분야에서는 좋은 접근법이 라 할 수 있다. 문제를 해결할 때 미리 모든 지식을 구축할 수 없는 경우가 많이 있다. 이러한 경우 사례 기반 추론 기법은 주어진 문제가 과거에 얻은 경험 (사례로 저장)과 같다면 특별한 추론 없이 그 해를 도출하여 준다. 이러한 개념은 문제가 복잡하고 해를 구하는데 많은 시간이 요구되는 문제에서는 과거 사례를 기억하여 찾아 해를 제공해 준다면 해를 얻 는 시간이 매우 절약되며 효율적인 시스템이라 할 수 있다.
(8)데이터마이닝의 과정 및 절차
-데이터 추출 과정 5단계 ① Sampling 단계 -적절한 양의 표본을 원 자료로부터 추출하는 단계 -여러 가지 자료의 탐색을 통해 기본적인 정보 (기초통계자료,도수분포표,평균,분산,비율 등) 를 획득하는 단계 ② Exploration 단계 -데이터의 효율적인 사용을 위한 변수의 변환, 수량화, 그룹화 등을 통하여 데이터를 변환하는 단계 ③ Modification 단계 ④ Modeling 단계 -분석목적에 따라 적절한 기법을 사용하여 예측모형을 만드는 단계 ⑤ Assessment 단계 -모형화의 결과에 대한 신뢰성,유용성 등을 평가하는 단계
-데이터마이닝의 절차 통합 지식 운영시스템 해석과 평가 모델링 리포팅 데이터 마이닝 패턴 시각화 변환 이해 선발과 정제 변환된 목표 데이터 데이터 베이스 마이닝된 결과를해석하고 기업에 실제적인 가치가 있는지 평가 무엇을 마이닝 할 것인가? 어디에서 마이닝 할 것인가?
-데이터 마이닝의 절차 데 이 터 추 출 데 이 터 정 제 데 이 터 변 형 데 이 터 분 석 데 이 터 해 석 보 고 서 작 성
(9)데이터 마이닝의 활용분야
▶데이터베이스 마케팅(Database Marketing) 목표 마케팅(Target Marketing), 고객 세분화(Segmentation), 고객성향변동분석(Churn Analysis), 교차 판매(Cross Selling), 시장바구니 분석(Basket Market Analysis) 등에서 주로 이용 ▶품질개선 병원과 의료보험조합 등에서는 병원에서 발생하는 사망, 불필요 한 장기입원 및 의료비의 과다청구에 초점을 맞추고 있으며, 제조 업체에서는 제품보증청구를 유발시키는 불량품 감소를 통한 이윤 증가에 중점 위험관리(Risk Management), 망관리(Network Management), 수요 및 판매 예측(Forecasting) 등에 활용 ▶신용평가 은행, 금융서비스, 저당권보험(담보부 보험), 소매(할부 판매) 등 다양한 분야에 적용
▶부정행위의 적발 은행에서는 발견된 패턴을 이용하여 신용카드 거래사기 및 불량수표를 적발할 수 있고, 통신회사에서는 전화카드거래사기를 방지하며, 보험회사에서는 허위 및 과다 청구를 예방 ▶이미지분석 천문학, 문자 인식, 의료진단, 방위산업 등 다양한 분야에서 활용 ▶통신회사 -확보된 고객의 이탈 방지하고 장기간 유지하기 위해 서비스 해지 가능성이 높은 이탈 고객을 예측(chum모델링)
▶금융 -훔친 신용카드 사용의 패턴 탐지 -신용 카드를 다른 은행으로 옮길 가능성이 높은 고객의 예측 -과거의 주식시장의 역사를 보고 이익을 볼 수 있는 주식 투자 방법의 발견 ▶신용카드 회사 -불량 고객을 가려내는데 이용 -분실이나 도난카드에 의한 사고 방지