데이터 마이닝 Data Mining 04606000김홍주 05606002김기흔 05606042최준혁.

Slides:

Advertisements

Similar presentations

신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -

Advertisements

KS Cinema 팀 명 : KS 팀 원 : 강상욱 김건우 원찬석 이수경.

Korea University Student IT Management Society.

신규 영화관 입지 선정을 위한 경제성 분석 김동석 이창연 김성수 김병준 채현민 기술경영 1 조.

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.

SNS ! 건대 ▶ 오리 정보 제공 : 해당 지역에서 이슈화 되고 있는 서비스, 제품의 기업에게 정보 제공.

영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.

ICT 기반 베이비붐 세대 창업 사업계획서 작성양식. 목차 1. 창업 동기 2. 지원 동기 3. 자체역량 분석 4. 시장 전망 5. 재무 분석 6. 창업자 및 경영진 준비하시는 사업 특성에 따라 목차 및 세부내용의 일부 변경 ( 추가 및 Skip) 은 가능합니다.

대표자명 / 연락처 / 이메일 ( 기 창업인 경우 회사 명칭 ) 지원하려는 사업 명칭 사업계획서 작성양식.

연관규칙기법과 분류모형을 결합한 상품 추천 시스템:

기업의 CRM 사례 디지털 샵 마스터과 양휘석 교수님 김동현

CRM의 성공사례와 실패사례 6조 송혜정 신은수 원종환

재료수치해석 HW # 박재혁.

블룸의 교육목표분류학 (Bloom’s Taxonomy)

의사 결정 트리(decision tree)

구간추정 (Interval Estimation)

MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를

Entity Relationship Diagram

Samsung Electronics 5 forces

Learning Classifier using DNA Bagging

분석적 사고 (Analytical Thinking)

시스템 설계와 산업디자인 개발.

11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.

컴퓨터과학 전공탐색 배상원.

1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근

제 1장. 멀티미디어 시스템 개요.

제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법

이런 직업도 있어요^^ 빅데이터분석전문가 Q : 어떤 일을 하는 직업인가요?

빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.

자바 5.0 프로그래밍.

V. 인류의 건강과 과학 기술 Ⅴ-1. 식량자원 3. 식품 안전성.

제 10 장 의사결정이란 의사결정은 선택이다.

재무회계의 개념체계 재무회계의 목적 회계의 기본가정 회계정보의 질적 특성 재무제표의 구성요소 회계원칙(회계기준) 제약조건

2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의

원격탐사의 활용 - Mapping -.

기계학습 (Machine Learning)

NFC를 이용한 데이터 수집 및 분석t 디자인 3조 [Bos]- 강윤중 고은미 김영택 이수민.

Clipping 이진학.

Chapter 03. 관계 데이터베이스 설계.

BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례

기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤

데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)

데이터 베이스 DB2 관계형 데이터 모델 권준영.

판매 교육 발표자: [이름].

논문작성을 위한 연구모형 설정 양동훈.

경영정보시스템(MIS) management information system.

알고리즘 알고리즘이란 무엇인가?.

수율관리를 위한 POP시스템 목적과 용도 시스템과 구성 POP의 효과

김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리

3장, 마케팅조사의 일번적 절차 마케팅 조사원론.

주요 프로그램 고객 요청에 의거 품질/개발 분야 각 3개 과정으로 구분하여 교육 계획을 수립 하였으며,

문서 클러스터링 일본언어문화학과 서동진.

Support Vector Machine

1. MTBF의 정의 평균고장간격시간 (Mean Time Between Failures)의 의미로 신뢰성을 나타내는 지표이다.

제 11 장 독점 PowerPoint® Slides by Can Erbil

생산 운영관리의 기초 공 정 설 계 생산능력계획 및 일정계획 재 고 관 리 노동인력관리 품질관리 및 설비보전 생산의 국제화

Data Mining 에 대하여... 건양대학교 컴퓨터학과 / 유 태 규 안녕하십니까?

Information Communication Technology

멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.

멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.

통계학 R을 이용한 분석 제 2 장 자료의 정리.

텍스트 분석 ㈜ 퀀트랩.

마케팅 의사결정과정 시장조사 의사결정 시장 상황 분석

1. 강의 소개 컴퓨팅적 사고와 문제해결.

산타페 ㈜ 2008 영업 제안서 손미순 해외 영업 부회장 2008년 3월 24일 로고.

Presentation transcript:

데이터 마이닝 Data Mining 04606000김홍주 05606002김기흔 05606042최준혁

◈목차 (1)데이터마이닝의 정의 (2)탄생배경 (3)데이터마이닝과 OLAP,SQL의 차이점 (4)기능 (5)특성 (6)관련분야 (7)기법 (8)과정 및 절차 (9)활용분야

⑴데이터 마이닝의 정의 "대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화함으로써 유용한 지식을 추출하는 일련의 과정들” ◈통계적인 관점 "대용량 데이터에 대한 탐색적 데이터 분석 (Exploratory Data Analysis for large amount data )" (Friedman, 1997).

Data Mining 개념도

정보인프라의 구축으로 인해 방대해진 데이터의 양 ⑵데이터 마이닝 탄생 배경 기술적 요인 정보인프라의 구축으로 인해 방대해진 데이터의 양 데이터베이스를 통한 새로운 지식 창출 가능 기계학습기법의 급속한 발전 기업적 환경요인 경쟁력 있는 정보분석환경 출현 데이터베이스 마케팅의 지속적인 대두

(3)데이터마이닝과 OLAP,SQL의 차이점 OLAP(On-Line Analytical Processing)는 최종 사 용자가 다차원 정보에 직접 접근하여 대화식으로 정 보를 분석하고 의사결정에 활용하는 과정을 말하며 SQL(Structured Qurey Language)은 컴퓨터에 서 운용되는 데이터베이스 관리 시스템(Data Base Managemen System:DBMS)과 대화를 하기 위해 서 대화의 도구가 필요한데 이 대화의 도구가 바로 SQL이다. 가장 큰 차이점은 검색에 대한 자료의 형태이다. 단순 한 자료들에 대한 검색이나 통계와는 달리 Mining에 서는 의사결정에 도움이 되는 패턴을 찾기 위해서 목 적변수를 설정하여 분석해야 한다.

⑷데이터 마이닝의 기능 1)분류(Classification) 2)추정(Estimation) 3)예측(Predication) 4)유사집단화(Affinity Grouping) 5)군집화(Clustering) 6)기술(Descriotion)

1)분류 (Classification) 분류는 개체의 새로운 특성들을 관찰하고, 이것을 미리 정의된 집단에 소속시키는 단계로 구성되어 있다. 2)추정 (Estimation) 분류는 “예, 아니오”등의 이산형 결과를 다루는 반면, 추정은 연속적인 결과를 다룬다.추정을 통하여 수입, 키, 신용잔고와 같은 알려지지 않은 연속적인 값들을 찾는다. 3)예측 (Predication) 예측은 미래의 행위나 가치를 다룬다는 것을 제외하면, 분류나 추정과 거의 동일하다. 측정될 변수를 알고, 이에 대한 과거의 자료가 있다면, 분류와 추정을 위한 모든 기법들이 예측에 사용될 수 있다.

4)유사집단화 (Affinity Grouping) 유사 집단화는 어떤 것들이 함께 움직이는가를 결정하는 작업이다 4)유사집단화 (Affinity Grouping) 유사 집단화는 어떤 것들이 함께 움직이는가를 결정하는 작업이다. 5)군집화 (Clustering) 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하 는 작업이다. 군집화가 분류와 구분되는 가장 큰 특징은 사전에 정 의된 집단을 가지고 있지 않다는 것이다. 군집화에서는 자료들을 그 자체의 유사성에 따라 나눈다. 이는 결국 분석가에게 군집의 의미를 부여하는 문제를 던지게 된다. 6)기술 (Descriotion) 때때로 데이터마이닝은 복잡한 데이터베이스를 통해 사람,제품,공정 등에 대한 이해를 돕기 위한 서술을 그 목적으로 할 때도 있다. 충분한 서술은 그 자체만으로도 행동에 대한 설명을 제공하며, 최소 한 어디에서부터 설명을 시작할지를 제시한다.

(5)데이터마이닝의 특성

1)대량의 관측자료 2)컴퓨터 중심적 기법 현대의 컴퓨터 중심적 기법들은 기존의 각종 세련된 기법들 로서 결과를 얻지 못할 경우, 결과를 도출하기 위해 컴퓨터 의 각종 역량을 무제한적으로 활용하는 특성을 가지고 있다. 3)비정형적 자료분석 대다수의 데이터마이닝 기법들은 논리적 원칙에 입각 하였 다기 보다는 경험적으로 개발 되었다.따라서 이러한 기법들 은 대부분 수학적으로 증명되지 않는다.

4)일반화 데이터마이닝 기법의 비정형성을 어느 정도 해결 혹은 보완 하여 주는 기법이 일반화이다.일반화는 예측모형이 새로운 자료에 얼마나 잘 적용되는가를 의미하는데,데이터마이닝 의 구심점이라 할 수 있다. 5)경영에 필요한 의사결정에 적용 다양한 경영분석 상황에서 필요한 경쟁력 확보를 위한 의사 결정을 지원되어 활용될 수 있다. 6)다양한 배경 데이터마이닝은 통계학, 전산과학,인공지능,공학 분야에서 개발되기 시작하였다. 실제로 이를 활용하는 전문가들은 경 영, 경제 정보기술 분야에서 배출되고 있다.

(6)데이터 마이닝 관련분야

Statistics Pattern Recognition KDD AI Data Mining Machine Learning Databases

▶KDD(Knowledge Discovery in Databases) 지식을 추출하는 전 과정을 의미하며, Data Mining은 KDD의 한 분야라고 할 수 있다. ▶기계학습(Machine learning) 인공지능의 한 분야로 자동적인 학습 기법을 설계하고 구연하는 분야 ▶패턴인식(Pattern recognition) 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법을 제공한다. ▶통계학(Statistics) Data Mining의 대부분은 통계학의 한 분야라고 할 수 있다. ▶뉴로컴퓨팅(Neurocomputing) 신경망등과 관련된 다양한 학문적 배경을 가진 한 분야이다.

(7)데이터마이닝의 기법

(On-Line Analytic Processing) -데이터 마이닝의 기법 유전자 알고리즘 OLAP (On-Line Analytic Processing) 의사 결정 나무 데이터 마이닝 기법들 인공신경망 연결분석 연관성 규칙 발견 군집분석 사례 기반 추론

1)의사결정트리 (Decision Tree) 주어진 데이터를 분류 (Classification)하는 목적 으로 사용된다 1)의사결정트리 (Decision Tree) 주어진 데이터를 분류 (Classification)하는 목적 으로 사용된다. 예측(Prediction)하는데는 사용할 수 없다. 즉, 목표 변수가 범주형인 경 우 사용되며 목표변수가 수 치형인 경우에는 결정트리 알고리즘에 적용할 수 없다. 목표 변수가 수치형인 데이터 에 적용하고자 한다면 목표 변수를 수치형 변수에서 범 주형 변수로 이산화한 후 적 용하면 된다. 직업 ? 월수입 기대출금 부양가족수 나이>25 우량 불량 보통 유 무 No Yes =0 <200 >=200 >=1 <1000 >=1000 <3000 >=3000

-상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법 2)연관성규칙발견(Association Rule Discovery) -상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법 - 연관성측정(Associations)은 어떤 특정 문제에 대해 아직은 일어나지 않은 답 ...(예를 들어, 부도·건전)을 얻고자 하는 예측(Prediction)의 문제나 고객들을 특정목적에 따라 분류(Segmentation)하는 문제가 아니라, 상품 혹은 서비스(이하 상품)의 거래기록(Historical)데이터로부터 상품간의 연관성 정도를 측정하여 관성이 많은 상품들을 그룹화하는 클러스터링(clustering)의 일종 - 동시에 구매될 가능성이 큰 상품들을 찾아냄으로써 시장바구니분석(Market Basket Analysis)에서 다루는 문제들에 적용 - 연관성측정에서의 연관규칙은 “상품 A가 구매되어진 경우는 상품 B도 구 매된다.” 라고 해석된다. - 연관 규칙기법을 이용할 수 있는 데이터는 판매시점에서 기록되어진 거 래와 품목에 관한 정보를 담고 있어야 한다. (Item set A) (Item set A) (if A then B : 만일 A가 일어나면 B가 일어난다.)

Input layer Hidden layer Output layer 3)인공신경망(Artificial Neural Network) 자신이 가진 데이터로부터의 반복적인 학습 과정을 거쳐 패턴을 찾 아내고 이를 일반화함으로써 특히 향후를 예측(Prediction)하고 자 하는 문제에 있어서 유용하게 이용되는 기법으로 매우 복잡한 구조를 가진 데이터들 사이의 관계나 패턴을 찾아내는 유연한 비 선형 모형(Flexible nonlinear Model)의 하나다. 직업유무(1/0) 우량 나이 보통 월수입 부양가족수 불량 기대출금 Input layer Hidden layer Output layer

4)군집분석 - 어떤 목적변수(target)를 예측하기보다는 고객수입, 고객연 령과 같이 속성이 비슷한 고객들을 묶어서 몇 개의 의미 있는 군집으로 나누는 것 - 대용량의 데이터가 너무 복잡할 때는 이를 구성하고 있는 몇 개의 군집을 나누어 살펴봄으로써 전체에 대한 윤곽을 잡을 수 있을 것이다. - 군집분석은 주로 다른 분석을 위한 사전 단계로 쓰여질 때가 많다. - 비슷한 속성을 가진 고객을 군집으로 묶는다는 개념을 이해해 보도록 하자. 눈으로 볼 수 있듯이 3개의 군집이 형성되며 가깝 게 위치한 점(고객)들끼리가 각 군집을 이루는 점(고객)들이 된다. 3차원에서도 마찬가지로 가깝게 위치한 점들을 눈으로 확인해가면서 같은 군집으로 묶을 수가 있겠는데 문제는 눈으 로 어느 점이 가까운지를 확인 할 수 없는 4차원 이상부터이다.

5)사례기반추론 -사례 기반 추론 기법(CBR)은 한마디로 주어진 새로운 문제를 과거 의 유사한 사례를 바탕으로 주어진 문제의 상황에 맞게 응용하여 해 결해 가는 기법 -인공지능과 관련된 여러 가지 기법 중의 하나인 사례기반추론은 기 억장치에서 현재의 문제와 유사한 이미 해결된 문제를 찾고, 과거의 문제와 현재의 문제간의 차이를 고려하여 이전의 해결책 또는 해결책 들을 현재의 문제에 맞게끔 수행하는 과정을 가진다. -사례기반추론을 이용한 방법은 과거의 전문가 시스템에서 사용하던 지식 (정형화된 Rule)의 추론을 통해서 해를 얻는 방법보다는 단순 하면서도 문제 영역이 잘 정형화되지 않는 분야에서는 좋은 접근법이 라 할 수 있다. 문제를 해결할 때 미리 모든 지식을 구축할 수 없는 경우가 많이 있다. 이러한 경우 사례 기반 추론 기법은 주어진 문제가 과거에 얻은 경험 (사례로 저장)과 같다면 특별한 추론 없이 그 해를 도출하여 준다. 이러한 개념은 문제가 복잡하고 해를 구하는데 많은 시간이 요구되는 문제에서는 과거 사례를 기억하여 찾아 해를 제공해 준다면 해를 얻 는 시간이 매우 절약되며 효율적인 시스템이라 할 수 있다.

(8)데이터마이닝의 과정 및 절차

-데이터 추출 과정 5단계 ① Sampling 단계 -적절한 양의 표본을 원 자료로부터 추출하는 단계 -여러 가지 자료의 탐색을 통해 기본적인 정보 (기초통계자료,도수분포표,평균,분산,비율 등) 를 획득하는 단계 ② Exploration 단계 -데이터의 효율적인 사용을 위한 변수의 변환, 수량화, 그룹화 등을 통하여 데이터를 변환하는 단계 ③ Modification 단계 ④ Modeling 단계 -분석목적에 따라 적절한 기법을 사용하여 예측모형을 만드는 단계 ⑤ Assessment 단계 -모형화의 결과에 대한 신뢰성,유용성 등을 평가하는 단계

-데이터마이닝의 절차 통합 지식 운영시스템 해석과 평가 모델링 리포팅 데이터 마이닝 패턴 시각화 변환 이해 선발과 정제 변환된 목표 데이터 데이터 베이스 마이닝된 결과를해석하고 기업에 실제적인 가치가 있는지 평가 무엇을 마이닝 할 것인가? 어디에서 마이닝 할 것인가?

-데이터 마이닝의 절차 데 이 터 추 출 데 이 터 정 제 데 이 터 변 형 데 이 터 분 석 데 이 터 해 석 보 고 서 작 성

(9)데이터 마이닝의 활용분야

▶데이터베이스 마케팅(Database Marketing) 목표 마케팅(Target Marketing), 고객 세분화(Segmentation), 고객성향변동분석(Churn Analysis), 교차 판매(Cross Selling), 시장바구니 분석(Basket Market Analysis) 등에서 주로 이용 ▶품질개선 병원과 의료보험조합 등에서는 병원에서 발생하는 사망, 불필요 한 장기입원 및 의료비의 과다청구에 초점을 맞추고 있으며, 제조 업체에서는 제품보증청구를 유발시키는 불량품 감소를 통한 이윤 증가에 중점 위험관리(Risk Management), 망관리(Network Management), 수요 및 판매 예측(Forecasting) 등에 활용 ▶신용평가 은행, 금융서비스, 저당권보험(담보부 보험), 소매(할부 판매) 등 다양한 분야에 적용

▶부정행위의 적발 은행에서는 발견된 패턴을 이용하여 신용카드 거래사기 및 불량수표를 적발할 수 있고, 통신회사에서는 전화카드거래사기를 방지하며, 보험회사에서는 허위 및 과다 청구를 예방 ▶이미지분석 천문학, 문자 인식, 의료진단, 방위산업 등 다양한 분야에서 활용 ▶통신회사 -확보된 고객의 이탈 방지하고 장기간 유지하기 위해 서비스 해지 가능성이 높은 이탈 고객을 예측(chum모델링)

▶금융 -훔친 신용카드 사용의 패턴 탐지 -신용 카드를 다른 은행으로 옮길 가능성이 높은 고객의 예측 -과거의 주식시장의 역사를 보고 이익을 볼 수 있는 주식 투자 방법의 발견 ▶신용카드 회사 -불량 고객을 가려내는데 이용 -분실이나 도난카드에 의한 사고 방지