Data Mining: A Closer Look

Slides:



Advertisements
Similar presentations
일정 관리 다이어리 제작 JSP Programming with a Workbook. 학습 목표  사용자의 일정을 관리할 수 있는 다이어리에 대하여 알아보자. JSP Programming with a Workbook2.
Advertisements

R 분석 모델 선택, k-means 알고리즘. 분석 모델 선택 문제 해결을 위한 모델 선택 분류 문제 클러스터링 그룹화 vs 예측 문제 모델의 성능을 어떻게 평가할 것인가 최소한 널 (null) 모델보다는 성능이 좋아야 한다.
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.
데이터 마이닝의 특별한 기법 데이터 마이닝 연구실 윤언근. 목 차 시계열 분석 웹 마이닝 텍스트 마이닝 성능향상.
데이터 마이닝 연구실 윤언근. □ 결정트리 □ 연관규칙 □ K-Means 알고리즘 □ 유전자 학습 □ 데이터 마이닝 기법의 선택.
분할 정복 결정 트리와 규칙을 사용한 분류에 따라. 결정 트리 : 나누어 정복하기  Supervised Learning Method  사전 데이터와 처리방법을 미리 학습 후, 새로 들어온 데이터를 이에 따라 처리 분류  C5.0 결정 트리 알고리즘  대표적 결정.
OZ 의 이미지 구축을 위한 광고 커뮤니케이션 12 기 프로공감 류지현. CONTENTS 문제 찾기 -OZ 분석 - 목표설정 - 타겟설정 해결 방안 ( 전략 ) -OZ 만의 컨셉을 찾자 ! -OZ 의 Brand Concept 더욱 구체적인 해결방안 ( 전술 )
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
주제 : 독거여성노인의 현황과 대책 학 과 학 번 성 명 사회복지학과 김 진 석
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
Deep Learning.
Deep Learning.
의사 결정 트리(decision tree)
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
(Classification – Advanced Techniques)
Entity Relationship Diagram
1. Windows Server 2003의 역사 개인용 Windows의 발전 과정
컴퓨터 프로그래밍 기초 [Final] 기말고사
II. 전략기획 템플릿 (17) 과제 정의서 과제 정의서 과제명(No.) 전략 과제 명 과제성격 강화 보완 신규 과제 목표
6 장. ER-관계 사상에 의한 관계 데이터베이스 설계
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Vector Bubble 충돌 검출 게임 설계 3조 강준순, 김훈석, 복현태.
07 그룹 함수 그룹 함수의 개념 그룹 함수의 종류 데이터 그룹 생성 HAVING 절.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Error Detection and Correction
컴퓨터과학 전공탐색 배상원.
6장. printf와 scanf 함수에 대한 고찰
Chapter 07. 기본 함수 익히기.
초음파를 이용한 거리 측정과 음성구현 1 조 한 형 래 김 요 섭 안 정 민.
제4장 제어 시스템의 성능.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
군집 분석.
제 10 장 의사결정이란 의사결정은 선택이다.
문자 인식 개요 NR-LAB 강 동 구.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
Chapter 03. 관계 데이터베이스 설계.
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
논문작성을 위한 연구모형 설정 양동훈.
CHAP 21. 전화, SMS, 주소록.
Thevenin & Norton 등가회로 1등 : 임승훈 - Report 05 - 완소 3조 2등 : 박서연
알고리즘 알고리즘이란 무엇인가?.
문서 클러스터링 일본언어문화학과 서동진.
Excel 일차 강사 : 박영민.
Word2Vec.
Word Embedding.
Support Vector Machine
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
발표자 : 이지연 Programming Systems Lab.
9 브라우저 객체 모델.
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
실습 UBLAB.
.Net FrameWork for Web2.0 한석수
07. DB 설계 명지대학교 ICT 융합대학 김정호.
9장. spss statistics 20의 데이터 변수계산
 6장. SQL 쿼리.
                              데이터베이스 설계 및 실습 #6 - SQL 실습 한국외국어대학교 DaPS 연구실                              
Ch12. Deep Learning (Backpropagation)
Presentation transcript:

Data Mining: A Closer Look 2008. 3. 27 데이터베이스 연구실 이 상환

Contents 2.1 Data Mining Strategies 2.2 Supervised Data Mining Techniques 2.3 Association Rules 2.4 Clustering Techniques 2.5 Evaluating Performance

I. Data Mining Strategies(1) supervised Supervised 학습은 입력 어트리뷰트를 사용하여 출력 어트리뷰트의 값을 예측하는 모델을 만드는 것 대부분 데이터 마이닝 알고리즘에서는 단일 출력 어트리뷰트만을 사용 출력변수는 종속 변수, 입력 어트리뷰트는 독립변수라고 부름 -> 결과 값이 입력 어트리뷰트의 값에 따라서 결정되기 때문 unsupervised 모든 어트리뷰트들은 독립변수 결과 어트리뷰트가 없기 때문

I. Data Mining Strategies(1) Supervised 학습전략은 - 출력 어트리뷰트들이 이산형인지 범주형인지에 따라서 - 만들어진 모델이 현재 조건, 장래 결과에 대한 예측을 위한 것인지 좀 더 세분화 된다.

I. Data Mining Strategies - Classification 가장 잘 알려진 데이터 마이닝 전략 특징 Supervised로 학습  종속 변수는 범주형이다  새로운 인스턴스들이 결과 클래스들 중의 하나로 분류하는 모델을 만드는 것 Classification 예 심근경색을 앓고 있는 사람과 그렇지 않은 사람 구별 성공한 사람 프로파일을 만듬 신용카드 부정사용 여부를 판단 자동차 대출 신청자 신용 위험정도의 좋고 나쁨을 분류 뇌경색 환자 중에서 남자와 여자를 구별하는 프로파일 만듬

I. Data Mining Strategies - Estimation 추정 모델은 입력된 새로운 인스턴스에 대한 결과 어트리뷰트의 값을 알아내고자 하는 것 출력 어트리뷰트는 범주형이 아닌 수치 값을 가짐 Estimation 예 천둥번개가 주어진 곳까지 도달하는 시간 추정  스포츠카를 소유하고 있는 사람의 연봉 추정  신용카드의 도난 가능성 추정  감마선 폭발체의 길이 추정

I. Data Mining Strategies - Prediction 예측은 개념적으로 분류 또는 추정과 유사하지만 예측 모델은 현재 행위가 아닌 미래에 일어날 결과를 결정 예측 모델의 출력 어트리뷰트는 범주형, 수치형 Prediction 예 2002 NFL 시즌에 NFL 러닝백이 터치 다운할 총 개수 예측 신용카드 고객이 카드 영수증에 동봉된 특별 오퍼 이용여부 예측 다우존스 산업평균의 다음 주 종가 예측 전화가입자가 다음 세달 동안에 전화회사를 다른 곳으로 변경할 가능성 예측 분류나 추정 문제에 사용되는 대부분의 supervised 데이터 마이닝 기법들은 예측 모델을 만드는 데도 사용 분류, 추정, 또는 예측중 적절성 여부는 데이터 성격에 결정

I. Data Mining Strategies - Prediction 303명의 의료 기록중에서 심장병을 겪고 있는 환자들의 정보

I. Data Mining Strategies - Prediction IF 169 <= Maximum Heart Rate <=202 THEN Concept Class = Healthy Rule accuracy: 85.07% Rule coverage: 34.55% IF Thal = Rev & Chest Pain Type = Asymptomatic THEN Concept Class = Sick Rule accuracy: 91.14% Rule coverage: 52.17%

I. Data Mining Strategies - Prediction IF 169 <= Maximum Heart Rate <=202 THEN Concept Class = Healthy Rule accuracy: 85.07% Rule coverage: 34.55% 분류 | 예측 예측 규칙으로 사용한다면 당신의 최고 심장 박동 수를 정기적으로 검사 만약 그것이 떨어진다면 심장마비 위험이 있을 수 있음 분류로 사용한다면 경고 2: 만약 당신이 심장마비를 앓고 있다면, 당신의 최고 심장박동 수는 감소할 것임 경고 3: 최고 심장 박동 수 때문에 심장마비가 유발될 수 있음

I. Data Mining Strategies - Unsupervised Clustering 학습 프로그램은 클러스터가 적절히 만들어졌는지를 측정할 수 있는 척도를 사용하여 인스턴스들을 두 개 이상의 그룹으로 그룹화시킴으로써 지식구조를 만듬 목적 : 데이터에 들어 있는 개념구조를 발견 Unsupervised 클러스터링 예 데이터에 존재하는 의미 있는 관계가 개념의 형태로 찾아질 수 있는지를 판단 Supervised 학습자 모델의 성능 평가 Supervised 학습에서 사용할 가장 적합한 입력 어트리뷰트들을 판단 이상치(outlier)를 판단 Unsupervised 클러스터링은 또한 데이터에 들어 있을지도 모르는 비대표적인, 즉 관계없는 인스턴스를 찾는데 사용함 : 이상치(outlier) 통계적 방법에서는 주로 Outliers를 없앰. 데이터 마이닝에서는 이상치들을 찾아냄(신용카드 부정사용)

Data Mining Strategies – Market Basket Analysis 목적 : 소매상품들간의 흥미로운 관계를 찾고자 함 프로모션을 설계하거나 상품을 진열, 크로스 마케팅 전략에 활용 연관규칙 알고리즘 : 장바구니 분석

2.2 Supervised Data Mining Techniques Acme 신용카드 회사의 신용카드를 가지고 있는 15명의 가상 데이터

2.2 Supervised Data Mining Techniques - Production Rules 출력 어트리뷰트로는 life insurance promotion을 선택 목적: 다음 번 신용카드 청구서와 함께 보낼 생명보험 프로모션을 선택할 가능성이 높은 사람들의 프로파일 만드는 것 가설 하나 혹은 그 이상의 데이터 셋 어트리뷰트들의 조합이 생명보험 프로모션을 선택할 사람과 그렇지 않을 사람을 구별 가설은 현재 상태의 관점이지만 만들어지는 규칙에 따라서 분류, 예측으로 사용할지를 결정

2.2 Supervised Data Mining Techniques - Production Rules 1. IF Sex = Female & 19 <= Age <= 43 THEN Life Insurance Promotion = Yes Rule Accuracy: 100.00% Rule Coverage: 66.67% 여성의 3분의 2가 프로모션 선택은 너무 낙관적임 2. IF Sex = Male & Income Range = 40-50K THEN Life Insurance Promotion = No Rule Accuracy: 100.00% Rule Coverage: 50.00% 연봉 40-50K 남자는 생명보험 프로모션에 좋지 않은 후보 3. IF Credit Card Insurance = Yes THEN Life Insurance Promotion = Yes Rule Accuracy: 100.00% Rule Coverage: 33.33% 카드 발급시 선택여부를 묻기 때문에 유용함 신규고객 (예측) 4. IF Income Range = 30-40K & Watch Promotion = Yes THEN Life Insurance Promotion = Yes Rule Accuracy: 100.00% Rule Coverage: 33.33% 신규고객 분류로 사용

2.2 Supervised Data Mining Techniques - Neural Networks 인간의 뇌 기능을 흉내 내도록 설계 supervised 학습은 물론 unsupervised 클러스터링에도 사용 어떠한 경우에도 신경망의 입력은 수치값 전방향(feed-forward) 신경망은 가장 많이 사용되는 supervised 학습자 모델 신경망 동작 원리 첫 번째는 학습단계 : 정해진 만큼의 iterration이나 혹은 네트워크가 미리 지정된 최소 에러율에 도달하면 training은 멈춤 두 번째 단계 : 네트워크 가중치 값들이 수정되고 그 네트워크는 새로운 인스턴스에 대한 출력값을 다시 계산함 단점 학습된 것에 대한 설명력이 부족 범주형 데이터를 수치형 데이터로 변환 하는 것

2.2 Supervised Data Mining Techniques - Neural Networks

2.2 Supervised Data Mining Techniques - Statistical Regression Life insurance promotion = 0.5909 (credit card insurance) - 0.5455 (sex) + 0.7727 생명보험 프로모션은 ‘신용카드 값’과 ‘성별’이라는 두 어트리뷰트들의 선형 조합에 의해 결정 Example Life insurance promotion = 0.5909 (0) - 0.5455 (0) + 0.7727 값이 0.7727이 1에 가까우므로 프로모션을 선택할 가능성이 높음

2.3 Supervised Data Mining Techniques - Association Rules 연관규칙 마이닝 기법은 데이터베이스에 있는 어트리뷰트들간의 흥미 있는 연관성을 발견하는 데 사용 하나 혹은 하나 이상의 출력 어트리뷰트들을 가질 수 있음 어떤 규칙에서는 출력 어트리뷰트들이지만 다른 규칙에서는 입력 어트리뷰트들로 사용될 수 있음 장바구니 분석에서 가장 인기 있는 기법 : 잠재적으로 관심 있는 상품들의 모든 가능한 그룹 조합을 탐색할 수 있기 때문 Apriori 알고리즘(Agrawal et al, 1993) 적용하였으며, Apriori 알고리즘은 수치 데이터는 처리하지 않음 연관규칙 문제점 잠재적으로 가치 있는 규칙도 발견하지만 그렇지 못한 규칙들도 나올 수 있음 1. IF Sex = Female & Age = over40 & Credit Card Insurance = No THEN Life Insurance Promotion = Yes 2. IF Sex = Male & Age = over40 & Credit Card Insurance = No THEN Life Insurance Promotion = No 3. IF Sex = Female & Age = over40 THEN Credit Card Insurance = No & Life Insurance Promotion = Yes 정확도 100% 적용범위 20% 3번 규칙 결과 어트리뷰트 2개