Presentation is loading. Please wait.

Presentation is loading. Please wait.

Data Mining: A Closer Look

Similar presentations


Presentation on theme: "Data Mining: A Closer Look"— Presentation transcript:

1 Data Mining: A Closer Look
데이터베이스 연구실 이 상환

2 Contents 2.1 Data Mining Strategies
2.2 Supervised Data Mining Techniques 2.3 Association Rules 2.4 Clustering Techniques 2.5 Evaluating Performance

3 I. Data Mining Strategies(1)
supervised Supervised 학습은 입력 어트리뷰트를 사용하여 출력 어트리뷰트의 값을 예측하는 모델을 만드는 것 대부분 데이터 마이닝 알고리즘에서는 단일 출력 어트리뷰트만을 사용 출력변수는 종속 변수, 입력 어트리뷰트는 독립변수라고 부름 -> 결과 값이 입력 어트리뷰트의 값에 따라서 결정되기 때문 unsupervised 모든 어트리뷰트들은 독립변수 결과 어트리뷰트가 없기 때문

4 I. Data Mining Strategies(1)
Supervised 학습전략은 - 출력 어트리뷰트들이 이산형인지 범주형인지에 따라서 - 만들어진 모델이 현재 조건, 장래 결과에 대한 예측을 위한 것인지 좀 더 세분화 된다.

5 I. Data Mining Strategies - Classification
가장 잘 알려진 데이터 마이닝 전략 특징 Supervised로 학습  종속 변수는 범주형이다  새로운 인스턴스들이 결과 클래스들 중의 하나로 분류하는 모델을 만드는 것 Classification 예 심근경색을 앓고 있는 사람과 그렇지 않은 사람 구별 성공한 사람 프로파일을 만듬 신용카드 부정사용 여부를 판단 자동차 대출 신청자 신용 위험정도의 좋고 나쁨을 분류 뇌경색 환자 중에서 남자와 여자를 구별하는 프로파일 만듬

6 I. Data Mining Strategies - Estimation
추정 모델은 입력된 새로운 인스턴스에 대한 결과 어트리뷰트의 값을 알아내고자 하는 것 출력 어트리뷰트는 범주형이 아닌 수치 값을 가짐 Estimation 예 천둥번개가 주어진 곳까지 도달하는 시간 추정  스포츠카를 소유하고 있는 사람의 연봉 추정  신용카드의 도난 가능성 추정  감마선 폭발체의 길이 추정

7 I. Data Mining Strategies - Prediction
예측은 개념적으로 분류 또는 추정과 유사하지만 예측 모델은 현재 행위가 아닌 미래에 일어날 결과를 결정 예측 모델의 출력 어트리뷰트는 범주형, 수치형 Prediction 예 2002 NFL 시즌에 NFL 러닝백이 터치 다운할 총 개수 예측 신용카드 고객이 카드 영수증에 동봉된 특별 오퍼 이용여부 예측 다우존스 산업평균의 다음 주 종가 예측 전화가입자가 다음 세달 동안에 전화회사를 다른 곳으로 변경할 가능성 예측 분류나 추정 문제에 사용되는 대부분의 supervised 데이터 마이닝 기법들은 예측 모델을 만드는 데도 사용 분류, 추정, 또는 예측중 적절성 여부는 데이터 성격에 결정

8 I. Data Mining Strategies - Prediction
303명의 의료 기록중에서 심장병을 겪고 있는 환자들의 정보

9 I. Data Mining Strategies - Prediction
IF 169 <= Maximum Heart Rate <=202 THEN Concept Class = Healthy Rule accuracy: 85.07% Rule coverage: 34.55% IF Thal = Rev & Chest Pain Type = Asymptomatic THEN Concept Class = Sick Rule accuracy: 91.14% Rule coverage: 52.17%

10 I. Data Mining Strategies - Prediction
IF 169 <= Maximum Heart Rate <=202 THEN Concept Class = Healthy Rule accuracy: 85.07% Rule coverage: 34.55% 분류 | 예측 예측 규칙으로 사용한다면 당신의 최고 심장 박동 수를 정기적으로 검사 만약 그것이 떨어진다면 심장마비 위험이 있을 수 있음 분류로 사용한다면 경고 2: 만약 당신이 심장마비를 앓고 있다면, 당신의 최고 심장박동 수는 감소할 것임 경고 3: 최고 심장 박동 수 때문에 심장마비가 유발될 수 있음

11 I. Data Mining Strategies - Unsupervised Clustering
학습 프로그램은 클러스터가 적절히 만들어졌는지를 측정할 수 있는 척도를 사용하여 인스턴스들을 두 개 이상의 그룹으로 그룹화시킴으로써 지식구조를 만듬 목적 : 데이터에 들어 있는 개념구조를 발견 Unsupervised 클러스터링 예 데이터에 존재하는 의미 있는 관계가 개념의 형태로 찾아질 수 있는지를 판단 Supervised 학습자 모델의 성능 평가 Supervised 학습에서 사용할 가장 적합한 입력 어트리뷰트들을 판단 이상치(outlier)를 판단 Unsupervised 클러스터링은 또한 데이터에 들어 있을지도 모르는 비대표적인, 즉 관계없는 인스턴스를 찾는데 사용함 : 이상치(outlier) 통계적 방법에서는 주로 Outliers를 없앰. 데이터 마이닝에서는 이상치들을 찾아냄(신용카드 부정사용)

12 Data Mining Strategies – Market Basket Analysis
목적 : 소매상품들간의 흥미로운 관계를 찾고자 함 프로모션을 설계하거나 상품을 진열, 크로스 마케팅 전략에 활용 연관규칙 알고리즘 : 장바구니 분석

13 2.2 Supervised Data Mining Techniques
Acme 신용카드 회사의 신용카드를 가지고 있는 15명의 가상 데이터

14 2.2 Supervised Data Mining Techniques - Production Rules
출력 어트리뷰트로는 life insurance promotion을 선택 목적: 다음 번 신용카드 청구서와 함께 보낼 생명보험 프로모션을 선택할 가능성이 높은 사람들의 프로파일 만드는 것 가설 하나 혹은 그 이상의 데이터 셋 어트리뷰트들의 조합이 생명보험 프로모션을 선택할 사람과 그렇지 않을 사람을 구별 가설은 현재 상태의 관점이지만 만들어지는 규칙에 따라서 분류, 예측으로 사용할지를 결정

15 2.2 Supervised Data Mining Techniques - Production Rules
1. IF Sex = Female & 19 <= Age <= 43 THEN Life Insurance Promotion = Yes Rule Accuracy: % Rule Coverage: 66.67% 여성의 3분의 2가 프로모션 선택은 너무 낙관적임 2. IF Sex = Male & Income Range = 40-50K THEN Life Insurance Promotion = No Rule Accuracy: % Rule Coverage: 50.00% 연봉 40-50K 남자는 생명보험 프로모션에 좋지 않은 후보 3. IF Credit Card Insurance = Yes THEN Life Insurance Promotion = Yes Rule Accuracy: % Rule Coverage: 33.33% 카드 발급시 선택여부를 묻기 때문에 유용함 신규고객 (예측) 4. IF Income Range = 30-40K & Watch Promotion = Yes THEN Life Insurance Promotion = Yes Rule Accuracy: % Rule Coverage: 33.33% 신규고객 분류로 사용

16 2.2 Supervised Data Mining Techniques - Neural Networks
인간의 뇌 기능을 흉내 내도록 설계 supervised 학습은 물론 unsupervised 클러스터링에도 사용 어떠한 경우에도 신경망의 입력은 수치값 전방향(feed-forward) 신경망은 가장 많이 사용되는 supervised 학습자 모델 신경망 동작 원리 첫 번째는 학습단계 : 정해진 만큼의 iterration이나 혹은 네트워크가 미리 지정된 최소 에러율에 도달하면 training은 멈춤 두 번째 단계 : 네트워크 가중치 값들이 수정되고 그 네트워크는 새로운 인스턴스에 대한 출력값을 다시 계산함 단점 학습된 것에 대한 설명력이 부족 범주형 데이터를 수치형 데이터로 변환 하는 것

17 2.2 Supervised Data Mining Techniques - Neural Networks

18 2.2 Supervised Data Mining Techniques - Statistical Regression
Life insurance promotion = (credit card insurance) (sex) 생명보험 프로모션은 ‘신용카드 값’과 ‘성별’이라는 두 어트리뷰트들의 선형 조합에 의해 결정 Example Life insurance promotion = (0) (0) 값이 이 1에 가까우므로 프로모션을 선택할 가능성이 높음

19 2.3 Supervised Data Mining Techniques - Association Rules
연관규칙 마이닝 기법은 데이터베이스에 있는 어트리뷰트들간의 흥미 있는 연관성을 발견하는 데 사용 하나 혹은 하나 이상의 출력 어트리뷰트들을 가질 수 있음 어떤 규칙에서는 출력 어트리뷰트들이지만 다른 규칙에서는 입력 어트리뷰트들로 사용될 수 있음 장바구니 분석에서 가장 인기 있는 기법 : 잠재적으로 관심 있는 상품들의 모든 가능한 그룹 조합을 탐색할 수 있기 때문 Apriori 알고리즘(Agrawal et al, 1993) 적용하였으며, Apriori 알고리즘은 수치 데이터는 처리하지 않음 연관규칙 문제점 잠재적으로 가치 있는 규칙도 발견하지만 그렇지 못한 규칙들도 나올 수 있음 1. IF Sex = Female & Age = over40 & Credit Card Insurance = No THEN Life Insurance Promotion = Yes 2. IF Sex = Male & Age = over40 & Credit Card Insurance = No THEN Life Insurance Promotion = No 3. IF Sex = Female & Age = over40 THEN Credit Card Insurance = No & Life Insurance Promotion = Yes 정확도 100% 적용범위 20% 3번 규칙 결과 어트리뷰트 2개


Download ppt "Data Mining: A Closer Look"

Similar presentations


Ads by Google