군집분석: 비지도 학습 효율적 군집분석 급내 (intra-class) 유사성이 높고

Slides:



Advertisements
Similar presentations
의료자원 규제현황과 개선방향 자원평가실. 의료자원 관리 개요 규제개혁 토론과제.
Advertisements

Marketing Research 1  군집분석의 개념과 적용  군집분석 (cluster analysis) : 다수의 대상들 ( 소비자, 제품, 기타 ) 을 그들이 소유하는 특 성을 토대로 유사한 대상들끼리 그룹핑하는 다변량 통계기법 → 군집내의 구성원들은 가급 적.
Ch.4 수요관리와 수요예측 Ch.2 수요예측생산 ∙ 운영관리 1. 제 1 절 수요관리의 개념과 중요성 1. 수요관리의 필요성 정확한 수요예측은 사업의 성과를 좌우하는 매우 중요한 과제이다. – 수요는 판매량과 다르다. – 하지만 온갖 불확실성 요소가 난무하는 사업환경에서.
카드사의 효과적인 분석CRM을 위한 회원정보 정제 및 보강 방안 사례 연구 -신숙원, 배성민, 김태호, 장남식
연 합 남 전 도 회 월 례 회 1부 예배- 찬 송 장 다같이 2011년 1월 2일 1부 예배- 찬 송 장 다같이 기 도
1. 기관별 맞춤형 집중교육 : 실습 및 개인별 집중지도    1. 기관별 맞춤형 집중교육 : 실습 및 개인별 집중지도 (상설) 기관별 맞춤형 교육 - 당 교육기관에서.
사 업 계 획 2011년 제1호 - 2월 1일 2011 주 안에서 소통하며 화합하고 참여하며 헌신하는 남신도회
Lecture Notes for Chapter 2
Segmentation 및 PD 산출 방법론
기술 통계학 (Descriptive Statistics)
데이터 마이닝을 이용한 분류 분석.
판별분석의 개념과 적용(→ 추계통계적 성격)
데이터 관리의 모든 것 데이터 최적화하기 데이터 정렬하기 자동 필터와 고급 필터
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
Feature Extraction Lecture 5 영상 분할.
부산대학교 인공지능연구실 김민호 Text Categorization 부산대학교 인공지능연구실 김민호
데이터마이닝의 소개 Data Mining Introduction
사용자의, 사용자에 의한, 사용자를 위한 APT.상가 분양임대관리 System 제안서
EPS Based Motion Recognition algorithm Comparison
Medical Instrumentation
6 장. 질적 분류 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
Dept. of CSE, Ewha Womans Univ.
Cluster Analysis (군집 분석)
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
문항 제작, 유형 및 분석 윤장민 권애란 민선경 정혜민.
Ch05_ 프레임기반 전문가 시스템.
국가대표 생애주기교육 프로그램 참여방법 안내
2014년 가을학기 손시운 지도 교수: 문양세 교수님 군집 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
동작인식을 이용한 재활훈련 시스템 콘텐츠서비스연구팀 최완.
제Ⅲ부 생산능력계획 및 일정계획 제 8 장 수요예측 제 9 장 설비계획 제10장 총괄계획 제11장 일정계획
모형 선택과 적합도 지수.
Data Mining Final Project
2015. 인문소양교육.
군집분석 (Cluster analysis)
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
정보 추출기술 (Data Mining Techniques ) : An Overview
Ch.03 Dynamic Programming (동적 프로그래밍 or 동적 계획법)
Introduction to Programming Language
수업 첫 날 교육B 황유미 첫 수업 계획에 대해 알아보도록 하겠습니다..
연결링크 이미지를 마일리지샵 내에 기획전으로 제작하여 오픈/노출 사이즈 가로 1000/세로 상관x 배너사이즈 가로 400
Machine Learning using Neural Networks
The normal distribution (정규분포)
한국 형사정책 연구원 GINI 일반범죄 (형법범죄) 발생건
Clustering Algorithm KUT Youn-Hee Han.
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
NGTV CF투표함에서 실시한 카이홀맨 광고효과조사 결과 보고
36. 상의 형성, Image formation 학번: 이름: 수업 중 필기, 수업 종료 후 제출.
제안 목적 고객성향 분석으로 매출 증대 유사업체 분석으로 신상품 홍보 원가요소 분석 및 피드백으로 원가율 관리
청각기관의 구조와 기능2 옥정달.
평 가 SHEET 3정5S(15점) 평 가 항 목 E급 D급 C급 B급 A급 평가점수 특기 사항 5S 정리 정돈 청소 청결
장애인단체 간담회 마스터 제목 스타일 편집 마스터 제목 스타일 편집 장애인 단체 간담회 마스터 부제목 스타일 편집
자바 5.0 프로그래밍.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
6장. 예산 수립 예산의 개념과 성격 예산수립의 유형 예산수립 과정 예산안 작성.
2015년 2학년 1반.
DP 기반 최단경로 – 자료 구조 및 전략 (1/4) 주어진 그래프에 대한 W:인접행렬(adjacent matrix) 표현 W
좀처럼 최선을 다하지 않는 한국형 홍보 PR 3. 재규어 코리아 신차 발표회 사례 분석
6 장. 질적 분류 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
11장 다형성과 추상 클래스, 인터페이스 Section 1 객체의 형 변환 Section 2 연산자 Section 3 다형성
제 9 주차 설명적 조사설계.
서술형 평가 확대 한국교육과정평가원 김 소 영.
7차시 2교시 입지선정 학습 목차 1. 학습개요 2. 사전학습 3. 본학습: 2교시 생 입지선정 - 레슨1. 입지선정의 방법
Progress Seminar 신희안.
3월의 나에게….
Text Clustering G 조한얼.
Progress Seminar 권순빈.
Presentation transcript:

군집분석: 비지도 학습 효율적 군집분석 급내 (intra-class) 유사성이 높고 급간 (inter-class) 유사성이 낮다

군집분석의 연구 분야 Scalability. 작은 자료 (수 백개 까지는 잘 적용된다. 예: 200 개 이하) 다양한 종류의 자료. (이진, 범주형, 이산형 등에도 적용 가능) 구형 자료 (spherical data)외의 다양한 형태 (말발굼 자료 등)의 자료에도 적용 가능 잡음 자료나 이상 값 등의 영향 고차원 자료에도 효율적인 방법 결과의 유용성과 해석

자료 Data matrix n: 자료수 p: 변수의 수 Dissimilarity matrix n x n

자료의 형태 구간형 변수 이진 변수 명목형, 순서형 변수 혼합형 변수

구간형변수 표준화 mean absolute deviation 이 표준편차보다 robust 여기서 펴준화 점수 (z-score) mean absolute deviation 이 표준편차보다 robust

거리: Similarity 와 Dissimilarity 두 개체간의 거리: 유사성과 비유사성 Minkowski distance: xi = (xi1, xi2, …, xip), xj = (xj1, xj2, …, xjp) : p-차원인 2 개의 개체 q: 양정수 q = 1, Manhattan 거리

거리 q = 2, Euclidean 거리 기타: 가중 거리 (341쪽). Pearson 상관게수, 기타 특성 d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j) 기타: 가중 거리 (341쪽). Pearson 상관게수, 기타

이진변수 이진자료의 분할표 Simple matching coefficient (symmetric - 중요성이 동일) Jaccard coefficient (asymmetric, 중요성이 다름): Object j Object i

이진변수 (asymmetric) 예 gender: symmetric 기타변수: asymmetric Y, P =>1, N => 0

명목 변수 방법 1: Simple matching 방법 2: 명목형 변수=>이진 변수 m: # of matches, p: total # of variables 방법 2: 명목형 변수=>이진 변수 각 범주에 대해 이진 변수화

순서 변수 xif 를 순위 rif 로 변환 각 변수는 다음과 같은 형식에 의해 [0, 1] 사이의 값으로 표준화 구간형 변수와 같은 방법으로 거리계산

혼합형 DB 에 모든 형식의 자료가 다 있는 경우 가중값을 사용. f :이진 또는 명목 xif = xjf => dij(f) = 0, 기타 =>dij(f) = 1 f : 구간, 표준화 거리 (교재 346 참조) f : 순서형, 순위 표준화

군집방법 Partitioning algorithms: K-means, K-medoids Hierarchy algorithms: dendrogram

K-Means 방법 K 가 주어질 때 다음의 4 단계로 작동 샘플을 k 개의 부분 집합으로 분리 현재의 분할이 군집이 되고 이 분할의 중심 (centroid) 을 계산 각 개체를 가장 가까운 중심에 할당 2 단계 부터 다시 시작. 만약 더 이상 개체의 움직임이 없으면 여기서 마침.

K-Means 방법: 그림

K-Means 장단점 장점 단점 비교적 효율적. O(tkn), 대개 지역적 최적점에 도달. n=개체수, k = 군집수, t = # 반복수. k, t << n. 대개 지역적 최적점에 도달. 단점 중심(mean)이 정의될 때에만 성립. 범주형에는 불가 K 를 먼저 정의해야함 이상값에 매우 민감 non-convex 형의 군집을 발견할 수 없음

K-Means 방법의 변형 초기 k 평균의 선택: 범주형 자료의 처리: k-modes (Huang’98) 계층적 응집모형 (hierachical agglomeration)으로부터 k 와 평균을 초기화 범주형 자료의 처리: k-modes (Huang’98) 평균을 최빈값(modes) 로 대체 범주형 비유사성 측도를 사용 군집의 새로운 중심(modes) 추정을 위해 거리보다 빈도를 사용 구간변수와 범주형 변수의 혼합=> k-means 와 k-modes의 혼합을 사용: k-prototype 방법

K-Medoids 방법 K-means 방법은 몇 개의 이상값에 너무 민감 => PAM (Partitioning Around Medoids, 1987) 평균 대신 대표주자 (medoid)를 선택하고 더 좋은 군집을 만드는 대표주자가 있으면 대체한다. PAM 은 자료수가 작을 때 잘 되지만 큰 자료에는 불안 (non-scalable)

R program for PAM library(cluster) data(votes.repub) votes.diss <- daisy(votes.repub) #euclidean distance votes.clus <- pam(votes.diss, 2, diss = TRUE)$clustering if(interactive()) clusplot(votes.diss, votes.clus, diss = TRUE, shade = TRUE, labels = 1)

K-medoid: iris data: ##irir 자료: k-medoid (PAM): k=3 par(mfrow=c(1,2)) data(iris) iris.x <- iris[, 1:4] clusplot(iris.x, pam(iris.x, 3)$clustering, diss = FALSE, plotchar = TRUE, color = TRUE, shade = TRUE,span=FALSE, line=1)

게층적 군집분석 거리행렬을 사용하여 군집. agglomerative (AGNES) a a b b a b c d e c K 를 먼저 선택할 필요가 없다. 끝나는 지점을 지정해야한다. Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA)