군집 분석.

Slides:



Advertisements
Similar presentations
KS Cinema 팀 명 : KS 팀 원 : 강상욱 김건우 원찬석 이수경.
Advertisements

신규 영화관 입지 선정을 위한 경제성 분석 김동석 이창연 김성수 김병준 채현민 기술경영 1 조.
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
2011학년도 1학년 융합과학 수업자료 019 Part.3 지구의 형성과 진화.
4.3.3 초기하분포 (Hypergeometric distribution)
패턴인식 개론 Ch.8 클러스터링.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
Excel 일차 강사 : 박영민.
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
Load Balancing L4와 L7은 어떻게 동작할까?.
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
8장. 원격지 시스템 관리하기.
Multimedia Programming 10: Point Processing 5
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
23장. 구조체와 사용자 정의 자료형 2.
Multimedia Programming 06: Point Processing 2
Missing Value.
9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
CHAP 10:그래프 (2) 순천향대학교 하상호.
지도교수 : 이상훈교수님 학과 : 컴퓨터시뮬레이션 학번 : 이름 : 진선미
프로그래밍 개요
군집분석 (Cluster analysis)
메모리 관리 & 동적 할당.
3 장. 확률 분포 추정 오일석, 패턴인식, 교보문고,
(independent variable)
10장. 군집화 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
졸업 요건 충족을 위한 추가 이수 학점에 대해서는 ‘졸업요건‘ 규정 확인 바람
두 모집단에 대한 검정.
Decision Tree & Ensemble methods
삼각형에서 평행선에 의하여 생기는 선분의 길이의 비
Fitting / Matrix / Excel
Clustering Algorithm KUT Youn-Hee Han.
끓는점을 이용한 물질의 분리 (1) 열 받으면 누가 먼저 나올까? 증류.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제 19 장 TCP 대화식 데이터 흐름.
표지  수학8-나  2학년 2학기  Ⅲ.도형의 닮음 (1) 닮은 도형의 성질 (4/21) 닮음의 중심.
Sampling Distributions
문서 클러스터링 일본언어문화학과 서동진.
원의 방정식 원의 방정식 x축, y축에 접하는 원의 방정식 두 원의 위치 관계 공통접선 원과 직선의 위치 관계
Flow Diagram IV While.
SNS마케팅 트렌드 사회복지공동봉사회 유영진 참고: 사례.
생체 신호의 실시간 디지털 처리 7조 홍윤호( )-1등
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
구조체(struct)와 공용체(union)
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
물리 계층 디지털 전송(코딩).
수치해석 ch3 환경공학과 김지숙.
3 장. 확률 분포 추정 오일석, 패턴인식, 교보문고,
세포는 어떻게 분열할까?(2) 양파 뿌리의 체세포 분열 관찰 순서 [ 해리 ] [ 염색 ] [ 고정 ] 학습 주제
아날로그 신호를 디지털 신호로 변환하는 A/D 변환기 A/D 변환 시 고려하여 할 샘플링 주파수 D/A 변환기
문제의 답안 잘 생각해 보시기 바랍니다..
Progress Seminar 양승만.
강화학습: 기초.
C++ Espresso 제15장 STL 알고리즘.
Progress Seminar 선석규.
Text Clustering G 조한얼.
걱정 고민 가득 할 때 - 어떻게 해결 하나요 - C Em Dm G 1. 걱정 고민 가득 2. 슬픈 마음 심술 3. 괜찮아요
Presentation transcript:

군집 분석

군집 분석 clustering 관찰된 데이터를 군집(cluster)로 나누는 것

왜? 복잡한 패턴 1개  단순한 패턴 여러 군집 군집별로 다른 대응(예: 프로모션)

대표적 방법들 위계적 군집분석(Hierarchical clustering) K-Means 가우시안 혼합 모형(Mixtures of Gaussian)

위계적 군집분석 반복해서 뭉치거나 쪼개는 방식으로 군집은 만드는 방법 보통은 뭉치는 방법을 사용

뭉치는 기준 (1) 군집 간의 거리는 어떻게 측정할까 Single link Complete link 두 군집에서 가장 가까운 멤버의 거리 긴 체인(chain)을 만드는 경향 Complete link 두 군집에서 가장 먼 멤버의 거리 구형(spherical)으로 뭉치는 경향

뭉치는 기준 (2) Average link Centroids Ward's method 평균 거리 중심 간의 거리 군집을 합쳤을 때 군집 내 거리 분산의 변화

K-Means 군집의 중심에 가까운 점들을 군집에 추가

K-Means의 과정 (1): 초기화 무작위로 군집의 중심을 찍는다

K-Means의 과정 (2): E-단계 군집의 중심에서 거리로 각 점들을 군집의 멤버로 넣는다

K-Means의 과정 (3): M-단계 멤버들을 바탕으로 군집의 중심을 정한다

K-Means의 과정 (4): 반복 더 이상 중심이 변치 않을 때까지 E-단계와 M-단계를 반복

가우시안 혼합 모형 각각의 군집은 가우시안(정규) 분포 형태 혼합 계수(mixing coef.): 군집이 전체 데이터에 차지하는 비율 각 점이 특정 군집에 속할 확률을 가짐(soft assignment)

EM 알고리즘 예상(Expectation)과 최대화(Maximization)을 반복 가우시안 혼합 모형 외의 여러 모형에서 활용 K-Means의 연장선에서 이해할 수 있음

EM 알고리즘 (1): 초기화 무작위로 군집의 평균, 분산, 혼합 계수를 정한다

EM 알고리즘 (2): E-단계 예측(Expectation): 각 점이 군집에 속할 확률을 구한다

EM 알고리즘 (3): M-단계 최대화(Maximization): 우도를 최대화 하도록 분포를 업데이트

EM 알고리즘 (4): 반복 더 이상 분포가 바뀌지 않을 때까지 E-단계와 M-단계를 반복