패턴인식 개론 Ch.8 클러스터링.

Slides:

Advertisements

Similar presentations

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.

Advertisements

1. 2 차원 배열  배열은 동일한 데이터 유형으로 여러 개의 변수를 사용할 경우 같은 이 름으로 지정하여 간편하게 사용할 수 있도록 하는 것으로서 앞에서 1 차원 배열을 공부하였습니다.  2 차원 배열은 바둑판을 생각하면 되며, 1 차원 배열에서 사용하는 첨자를 2.

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.

알고리즘 기본 개념 정렬 알고리즘 탐색 알고리즘 알고리즘 복잡도.

의사 결정 트리(decision tree)

Entity Relationship Diagram

Excel 일차 강사 : 박영민.

제 9 장 구조체와 공용체.

Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.

컴퓨터 프로그래밍 기초 [Final] 기말고사

제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling

6 장. ER-관계 사상에 의한 관계 데이터베이스 설계

NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일

Chapter 02 순환 (Recursion).

11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.

Error Detection and Correction

멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :

Simulating Boolean Circuits on a DNA Computer

23장. 구조체와 사용자 정의 자료형 2.

CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.

뇌를 자극하는 Windows Server 장. 장애 조치 클러스터.

9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.

빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.

프로그래밍 개요

UNIT 07 Memory Map 로봇 SW 교육원 조용수.

자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.

메모리 관리 & 동적 할당.

3 장. 확률 분포 추정 오일석, 패턴인식, 교보문고,

Quiz #7 다음 수들을 합병 정렬과 퀵 정렬 알고리즘을 이용하여 오름 차순으로 정렬하였을 때, 데이터 이동 회수를 각각 구하라. 여러분은 정렬 과정을 단계별로 보이면서 이동 회수를 추적해야 한다. 단, 퀵 정렬시에 피봇으로 배열의 왼쪽 첫 번째 원소를 선택한다. 5.

(independent variable)

2018년 11월 05일 박성진 Web & Internet [08] 레이아웃 P1 2018년 11월 05일 박성진

패턴인식 개론 Ch.12 선형 판별 분석법 (LDA).

Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리

10장. 군집화 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.

컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -

BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례

8장. spss statistics 20의 데이터 변환

Decision Tree & Ensemble methods

데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)

5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열

보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.

Clustering Algorithm KUT Youn-Hee Han.

논문작성을 위한 연구모형 설정 양동훈.

균형이진탐색트리 이진 탐색(binary search)과 이진 탐색 트리(binary search tree)와의 차이점

알고리즘 알고리즘이란 무엇인가?.

디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승

ITQ 정보기술자격 국가공인 Excel 2007 Ⅱ 함수- 15회차 강사 : 박영민.

3-5. 태양계와 행성(2).

문서 클러스터링 일본언어문화학과 서동진.

Excel 일차 강사 : 박영민.

4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.

DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.

5장. 선택 알고리즘.

Homework #12 (1/2) 프로그램을 작성하고, 프로그램과 실행 결과를 프린트하여 제출한다.

7주차: Functions and Arrays

쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석

12 그리드 시스템.

최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)

11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.

ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실

수치해석 ch3 환경공학과 김지숙.

3 장. 확률 분포 추정 오일석, 패턴인식, 교보문고,

6장. SQL 쿼리.

아날로그 신호를 디지털 신호로 변환하는 A/D 변환기 A/D 변환 시 고려하여 할 샘플링 주파수 D/A 변환기

교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)

C++ Espresso 제15장 STL 알고리즘.

7 생성자 함수.

Presentation transcript:

패턴인식 개론 Ch.8 클러스터링

학습목표 데이터 마이닝(data mining) : 각종 데이터 속에 숨어있는 패턴, 규칙, 관계 등의 정보를 자동으로 탐색하고 데이터 간의 연관을 발굴(mining)해 내는 인공지능, 공학 및 통계 기법을 연구하는 학문 분야이다. 이 장에서는 데이터 마이닝의 시작이라고 할 수 있는 같은 패턴끼리 모아주는 클러스터링(Clustering) 방법에 관하여 설명한다. 실습에서는 임의의 데이터에 대하여 k-means 알고리즘을 이용하여 직접 클러스터링 시뮬레이션을 해본다.

교사 학습 vs. 비교사 학습 교사/감독 학습 (supervised learning) - {x, ω} 관측된 자료가 특징 벡터 x 와 관측 값이 속해있는 클래스 ω 로 이루어진 변수 쌍 {x, ω}으로 구성될 경우의 학습은 특징벡터와 정확한 답이 주어졌기 때문에 교사/감독 (supervised : 교사와 함께 훈련한) 학습이라고 한다. 모수적 또는 비모수적 방법을 통해서 각 클래스의 확률밀도를 추정하여 분류기에 사용한다. 비교사/무감독 학습 (unsupervised learning) - {x} 클래스 라벨 ω 가 주어지지 않고 특징 벡터 x={x1, x2,...,xN } 만으로 이루어진 데이터 집합이 주어질 경우의 학습은 정확한 답은 제공 받지 못하므로 비교사/무감독 (unsupervised : 교사 없이 훈련한) 학습이라고 한다. 모수적 방법 비모수적 방법 비교사 학습이 유용한 경우 1) 데이터 마이닝과 같이 원천적으로 데이터에 대한 클래스 라벨들이 주어지지 않을 경우 2) 많은 데이터 집합들이 작은 프로토타입(원형) 집합으로 압축되어 질 수 있는 경우 3) 표본의 수가 너무 많아서 각 표본마다 일일이 라벨링하는 것이 비용이 많이 드는 지루한 과정일 경우

비교사학습의 두가지 접근법 모수적 (parametric) 방법 (혼합 모델 구축을 통한 방법) 이 방법은 여러 개의 모수적 확률밀도함수(주로 가우시안)를 혼합하여 주어진 확률밀도함수를 모델링하는 방법으로 아래 식과 같이 모델링 되며, 모델 파라미터를 찾는 것이 목적이다. 이 방법을 “모수적 혼합 모델(parametric mixture models)”이라고 한다. 비모수적 (non-parametric) 방법 이 방법은 주어진 데이터에 대한 어떠한 가정도 하지 않고 정해진 수의 클러스터들로 데이터를 나누는 방법으로 군집화 (클러스터링)라고 한다. 이 방법은 파라미터 최우추정(MLE)과 밀접하게 관련되어 있다.

클러스터링 아래의 좌측 그림처럼 분산된 데이터 집합은 수많은 특징 벡터들로 이루어져 있다. 이들 데이터 집합을 그룹들 혹은 클러스터들로 나누어 각 클러스터의 중심의 대표 벡터로 할당하려고 한다. 이러한 대표벡터들의 개 수 K는 미리 정해져 있어야 한다. 즉, K는 결정적이지 않다. 아래의 우측의 그림은 2차원 유클리디안 공간상에서 K=8 의 영역으로 공간을 분할한 그림이다. 이 중심벡터들의 위치는 검은 점으로 보여주고 있는데, 클러스터에 사상되는 특징벡터들은 클러스터링 되었다고 말한다.

클러스터링 비모수 군집화의 세가지 단계 1) 표본간의 유사(또는 차이)정도를 측정방법 정의 2) 군집화를 위한 결정함수 정의 3) 결정함수를 최대화(또는 최소화) 시키는 알고리즘 정의 특징벡터 집합 x가 새로운 벡터집합 y로 군집화되는 과정은 특징벡터들 간에 정의된 거리척도(distance measure) 또는 측량(metric)과 깊은 관련이 있다. 유클리디안 자승거리 중심평균 N개의 벡터에서 전체 왜곡 알고리즘 종류 k-means 알고리즘 비균일 이진 분할(non-uniform binary split) 알고리즘 k-means 알고리즘에 따른 이진 분할 알고리즘: LBG 알고리즘

k-means 알고리즘과 EM알고리즘 ■ k-means 알고리즘 다음과 같이 주어지는 평균자승오차(Mean Squared Error) 규준함수 JMSE 를 반복적인 스타일로 최소화시키는 가장 단순한 군집화(clustring)과정이다. 클러스터의 개수 K 를 결정 임의의 클러스터 중심을 할당하여 클러스터 초기화 각각의 클러스터에 대하여 표본 평균을 새로 구함 각각의 표본을 가장 근접한 평균을 갖는 클러스터로 다시 할당함 모든 표본에 변화가 없으면 알고리즘 중지 또는 3번 단계로 이동하여 계속 수행

k-means 알고리즘과 EM알고리즘 ■ k-means 알고리즘의 계산 절차 중심 초기화 : 데이터 집합 {x1,…,xN} 으로부터 임의의 K개의 벡터를 선택하여 K개의 초기 중심집합 {y1, …,yK} 을 만든다. 클러스러링 단계 : 만약 데이터 xn 이 yi 에 가장 가깝다면 클러스터 X i 에 속하도록 라벨링한다. 결국 데이터 집합을 K개의 클러스터들 {X1, …, XK}로 나누어진다. 중심갱신 단계 : 클러스터링 단계에서 구한 새로운 클러스터들에서 각각의 중심을 갱신한다. 왜곡검증 단계 : 데이터와 가장 가까운 클러스터 중심들과 거리의 합으로 총 왜곡 (distortion)을 구한다. 총 왜곡이 적절하게 변하지 않거나 설정된 반복횟수에 도달할 때까지 단계2~단계4를 반복한다. 왜곡 검증 예 :

비균일 이진 분할 ■ 비균일 이진 분할 계산 절차 한 개의 클러스터 X1과 관련된 중심이 y1=c(X1)인 모든 데이터 점들 xn으로 시작한다. 클러스터 카운트는 k=1으로 둔다. K 개의 중심들을 얻기 위해서 3 ~ 6단계를 (K-1)번 반복한다. 클러스터 내의 점들과 중심의 평균 거리로 측정된 가장 큰 왜곡을 가진 클러스터 Xi 를 선택한다(비균일 알고리즘). (균일 알고리즘의 경우는 모든 클러스터를 차례대로 선택한다). 선택된 클러스터 Xi 를 K=2로 k-means를 행하여 두 개의 부-클러스터 Xa 와 Xb로 나눈다. 중심 yi 를 대치하고 새로운 중심을 다음과 같이 둔다. yi = c(Xa) yk+1 = c(Xb) 클러스터 카운트를 증가 시킨다. k  k+ 1

군집화 알고리즘 종류 군집화 알고리즘 세가지 k-means 알고리즘 비균일 이진 분할 (non-uniform binary split) 알고리즘 LBG 알고리즘 ( k-means 알고리즘에 따르는 이진 분할 알고리즘 ) : k-means의 초기값을 랜덤 데이터 점으로 하는 대신에 이진 분리로 구한 중심을 사용하면 표준 k-means 방법을 사용하는 경우보다 더 나아질 것이다. 이와 같이 이진 분할과 k-means를 결합된 알고리즘을 LBG 알고리즘이라고 한다. LBG는 Linde, Y., A. Buzo, and R. M. Gray 세 명의 연구자 이름의 첫 문자를 의미한다. .

ISODATA ■ ISODATA ( Iterative Self-Organizing Data Analysis Technique Algorithm ) 자기 발견적 학습법을 통해서 자동적으로 군집의 개수를 선택하는 k-mean 알고리즘의 확장된 방법이다. ISODATA 알고리즘은 사용자로부터 일련의 파라미터를 선택하도록 요구한다. NMIN_EX : 군집당 최소 표본 수 ND : 대략적으로 요구되는 군집 개수 σs2 : 분리가 요구되는 최대 분산 파라미터 DMERGE : 결합이 요구되는 최대 분리 거리 NMERGE : 걸합될 수 있는 최대 군집 수 알고리즘은 다음과 같이 반복적으로 작동된다. K-means 군집화를 수행한다. 충분이 다른 표본들로 구성된 군집을 분리한다. 충분이 근접한 두 개의 군집을 결합한다. ①-과정으로 돌아 간다.

MATLAB 실습 ■ k-means 알고리즘을 이용한 시뮬레이션 ■ 왜곡 검증이 포함된 k-means 알고리즘 시뮬레이션 K-means 알고리즘에 왜곡검증을 포함한 내용이다. 실행 스크립트 파일은 vp_test.m 파일이다.

MATLAB 실습

MATLAB 실습 ■ LBG 알고리즘 을 이용한 시뮬레이션 LBG 알고리즘을 이용한 시뮬레이션으로 k-means 알고리즘보다 빠르게 클러스터링하는 과정을 확인할 수 있을 것이다.