Clustering Algorithm LINK @ KUT Youn-Hee Han.

Slides:



Advertisements
Similar presentations
R 분석 모델 선택, k-means 알고리즘. 분석 모델 선택 문제 해결을 위한 모델 선택 분류 문제 클러스터링 그룹화 vs 예측 문제 모델의 성능을 어떻게 평가할 것인가 최소한 널 (null) 모델보다는 성능이 좋아야 한다.
Advertisements

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
목 차 I 방위산업의 정의 II 방위산업의 특성 III 방위산업의 현황.
알고리즘 기본 개념 정렬 알고리즘 탐색 알고리즘 알고리즘 복잡도.
컴퓨터와 인터넷.
제 7 장 함수 사용을 통해 엑셀 정복하기.
의사 결정 트리(decision tree)
패턴인식 개론 Ch.8 클러스터링.
Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.
Entity Relationship Diagram
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
10장 랜덤 디지털 신호처리 1.
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
Learning Classifier using DNA Bagging
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Vector Bubble 충돌 검출 게임 설계 3조 강준순, 김훈석, 복현태.
Chapter 02 순환 (Recursion).
07 그룹 함수 그룹 함수의 개념 그룹 함수의 종류 데이터 그룹 생성 HAVING 절.
P150 문제를 프로그래밍 할 것 Source file (헤더파일포함), 실행화면 (학번_이름_1.txt)
군집분석: 비지도 학습 효율적 군집분석 급내 (intra-class) 유사성이 높고
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Multimedia Programming 10: Point Processing 5
Error Detection and Correction
Cluster Analysis (군집 분석)
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
보고서 #5(제출기한: 10/14) 다음 문제를 해결하시오.
Central Gas Monitoring System 2005
군집 분석 (Cluster Analysis) 2016년 가을학기 강원대학교 컴퓨터과학전공 문양세.
올바른 이메일 사용법
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
프로그래밍 개요
군집 분석.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
군집분석 (Cluster analysis)
메모리 관리 & 동적 할당.
Quiz #7 다음 수들을 합병 정렬과 퀵 정렬 알고리즘을 이용하여 오름 차순으로 정렬하였을 때, 데이터 이동 회수를 각각 구하라. 여러분은 정렬 과정을 단계별로 보이면서 이동 회수를 추적해야 한다. 단, 퀵 정렬시에 피봇으로 배열의 왼쪽 첫 번째 원소를 선택한다. 5.
USN(Ubiquitous Sensor Network)
10장. 군집화 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
2장. 변수와 타입.
보고서 (due 5/8) 다음과 같은 방식으로 문제를 해결하시오. 문제 분석 알고리즘 작성 프로그램 작성 테스트 및 검증
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
Decision Tree & Ensemble methods
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
계산기.
알고리즘 알고리즘이란 무엇인가?.
수율관리를 위한 POP시스템 목적과 용도 시스템과 구성 POP의 효과
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
1. 스케치 평면 설정 평면상의 스케치 스케치를 할 평면 선택 스케치시 Horizontal (x축)으로 사용할 기준축 선택
문서 클러스터링 일본언어문화학과 서동진.
SelfShopping ProJect.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
오라클 11g 보안.
05. General Linear List – Homework
[INA240] Data Structures and Practice
7주차: Functions and Arrays
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
9 장 오류 검출 및 오류 정정 9.1 오류 종류 9.2 검출 9.3 오류 정정 9.4 요약.
9 브라우저 객체 모델.
제9주 예산 수립과 집행.
상관계수.
텍스트 분석 ㈜ 퀀트랩.
2D Game Programming 1차 발표 배강산.
개정판 누구나 즐기는 C언어 콘서트 제13장 동적 메모리 출처: pixabay.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
C++ Espresso 제15장 STL 알고리즘.
6 객체.
Text Clustering G 조한얼.
Presentation transcript:

Clustering Algorithm LINK @ KUT Youn-Hee Han

What is Clustering? 클러스터링이란 밀접히 관련된 사물, 사람, 아이디어 들의 그룹을 찾는 기법 데이터 세트 내에서 유사항목을 가진 그룹을 검출 어떠한 올바른 답을 찾는 것이 아니고 데이터 집합 내에서 구조를 발견하는데 목적이 있음 보통 그룹핑의 결과를 시각화하는 것 까지 포함 Algorithm

What is Clustering? 클러스터링 응용의 예 고객이 구매한 상품을 기록하는 소매상은 일반적인 통계적 정보와 이 구매정보를 활용하여 유사한 구매 행태를 가진 고객 그룹들을 자동으로 검출 Algorithm

Clustering Algorithms Algorithms based on cluster structure Single-link Hierarchical Average-link MST-based Single-link Cluster Schemes MST: minimum spanning tree K-means Partitional Nearest Neighbor Algorithm

Adjacency Matrix(인접행렬) 유사도(인접도) 형성 각 클러스터 간의 각각의 속성(Attribute)들에 대하여 유사도(Similarity)를 산정 <- Original Data Set Algorithm

Adjacency Matrix(인접행렬) 유사도(인접도) 형성 주어진 데이터 셋을 기반으로 유클리디안 거리, 피어슨계수 등으로 유사도를 산정하여 행렬 구성 Algorithm

유사도 산정 방식 - I 유클리디안 거리점수 Q) Point A( x=24, y=3)와 Point B (x=12, y=11)의 Euclidean Distance? Algorithm

유사도 산정 방식 - II 피어슨 상관계수 두 개의 데이터 집합이 한 직선으로 얼마나 잘 표현되는가를 나타내는 측정값 유클리디안 거리점수보다 공식이 더 복잡하지만 잘 정규화되지 않은 데이터의 경우에도 훨씬 나은 결과를 제공 Algorithm

유사도 산정 방식 - III Cosine 유사도 The resulting similarity −1 : exactly opposite, 1 : exactly the same, 0 : indicate independence, in-between values : indicating intermediate similarity or dissimilarity. Algorithm

Hierarchical clustering 계층적 군집화 가장 유사한 두 그룹을 계속 병합하는 방식으로 그룹 계층을 만듬. 개별 항목으로 시작하여 매 반복마다 이 함수는 모든 그룹 쌍 간의 인접성을 계산하여 인접성이 가장 높은 것 것들끼리 함께 병합하여 새로운 그룹을 생성 이 과정을 최종적으로 한 개 그룹만 남을 때까지 반복 계층적 군집화 종류 Agglomerative: 아래에서부터 위로(개별 항목부터 시작하여 수퍼(최종)클러스터까지 병합) Divisive: 수퍼 클러스터부터 시작하여 개별 항목이 남을 때까지 나눔 Algorithm

Hierarchical clustering 계층적 군집화 실행모습 Algorithm

Hierarchical clustering 계층적 군집화가 진행되거나 끝난 후의 최종 모습은 다음과 같은 Dendrogram (계통도) 형태가 된다. A C D B E 1 2 3 4 Algorithm

Hierarchical clustering Single-link algorithm 클러스터 내의 여러 점들 중 두 개의 점의 인접성이 가장 작은 것들 부터 병합하는 알고리즘 Average-link algorithm 클러스터 내의 여러 점들간의 거리 평균에 대한 인접성이 가장 작은 것들 부터 병합하는 알고리즘 Algorithm

Partitional clustering 분할적 군집화 사전에 생성할 군집의 개수를 지정하는 방식 대표적으로 K-means algorithm이 있다. Algorithm

Partitional clustering K-means algorithm 무작위로 선정된 k개의 중심점을 선정하고 그 점에서 가장 근접한 항목들을 클러스터에 할당 할당 후에는 할당된 모든 노드들의 평균 위치로 중심점을 이동시키고 재할당을 수행 할당이 더 이상 없을 때까지 이 과정을 반복 실행시간이 빠르다는 장점이 있으나 적절한 초기 입력값 K의 선정이 중요 노드들의 중심점(centroid) Algorithm

Partitional clustering K-means algorithm 실행모습 (K=2) Algorithm