문서 클러스터링 일본언어문화학과 03703018 서동진.

Slides:



Advertisements
Similar presentations
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
Advertisements

Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
알고리즘 기본 개념 정렬 알고리즘 탐색 알고리즘 알고리즘 복잡도.
컴퓨터와 인터넷.
패턴인식 개론 Ch.8 클러스터링.
Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
Entity Relationship Diagram
9장. C 언어의 핵심! 함수. 9장. C 언어의 핵심! 함수 9-1 함수의 정의와 선언 main 함수 다시 보기 : 함수의 기본 형태 { } 그림 9-1.
제 9 장 구조체와 공용체.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
Hybrid INDIGO project 중간보고
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Chapter 02 순환 (Recursion).
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
23장. 구조체와 사용자 정의 자료형 2.
보고서 #5(제출기한: 10/14) 다음 문제를 해결하시오.
자료구조: CHAP 4 리스트 (3) 순천향대학교 컴퓨터공학과 하 상 호.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
CHAP 10:그래프 (2) 순천향대학교 하상호.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
자바 5.0 프로그래밍.
프로그래밍 개요
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
Linux/UNIX Programming
군집 분석.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
Quiz #7 다음 수들을 합병 정렬과 퀵 정렬 알고리즘을 이용하여 오름 차순으로 정렬하였을 때, 데이터 이동 회수를 각각 구하라. 여러분은 정렬 과정을 단계별로 보이면서 이동 회수를 추적해야 한다. 단, 퀵 정렬시에 피봇으로 배열의 왼쪽 첫 번째 원소를 선택한다. 5.
Linux/UNIX Programming
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
USN(Ubiquitous Sensor Network)
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
Decision Tree & Ensemble methods
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Clustering Algorithm KUT Youn-Hee Han.
텍스트 분석 기초.
재료공학원리 II – 최종 보고서 및 최종 발표 1. 최종 보고서 2. 최종 발표 3. 평가 항목
맵리듀스 Yonsei University 2nd Semester, 2014 Sanghyun Park
Linux/UNIX Programming
Linux/UNIX Programming
데이터 동적 할당 Collection class.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Word2Vec.
Word Embedding.
5장. 선택 알고리즘.
SPL3D Printer If 조건문.
생체 신호의 실시간 디지털 처리 7조 홍윤호( )-1등
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
Homework #3 (1/3) 다음을 수행한 후, 결과 파일들을 출력하여 제출한다.
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
웹 사이트 분석과 설계 [디자인 리서치] 학번: 이름 : 홍지애.
구조체(struct)와 공용체(union)
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
트리 (Logical) Data Structures Linear list Tree Graph Linear structures
수치해석 ch3 환경공학과 김지숙.
DNA Implementation of Version Space Learning
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
 6장. SQL 쿼리.
버스와 메모리 전송 버스 시스템 레지스터와 레지스터들 사이의 정보 전송을 위한 경로
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
C++ Espresso 제15장 STL 알고리즘.
Linux/UNIX Programming
6 객체.
Text Clustering G 조한얼.
Presentation transcript:

문서 클러스터링 일본언어문화학과 03703018 서동진

목차 문서 클러스터링 기술 엔진 알고리즘 계층적 클러스터링 / 할당식 클러스터링

문서 클러스터링 클러스터링 주어진 데이터를 의미 있는 그룹으로 분류하는 방법 문서 클러스터링 대용량의 문서를 주제에 따라 분류하는 것 문서 클러스터링의 이점 검색효율 향상 / 탐색시간 절약 색인 불용어 제거 등의 과정을 거쳐 대상 문서들을 문서-색인어 행렬 만들어서 클러스터링을 진행 bag-of-word 접근법 단어의 의미, 순서 등을 고려하지 않음 같은 주제는 비슷한 단어들의 출현 패턴을 보인다

문서 클러스터링 기술 여러 가지 주제를 포함하고 있는 한 문서 내에 있는 내용들을 동일한 주제에 따라 분류하여 주는 기술이다. 이 기술을 이용함으로써 문서 내에 뒤섞여있는 내용을 정리하여 사용자들에게 보여주게 된다. 따라서 전체 문서의 내용을 쉽게 분석할 수 있고 부분적으로 필요한 내용을 선택하여 쓸 수 있다.

문서 클러스터링 엔진 문서클러스터링 엔진은 문서를 구성하는 색인어들로부터 문서에 대한 특성벡터를 추출하고, 모든 문서쌍에 대하여 특성벡터를 이용한 유사도를 측정하여, 가장 유사도가 높은 문서쌍을 클러스터링하는 엔진이다. 문서 클러스터링 기법으로는 Graph Theoretic Methods, Fast Partition Methods, Nearest Neighbor Clusters 등이 이용되고 있다.

문서 클러스터링 엔진 Graph Theoretic Methods는 어떤 한계치 이상의 유사도를 지니는 객체를 그래프 형식으로 표현하는 기법이다. Fast Partition Methods는 문서간 클러스터링의 속도를 높이기 위한 기법으로 동일한 클러스터 내의 특정 문서를 대표 문서화함으로써 각 클러스터간에 대표문서를 비교하여 유사도를 계산하는 방식과 특정 클러스터의 대표문서를 추출하고 클러스터링하고자 하는 문서를 가장 유사한 대표문서가 있는 클러스터에 포함시키는 방식이 있다. Nearest Neighbor Clusters는 가장 근접한 문서들을 클러스터링하는 기법이다.

문서 클러스터링 알고리즘 (계층적 클러스터링) 트리 구조를 형성하여 클러스터링을 하는 모델 그림은 D1~D6문서들을 계층적 클러스터링한 예.

문서 클러스터링 알고리즘 (계층적 클러스터링) 장점 : 문서 간의 계층 제공 단점 : 클러스터링 시간이 할당식 클러스터링에 비해 오래 걸림 병합식 클러스터링 첫 단계에서 각 문서가 각각의 클러스터를 형성한다고 가정 알고리즘이 진행 될수록 가장 가까운 문서끼리 병합 새로운 클러스터를 형성 분할식 모든 문서가 하나의 클러스터에 속한다고 가정 알고리즘 진행 매 단계별 유사도가 가장 작은 문서의 집합끼리 분할

문서 클러스터링 알고리즘 (계층적 클러스터링) 단순한 병합식 클러스터링 알고리즘 문서의 개수만큼 클러스터를 생성하여 각 문서가 각 클러스터로 각각 할당되도록 한다. 각 클러스터의 중심은 자신이 포함하고 있는 문서가 된다. = 모든 클러스터 간의 유사도를 계산한다 = 가장 가까운 두 클러스터를 하나로 병합 = 병합된 두 클러스터를 유사도 행렬에서 제외하고 새로 만들어진 클러스터와 다른 클러스터와의 유사도를 계산하여 유사도 행렬을 갱신한다. 클러스터의 중심 벡터의 클러스터에 포함된 문서의 평균 벡터이다

문서 클러스터링 알고리즘 (할당식 클러스터링) 클러스터의 계층을 고려하지 않고 각 문서를 평면적으로 클러스터링하는 방법 미리 나누어질 클러스터의 개수를 예상하고 클러스터를 제공 문서 클러스터링에는 K-means 알고리즘을 많이 사용 기본적인 K-means 알고리즘 K개의 문서를 임의로 선택하여 초기 클러스터의 중심으로 할당. K개의 클러스터의 중심이 바뀌지 않을 때까지 다음과정 반복 = 나머지 모든 문서들을 가장 유사도가 높은 중심에 해당하는 클러스터로 할당 = 각 클러스터의 중심을 다시 계산