NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일

Slides:

Advertisements

Similar presentations

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.

Advertisements

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.

알고리즘 기본 개념 정렬 알고리즘 탐색 알고리즘 알고리즘 복잡도.

2010 – 06 – 24 주간 보고서.

뇌를 자극하는 Windows Server 2012 R2

소리가 작으면 이어폰 사용 권장!.

패턴인식 개론 Ch.8 클러스터링.

Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.

Network Lab. Young-Chul Hwang

Java로 배우는 디자인패턴 입문 Chapter 5. Singleton 단 하나의 인스턴스

윤 홍 란 다이알로그(대화상자) 윤 홍 란

제 9 장 구조체와 공용체.

Hybrid INDIGO project 중간보고

20장. Hyper-V 설치와 운영(64bit 전용)

Learning Classifier using DNA Bagging

6 장. ER-관계 사상에 의한 관계 데이터베이스 설계

데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.

Vector Bubble 충돌 검출 게임 설계 3조 강준순, 김훈석, 복현태.

Chapter 02 순환 (Recursion).

20장. Hyper-V 설치와 운영(64bit 전용)

보조저장장치 구조(Secondary Storage Structure)

뇌를 자극하는 Windows Server 장. 장애 조치 클러스터.

CHAP 10:그래프 (2) 순천향대학교 하상호.

빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.

자바 5.0 프로그래밍.

프로그래밍 개요

2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성

UNIT 07 Memory Map 로봇 SW 교육원 조용수.

벡터의 공간 이문현.

자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.

메모리 관리 & 동적 할당.

Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의

Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리

시뮬레이션 기반 가상 보조기구 알고리즘 최적화

15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋

행렬의 개요 행렬은 수를 원소로 지니는 다차원 배열이다. mn (“m by n”) 행렬은 m개의 행과 n개의 열을 갖는다.

행렬의 개요 행렬은 수를 원소로 지니는 다차원 배열이다. mn (“m by n”) 행렬은 m개의 행과 n개의 열을 갖는다.

성공어린이를 위한 확실한 선택과 투자! 학부모님께! 우리 귀한 자녀의 배는 어디를 향해 가고있습니까?

Decision Tree & Ensemble methods

5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열

데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.

Clustering Algorithm KUT Youn-Hee Han.

텍스트 분석 기초.

재료공학원리 II – 최종 보고서 및 최종 발표 1. 최종 보고서 2. 최종 발표 3. 평가 항목

맵리듀스 Yonsei University 2nd Semester, 2014 Sanghyun Park

Excel 일차 강사 : 박영민.

알고리즘 알고리즘이란 무엇인가?.

데이터 동적 할당 Collection class.

클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책

에어 PHP 입문.

문서 클러스터링 일본언어문화학과 서동진.

DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.

Word Embedding.

5장. 선택 알고리즘.

SPL3D Printer If 조건문.

쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석

열역학 Fundamentals of Thermodynamics(7/e) RICHARD E

11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.

컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님

수치해석 ch3 환경공학과 김지숙.

DNA Implementation of Version Space Learning

2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.

9장. spss statistics 20의 데이터 변수계산

6장. SQL 쿼리.

버스와 메모리 전송 버스 시스템 레지스터와 레지스터들 사이의 정보 전송을 위한 경로

교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)

Text Clustering G 조한얼.

Presentation transcript:

NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일 제 5부 정보 검색 제 20장 문서 클러스터링 NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일

목차 1.문서 클러스터링의 개요 2.문서 클러스터링 알고리즘 클러스터링 결과 판단 Jaccard’s coefficient Dice’s coefficient The cosine measure The inclusion measure The overlap coefficient 2.문서 클러스터링 알고리즘 계층적 클러스터링 할당식 클러스터링 클러스터링 결과 판단

문서 클러스터링 클러스터링 문서 클러스터링 문서 클러스터링의 이점 주어진 데이터를 의미 있는 그룹으로 분류 하는 방법 문서 클러스터링 대용량의 문서를 주제에 따라 분류하는 것 문서 클러스터링의 이점 검색효율 향상 탐색 시간 절약 색인, 불용어 제거 등의 과정을 거쳐 대상 문서들을 문서-색인어 행렬 만들어서 클러스터링을 진행 bag-of-word 접근법 단어의 의미,순서 등을 고려하지 않음 같은 주제는 비슷한 단어들의 출현 패턴을 보인다 T1 T2 . . . . . Tm D1 T11 T12 t1m D2 T21 . Dn Tn1 tn2 tnm

문서 클러스터링 m = 6 , n = 5 T={computer,retrieval,archiving,hypertext,hypermedia,indexing} D1={computer,retrieval,archiving,hypertext,hypermedia} ={1,1,1,1,1,0} q1={archiving,hypermedia} ={0,0,1,0,1,0} q2={retrieval, indexing} ={0,1,0,0,0,1}

문서 클러스터링 Jaccard’s coefficient

문서 클러스터링 Dice’s coefficient

문서 클러스터링 The cosine measure

문서 클러스터링 The inclusion measure

문서 클러스터링 The overlap coefficient D1 D2 . . . . . Dm S(D1,D1) S(D1,D2) S(D1,Dn) S(D2,D1) . Dn S(Dn,D1) S(Dn,D2) S(Dn,Dn)

문서 클러스터링 알고리즘 계층적 클러스터링 트리 구조를 형성하여 클러스터링을 하는 모델 그림은 D1~D6문서들을 계층적 클러스터링한 예.

문서 클러스터링 알고리즘 계층적 클러스터링 장단점 병합식과 분할식 장점:문서 간의 계층 제공 단점:클러스터링 시간이 할당식 클러스터링에 비해 오래 걸림 병합식과 분할식 병합식 클러스터링 첫 단계에서 각 문서가 각각의 클러스터를 형성한다고 가정 알고리즘이 진행 될수록 가장 가까운 문서끼리 병합 새로운 클러스터를 형성 분할식 모든 문서가 하나의 클러스터에 속한다고 가정 알고리즘 진행 매 단계별 유사도가 작은 문서의 집합끼리 분할

문서 클러스터링 알고리즘 계층적 클러스터링 단순한 병합식 클러스터링 알고리즘 문서의 개수만큼 클러스터를 생성하여 각 문서가 각 클러스터로 각각 할당되도록 한다. 각 클러스터의 중심은 자신이 포함하고 있는 문서가 된다. 모든 문서가 하나의 클러스터로 할당될 때까지 다음을 계속한다 모든 클러스터 간의 유사도를 계산 한다 가장 가까운 두 클러스터를 하나로 병합 병합된 두 클러스터를 유사도 행렬에서 제외하고 새로 만들어진 클러스터와 다른 클러스터와의 유사도를 계산하여 유사도 행렬을 갱신한다. 클러스터의 중심 벡터의 클러스터에 포함된 문서의 평균 벡터이다

문서 클러스터링 알고리즘 할당식 클러스터링 클러스터의 계층을 고려하지 않고 각 문서를 평면적 으로 클러스터링 하는 방법 미리 나누어질 클러스터의 개수를 예상하고 클러스터를 재공 문서 클러스터링에는 K-means 알고리즘을 많이 사용 기본적인 K-means 알고리즘 K개의 문서를 임으로 선택하여 초기 클러스터의 중심으로 할당. K개의 클러스터의 중심이 바뀌지 않을 때까지 다음과정 반복 나머지 모든 문서들을 가장 유사도가 높은 중심에 해당하는 클러스터로 할당 각 클러스터의 중심을 다시 계산

클러스터링 결과 판단 엔트로피 방법 Pij 는 클러스터 j에 포함된다고 판단된 문서들이 실제로 클래스 i에 포함될 확률 Ej가 양수이고 이값이 0에 가까울수록 정확하게 클러스터링이 된것 전체적인 클러스터링 평가 각 클러스터의 엔트로피에 클러스터의 크기를 곱하여 평균을 낸 값으로 평가

클러스터링 결과 판단 F- measure 정보 검색에서는 이 방법을 더 많이 사용 nij = 클래스 i에 속한 문서가 클러스터 j에 속한다고 판단된 문서 정확률:어떤 클러스터에 속한다고 판정된 문서 중 제대로 클러스터링이 된 문서의 비율 재현률:어떤 클래스에 속한 다고 판정된 문서 중 제대로 클러스터링이된 문서의 비율 클러스터 j와 클래스 i에 대한 F-measure

Q&A 수고 하셨습니다.