Presentation is loading. Please wait.

Presentation is loading. Please wait.

Text Clustering G201849018 조한얼.

Similar presentations


Presentation on theme: "Text Clustering G201849018 조한얼."— Presentation transcript:

1 Text Clustering G 조한얼

2 목차 1. Text Clustering 개요 2. Document Clustering 3. Text Clustering
4. Evaluation of Text Clustering

3 Text Clustering 개요 Clustering : 관련된 데이터를 서로 묶어주는 기법 Clustering의 특징
예)고객들의 불만사항들을 클러스터링하여 주된 불만사항이 무엇인지 밝히는 것 Clustering의 특징 대부분의 알고리즘이 비지도 학습이기 때문에 학습 데이터가 필요 없음. 데이터의 경향성을 살펴보는 데 유용. 어떠한 기준을 통하여 클러스터링 하느냐에 따라서 결과가 달라지기 때문에, 필요한 목적에 맞는 분류 기준을 선택하는 것이 중요

4 Text Clustering 분류 Similarity Clustering Model-based Clustering
서로 비슷한 내용의 항목들끼리 클러스터링 하는 것 Model-based Clustering 특정 모델을 두고 해당 모델에 얼마나 가까운지 클러스터링 하는 것 Document Clustering -관련된 내용의 문서들을 클러스터링 하는 것 Term Clustering -관련된 의미의 단어들을 클러스터링 하는 것

5 Similarity-based Documant clustering
Symmetric : sim(d1, d2) 의 값과 sim(d2,d1)의 값이 같아야 한다. Normalized : 결과값이 [0,1]사이여야 한다. Cosine Similarity : Jaccard similarity :

6 Agglomerative Hierachical Clustering
상향식 클러스터링 가장 가까운 문서들끼리 클러스터를 형성(dendrogram)

7 Agglomerative Hierachical Clustering
Single-link : 클러스터에 포함된 문서 중 가장 가까운 문서의 거리를 활용 Complete-link : 클러스터에 포함된 문서 중 가장 먼 문서의 거리를 활용 Average-link : 클러스터에 포함된 문서의 평균 거리를 활용

8 Divisive Clustering(K-means)
문서를 K개의 중심점을 기준으로 점점 작은 Cluster로 나누어가는 기법 하향식 클러스터링 개별 문서가 나올 때 까지, 혹은 목표한 만큼 Cluster가 작아질 때까지 반복 시행 실행 방법 1)전체 문서에서 K개의 랜덤한 중심점을 선택 2)중심점을 기준으로 클러스터 형성 3)형성된 클러스터의 무게중심 계산 4)무게중심에 가장 가까운 문서를 새 중심점으로 설정 5)더 이상 무게중심이 바뀌지 않을 때 까지 2~5 반복

9 Divisive Clustering(K-means)

10 Term Clustering 비슷한 의미, 용법의 단어들을 클러스터링 하는 기법
예)축구, 농구 evaluation, assessment : 유의어 Sementically Related Terms Pointwise Mutual Information N-gram Class Language Models Neural language model

11 Semantically related terms
TF-IDF를 사용하여 비슷한 의미를 가진 Term을 추출

12 Semantically related terms
문제점 문서에 관련된 term이 단 한 개만 존재해도 유사도가 급격히 높아지게 됨 해결법 단어가 존재하지 않더라도 기본적으로 존재하는 수치를 대입, 값이 하나만 존재하더라도 차이가 많이 나지 않게 수정

13 Pointwise mutual information
특정 단어의 근처에 있는 단어를 합산하여, 어떤 단어쌍이 서로 독립적인지 계산하는 방법 필요한 경우 다음과 같이 Normalize 가능

14 N-Gram class language model
특정 단어가 나타날 확률은 단어에 종속된 것이 아닌 단어의 분류에 영향을 받음 모든 단어의 p(w | c) 값을 비교하는 것은 수치상 불가능 -> 2개의 단어씩 비교, Hierarchical agglomerative clustering을 실행

15 Neural language model Neural network를 사용하여 단어들의 Vector를 계산하는 기법
기존 Huristic한 계산법의 AdHoc한 단점 보완 Softmax 함수를 이용하여 유사도 계산 비슷한 단어가 들어왔을 때, 높은 확률이 나오도록 weight 수정

16 Evaluation of Text Clustering
Coherence : 비슷한 객체들끼리 얼마나 응집되어 있는지 Separation : 서로 다른 객체들끼리 얼마나 떨어져 있는지 Utility : 분리해 낸 클러스터의 효용성이 얼마나 큰지 Coherence, Separation은 거리값을 이용하여 계산 가능 Utility의 경우 최종적으로 적용된 시스템의 결과로 확인 가능


Download ppt "Text Clustering G201849018 조한얼."

Similar presentations


Ads by Google