Text Clustering G201849018 조한얼.

Slides:



Advertisements
Similar presentations
R 분석 모델 선택, k-means 알고리즘. 분석 모델 선택 문제 해결을 위한 모델 선택 분류 문제 클러스터링 그룹화 vs 예측 문제 모델의 성능을 어떻게 평가할 것인가 최소한 널 (null) 모델보다는 성능이 좋아야 한다.
Advertisements

Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ ’ ( 금 ) ~ ( 목 ) / 15 개 시・군 대한체육회 / 도, 교육청, 도체육회 47 개 종목 / 32 천명 ’ ( 금 ) ~ ( 화 ) / 9 개 시・군 대한장애인체육회 / 도,
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
알고리즘 기본 개념 정렬 알고리즘 탐색 알고리즘 알고리즘 복잡도.
태그를 이용한 웹 페이지간의 유사도 측정 방법 (Measuring Web Page Similarity using Tags)
재료수치해석 HW # 박재혁.
전자파 연구실 Fast Beamforming of Electronically Steerable Parasitic Array Radiator Antennas: Theory and Experiment 세미나 자료 발표자 : 이동현 1.
의사 결정 트리(decision tree)
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
Entity Relationship Diagram
Excel 일차 강사 : 박영민.
Hybrid INDIGO project 중간보고
Learning Classifier using DNA Bagging
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Vector Bubble 충돌 검출 게임 설계 3조 강준순, 김훈석, 복현태.
Chapter 02 순환 (Recursion).
군집분석: 비지도 학습 효율적 군집분석 급내 (intra-class) 유사성이 높고
Multimedia Programming 10: Point Processing 5
매듭 이론 Lord Kelvin , Tait ( ), C.N. Little
병렬 처리/컴퓨터 기초.
KIM HEESANG PL/SQL 2 KIM HEESANG
CXQuery를 사용하는 STREAM XML Filter
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
자바 5.0 프로그래밍.
프로그래밍 개요
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
군집 분석.
27장. 모듈화 프로그래밍.
군집분석 (Cluster analysis)
제 10 장 의사결정이란 의사결정은 선택이다.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
학습 주제 p 일률 측정하기.
8장. spss statistics 20의 데이터 변환
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
Clustering Algorithm KUT Youn-Hee Han.
컴퓨터 프로그래밍 기초 [01] Visual Studio 설치 및 사용방법
논문작성을 위한 연구모형 설정 양동훈.
14강. 세션 세션이란? 세션 문법 Lecturer Kim Myoung-Ho Nickname 블스
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
지도교수 : 안미정 교수님 사이버 경찰학과 김영훈
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
XML (eXtensible Markup Language) 개요
알고리즘 알고리즘이란 무엇인가?.
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
문서 클러스터링 일본언어문화학과 서동진.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Word2Vec.
Word Embedding.
Support Vector Machine
생체 신호의 실시간 디지털 처리 7조 홍윤호( )-1등
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
발표자 : 이지연 Programming Systems Lab.
2D 게임 프로그래밍 제안서 김보명.
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
텍스트 분석 ㈜ 퀀트랩.
.Net FrameWork for Web2.0 한석수
MIS 플2 회계- 마감후이월(2007).
1. 강의 소개 컴퓨팅적 사고와 문제해결.
2011학년도 졸업작품 주제 발표 -카메라 기반 제스처 인식 UI-
 6장. SQL 쿼리.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
문제의 답안 잘 생각해 보시기 바랍니다..
강화학습: 기초.
C++ Espresso 제15장 STL 알고리즘.
7 생성자 함수.
6 객체.
Latent Semantic Analysis
Presentation transcript:

Text Clustering G201849018 조한얼

목차 1. Text Clustering 개요 2. Document Clustering 3. Text Clustering 4. Evaluation of Text Clustering

Text Clustering 개요 Clustering : 관련된 데이터를 서로 묶어주는 기법 Clustering의 특징 예)고객들의 불만사항들을 클러스터링하여 주된 불만사항이 무엇인지 밝히는 것 Clustering의 특징 대부분의 알고리즘이 비지도 학습이기 때문에 학습 데이터가 필요 없음. 데이터의 경향성을 살펴보는 데 유용. 어떠한 기준을 통하여 클러스터링 하느냐에 따라서 결과가 달라지기 때문에, 필요한 목적에 맞는 분류 기준을 선택하는 것이 중요

Text Clustering 분류 Similarity Clustering Model-based Clustering 서로 비슷한 내용의 항목들끼리 클러스터링 하는 것 Model-based Clustering 특정 모델을 두고 해당 모델에 얼마나 가까운지 클러스터링 하는 것 Document Clustering -관련된 내용의 문서들을 클러스터링 하는 것 Term Clustering -관련된 의미의 단어들을 클러스터링 하는 것

Similarity-based Documant clustering Symmetric : sim(d1, d2) 의 값과 sim(d2,d1)의 값이 같아야 한다. Normalized : 결과값이 [0,1]사이여야 한다. Cosine Similarity : Jaccard similarity :

Agglomerative Hierachical Clustering 상향식 클러스터링 가장 가까운 문서들끼리 클러스터를 형성(dendrogram)

Agglomerative Hierachical Clustering Single-link : 클러스터에 포함된 문서 중 가장 가까운 문서의 거리를 활용 Complete-link : 클러스터에 포함된 문서 중 가장 먼 문서의 거리를 활용 Average-link : 클러스터에 포함된 문서의 평균 거리를 활용

Divisive Clustering(K-means) 문서를 K개의 중심점을 기준으로 점점 작은 Cluster로 나누어가는 기법 하향식 클러스터링 개별 문서가 나올 때 까지, 혹은 목표한 만큼 Cluster가 작아질 때까지 반복 시행 실행 방법 1)전체 문서에서 K개의 랜덤한 중심점을 선택 2)중심점을 기준으로 클러스터 형성 3)형성된 클러스터의 무게중심 계산 4)무게중심에 가장 가까운 문서를 새 중심점으로 설정 5)더 이상 무게중심이 바뀌지 않을 때 까지 2~5 반복

Divisive Clustering(K-means)

Term Clustering 비슷한 의미, 용법의 단어들을 클러스터링 하는 기법 예)축구, 농구 evaluation, assessment : 유의어 Sementically Related Terms Pointwise Mutual Information N-gram Class Language Models Neural language model

Semantically related terms TF-IDF를 사용하여 비슷한 의미를 가진 Term을 추출

Semantically related terms 문제점 문서에 관련된 term이 단 한 개만 존재해도 유사도가 급격히 높아지게 됨 해결법 단어가 존재하지 않더라도 기본적으로 존재하는 수치를 대입, 값이 하나만 존재하더라도 차이가 많이 나지 않게 수정

Pointwise mutual information 특정 단어의 근처에 있는 단어를 합산하여, 어떤 단어쌍이 서로 독립적인지 계산하는 방법 필요한 경우 다음과 같이 Normalize 가능

N-Gram class language model 특정 단어가 나타날 확률은 단어에 종속된 것이 아닌 단어의 분류에 영향을 받음 모든 단어의 p(w | c) 값을 비교하는 것은 수치상 불가능 -> 2개의 단어씩 비교, Hierarchical agglomerative clustering을 실행

Neural language model Neural network를 사용하여 단어들의 Vector를 계산하는 기법 기존 Huristic한 계산법의 AdHoc한 단점 보완 Softmax 함수를 이용하여 유사도 계산 비슷한 단어가 들어왔을 때, 높은 확률이 나오도록 weight 수정

Evaluation of Text Clustering Coherence : 비슷한 객체들끼리 얼마나 응집되어 있는지 Separation : 서로 다른 객체들끼리 얼마나 떨어져 있는지 Utility : 분리해 낸 클러스터의 효용성이 얼마나 큰지 Coherence, Separation은 거리값을 이용하여 계산 가능 Utility의 경우 최종적으로 적용된 시스템의 결과로 확인 가능