Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G201149027 노준호.

Slides:



Advertisements
Similar presentations
비즈쿨 - 정 성 욱 - - 금오공고 비즈쿨 - 정 성 욱 1. 나는 각 단원들의 활동들에 성실하게 참여 하겠습니다. 우리의 다짐 2. 나는 나와 전체의 발전을 위해 각 멘토들의 지도에 순종하겠습니다. 3. 나는 각 단원들을 숙지함으로써 비즈니스 마인드를 함양하고 자신의.
Advertisements

Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
… 할 수 있다. = be able to I can run to my house You can run to your house He can run to his house She is able to run to her house We are able to run to our.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
개념∥화법이란 다른 사람의 말을 전달하는 방법을 말한다. 화법에는 직접화법과 간접화법의 두 가지가 있다. 따옴표 (Quotation Marks) 를 써서 말한 사람 (speaker) 의 말을 그대 로 전달하는 방법을 “ 직접화법 ” 이라고 하며, 말한 사람의 말을 전달하는.
Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Marketing Research 1  군집분석의 개념과 적용  군집분석 (cluster analysis) : 다수의 대상들 ( 소비자, 제품, 기타 ) 을 그들이 소유하는 특 성을 토대로 유사한 대상들끼리 그룹핑하는 다변량 통계기법 → 군집내의 구성원들은 가급 적.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
Kim Jun Woo 지식정보처리및응용 1 지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우.
열등비교 not as/so + 원급 + as ~만큼 ~못 한 (열등비교) less 원급 than
서울시립대학교 전자전기컴퓨터공학부 김한준
2015년도 2학기 제 8 장 표본추출 마케팅조사.
chapter 3. Filtering Patterns
전자파 연구실 Fast Beamforming of Electronically Steerable Parasitic Array Radiator Antennas: Theory and Experiment 세미나 자료 발표자 : 이동현 1.
컴퓨터 개념 및 실습 소개.
LISTEN AND UNDERSTAND LISTEN AND SING
Chapter 7 Transmission Media.
발표제목 발표제목 둘째 줄 2000년 11월 송 홍 엽 연세대학교 전기전자공학과 송 홍 엽
Learning Classifier using DNA Bagging
SSL (Secure Sockets Layers Protocol)
실험1. 연산 증폭기 특성 전자전기컴퓨터공학부 방기영.
PCA (Principal Component Analysis)
Pompeii 화산 폭발에 관한 글 읽고 이해하기
컴퓨터과학 전공탐색 배상원.
소형화된 인공두뇌의 제작과 생물학적 이용에 관한 탐구
제6장 표본추출 전수조사와 표본조사 1) 전수조사: 모집단 전체를 모두 조사. 예) 인구센서스, 농산물 수확조사
Cluster Analysis (군집 분석)
Progress Seminar 선석규.
CAS (Computer Algebra System) 소개
머신 러닝 2 ㈜ 퀀트랩.
병렬 처리/컴퓨터 기초.
Chapter 2 Unit 4 인칭대명사 be동사와 대명사.
군집 분석 (Cluster Analysis) 2016년 가을학기 강원대학교 컴퓨터과학전공 문양세.
1. 논리적이란? 논리적이지 못하다 말이나 글에 두서가 없다. 1. 논리적이란? 논리적이지 못하다 말이나 글에 두서가 없다.
지도교수 : 이상훈교수님 학과 : 컴퓨터시뮬레이션 학번 : 이름 : 진선미
자바 5.0 프로그래밍.
Data Mining Final Project
군집 분석.
알기쉬운 사회복지조사방법론 제6장 실험조사설계 경북대학교 황성동 C.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
연세대학교 컴퓨터과학과 소프트컴퓨팅 연구실 이영설
MATLAB(6.5)의 기본 사용법 오 승 택.
전자서명의 형태 수기서명 디지털서명. 전자서명의 형태 수기서명 디지털서명 전자서명의 필요성.
칼빈의 생애와 개혁자로의 변모 사학과 김종식.
국제의료관광 관련 법, 제도.
2019년도 전자정보공학과 이수체계도 1학년(트랙) 2학년(트랙) 3학년(트랙) 4학년 1학기 2학기 1학기 2학기 1학기
Java의 정석 제 4 장 조건문과 반복문 Java 정석 남궁성 강의
서울대학교 컴퓨터공학과 인공지능 연구실 엄 재 홍
조세의 형평성 함의: 조세의 귀착 Chapter 19
MovieStory 작성자 홍성혁 소속 전자전기컴퓨터공학부 학번
VHDL를 이용한 DES 설계 정보통신컴퓨터공학부 5조 김인옥, 백미숙
4장 마케팅 정보시스템과 마케팅조사.
비교문학의 실제 1. 비교문학의 실제 1 비교문학 비교문학의 실제 1 머리에 1 비교문학의 방법이 영향연구와 대비연구로 크게 나누어짐은 널리 알려진 사실이다. 전자가 사실관계를 바탕으로 한 실증적 방법이라 한다면, 후자는 문학간의 유사성을 대비하여 그 보편성의 원리를.
CAS (Computer Algebra System) 소개
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
CHAPTER 9-1 한국의 사회복지정책 - 사회보험제도 -
문서 클러스터링 일본언어문화학과 서동진.
Chapter 1 단위, 물리량, 벡터.
7주차: Functions and Arrays
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
(c) Byoungcheon Lee, Joongbu Univ.
텍스트 분석 ㈜ 퀀트랩.
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
확률표본추출 단순무작위 표본추출 SRS : simple random sampling
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
토론의 기술 3 쟁점분석과 입론.
학부생 연구원 및 대학원생 모집 DataBio 연구실 (윤영미 교수님) 연구실 소개 연구 과제 모집 대상 혜택 모집 기간
Text Clustering G 조한얼.
Progress Seminar 이준녕.
경찰학 세미나 제 5 강 경찰관직무집행법 2조 5호의 의미 신라대학교 법경찰학부 김순석.
Presentation transcript:

Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호

8.1 Introduction How to partition a collection of texts into groups? Classification (supervised) 정답 data 필요, 알고리즘에 의해 training 후 group 을 나눔 정답 data 에서 비용 발생 Clustering (unsupervised) 알고리즘, Unknown Data 만으로 group 을 나눔

8.2 Clustering K-Means Simple technique

8.2.1 Two-Variable Example of k-Means

8.2.2 k-Means with R Using R Kmeans() 함수 제공 data = (0,0), (0,1), (1,0), (1,1), (5,5), (5,6), (6,5), (6,6)

8.2.2 k-Means with R k = 4 일 때, 결과가 일정하지 않음  false 시작점이 random 하고, 결과가 시작점에 sensitive 함

8.2.3 He versus She in Poe’s Short Stories Clustering Data : Poe’s 69 short stories Data 개수 : 69 개 (short stories) Variable(Demension) 개수 : 2 개 (he, she) dataheShe 1(The Gold Bug)224 2(Four Beasts in One)1033 ………

8.2.3 He versus She in Poe’s Short Stories code

8.2.3 He versus She in Poe’s Short Stories output - poe68.csv - size.csv

8.2.3 He versus She in Poe’s Short Stories he, she 의 rate 를 계산

8.2.3 He versus She in Poe’s Short Stories Plotting

8.2.3 He versus She in Poe’s Short Stories k-Means (k = 2)

8.2.3 He versus She in Poe’s Short Stories k = 3, 4, 5, 6 일 때

8.2.3 He versus She in Poe’s Short Stories k = 6 일 때, 3 번 cluster 의 데이터들의 타이틀 3 번 cluster : she 의 비율이 높고, he 의 비율이 낮음

8.2.4 Poe Clusters Using Eight Pronouns k-means Variable(Demension) 개수 : 8 개 (he, she, him, her, his, hers, himself, herself) ( 단위 : rate) k = 2 plotting x 축 : heRate y 축 : herRate

8.2.4 Poe Clusters Using Eight Pronouns x 축 : heRate, y 축 : 다른 pronoun rate

8.2.4 Poe Clusters Using Eight Pronouns dimension 이 커질수록 분석이 어려움 poe’s story 의 dimension : 20,000 개 PCA 를 사용하여 dimension 을 줄임

8.2.5 clustering Poe Using Principal Components 주성분 추출

8.2.5 clustering Poe Using Principal Components k-Means (k =2) Variable : 8 개의 주성분, 2 개의 주성분

8.2.6 Hierarchical Clustering of Poe’s Short Stories Hierarchical clustering 가장 가까운 거리를 묶음

8.3 A note on classification Training 문서가 없어서 classification 을 다루지 않음 유명 작가의 classification 의 효용은 거의 없음 Overfitting 특정 문서에 특화됨 일반적인 문서에서 성능이 나쁠 수 있음