Presentation is loading. Please wait.

Presentation is loading. Please wait.

Text Mining (Parsing) with R

Similar presentations


Presentation on theme: "Text Mining (Parsing) with R"— Presentation transcript:

1 Text Mining (Parsing) with R

2 1. Introduction A case on “What they think abut tax?”
: what are their major interests in tax?

3 2. Prepare the lab for parsing
copy "tax.txt" into "C:/Rtest“  use memo pad to edit the data and the data should have extension .txt Open R and set path as below > setwd("c:/Rtest") Install packages for dealing Korean languages (KoNLP), wordcloud (words clouding) RColorBrewer (coloring words) - KoNLP needs (JRE: Java Runtime Environment) > install.packages("KoNLP") > install.packages("RColorBrewer") > install.packages("wordcloud") > library(KoNLP) > library(RColorBrewer) > library(wordcloud)

4 3. Read data and text analysis
> result <- file("tax.txt", encoding="UTF-8") > result2 <- readLines(result) > head(result2, 3) > result3 <- sapply(result2, extractNoun, USE.NAMES=F) > head(unlist(result3), 20) > write(unlist(result3), "tax_word.txt") The nouns extracted are saved in result3 and they can be used later for other uses. Import the contents in Tax.csv and save it into result - Copy content in result row by row. Save then to result2 Extract nouns from each line in result2 and save it to result3 - print about 20 nouns from result3

5 4. Text analysis ① ② > myword <- read.table("tax_word.txt")
> nrow(myword) > wordcount <- table(myword) > head(sort(wordcount, decreasing=T), 20) Read contents in tax_word.txt and save them into myword - check each record inside of myword Count words frequency in myword and save it into wordcount - show 20 words ranked by frequency in wordcount. The words are sorted in descending order

6 5. Text analysis ① ② ④ ③ > palete <- brewer.pal(9, "Set1")
> wordcloud( names(wordcount), freq=wordcount, scale=c(5, 1), rot.per=0.5, min.freq=4, random.order=F, random.color=T, colors=palete ) 워드클라우드를 만드는 기능을 가진 wordcloud 패키지의 또다른 세부 기능을 가진 RColorBrewer를 메모리에 업로드 시킴 - 워드클라우드 작성시 이를 구성하는 단어들마다의 색상을 부여해줌 워드클라우드 형식의 그림데이터를 표현하기 위한 별도의 그래픽구현 창을 생성함 Wordcloud함수의 세부 인수(옵션) 값을 조정하여 워드클라우드에서 중요키워드를 파악함 - scale이 출력되는 단어들간의 크기 비율임 - rot.per는 단어들간의 간격을 조절함 - min.freq는 단어의 언급횟수를 의미함 원래는 아래의 기다란 형태의 한 줄로 코딩이 되어야 하지만 작성화면이 상당히 복잡하고 불편함 - 이에 따라 wordcloud( )라는 함수의 인수들을 작성하다 적당한 부근에서 Shift + Enter키를 누르면 그 다음 줄에 (+)기호가 생성되고 들여쓰기 형태로 코딩을 하게 됨 - 이를 표현하는 것이 바로 플러스기호(+)로 각각의 줄이 하나의 개별적인 R명령코딩이 아니라 원래 한 줄로 구성되어 있는 코딩이라는 의미임 wordcloud(names(wordcount), freq=wordcount,scale=c(5, 1),rot.per=0.5,min.freq=4,random.order=F,random.color=T,colors=palete)

7 6. 워크클라우드를 통한 시각화 최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드
최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드 > result2 <- gsub("것", "", result2) > result2 <- gsub("저", "", result2) > result2 <- gsub("원", "", result2) 최초 작성된 워드클라우드에서 파악된 비중요 단어들을 제거함


Download ppt "Text Mining (Parsing) with R"

Similar presentations


Ads by Google