카카오톡 속의 우리 모습 이 부 일 충남대학교 정보통계학과 010-3420-8736
텍스트 마이닝(Text mining)
텍스트 마이닝(Text mining)
텍스트 마이닝(Text mining)
카카오톡 [ 출처 ] http://blog.naver.com/PostView.nhn?blogId=big_study&logNo=220163649988
카카오톡 : 이모티콘 [ 출처 ] http://blog.naver.com/PostView.nhn?blogId=big_study&logNo=220163649988
카카오톡 : 이용자 수 출처 : 다음카카오 2015년 1분기 실적발표 자료 카카오톡 : 이용자 수 출처 : 다음카카오 2015년 1분기 실적발표 자료 http://www.daumkakao.com/upload_resources/ir/siljeok/siljeok_20150514080024.pdf
대한민국 고등학생 연령의 인구 출처 : KOSIS(국가통계포털) 2010년 인구주택총조사 자료 대한민국 고등학생 연령의 인구 출처 : KOSIS(국가통계포털) 2010년 인구주택총조사 자료 http://kosis.kr/statisticsList/statisticsList_01List.jsp?vwcd=MT_ZTITLE&parentId=A#SubCont
카카오톡 이용 패턴 분석하기(01) “자기 물드세요” 대상자 : 가족 받음 라인 : 1 어절 : 2 음절 : 6
카카오톡 이용 패턴 분석하기(02) 대상자 : 가족 시 간 : 오후 받음 라인 : 2 어절 : 3 음절 : 7 보냄 카카오톡 이용 패턴 분석하기(02) 대상자 : 가족 시 간 : 오후 받음 라인 : 2 어절 : 3 음절 : 7 보냄 라인 : 8 어절 : 12 음절 : 26 이모티콘 : 1
카카오톡 이용 패턴 분석하기(03) 자료 수집 각자 최근 1일 동안 사용했던 카카오톡의 내용을 대상자별로 구분하여 기록함(단, 사용기간은 분임에서 조정 가능함) 최종 분석 자료 : 분임별 구성원의 자료를 합친 것 분임별로 카카오톡 이용 패턴의 특징을 파악함 파악한 특징을 파워포인트로 작성하여 발표함 제시된 내용 이외의 아이디어를 적용하여 대상자에 따른 이용 패턴의 차이를 파악하는 것도 가능함
카카오톡 이용 패턴 분석하기(04) 자료 수집 카카오톡을 안 하는 경우는 문자로 대신함 단체방은 포함하지 않음
카카오톡 이용 패턴 분석하기(05) 발표시 주의할 점 자료 수집 방법을 소개할 것 카카오톡 이용 패턴 분석하기(05) 발표시 주의할 점 자료 수집 방법을 소개할 것 발표에 사용하는 단어의 개념에 대한 정의를 명확히 할 것 막대그래프인 경우는 y축이 무엇을 의미하는지 표시할 것 인터넷 등을 통한 외부 자료를 사용할 경우는 출처를 명확히 할 것
카카오톡 이용 패턴 분석하기(06)
카카오톡 이용 패턴 분석하기(07) 라인수, 어절수, 음절수, 기타 현황은 어떠한가? 누구와 대화를 하는가? 카카오톡 이용 패턴 분석하기(07) 라인수, 어절수, 음절수, 기타 현황은 어떠한가? 누구와 대화를 하는가? 어떠한 내용의 대화를 하는가? 언제 하는가? 어디서 하는가?
카카오톡 이용 패턴 분석하기(08) 유용한 분석 도구들 엑셀의 피벗 테이블 기능 카카오톡 대화분석기(앱, 인터넷 사이트) 카카오톡 이용 패턴 분석하기(08) 유용한 분석 도구들 엑셀의 피벗 테이블 기능 카카오톡 대화분석기(앱, 인터넷 사이트) R 프로그램
R 프로그램 다운로드 및 설치 www.r-project.org Download -> CRAN Korea -> http://cran.nexr.com Windows Base R 3. 2. 1 실행
RStudio 프로그램 다운로드 및 설치 www.rstudio.com Download Desktop Open source Window 0.99.467 실행
RStudio 프로그램 실행 및 파일 불러오기 File -> Open File textmining.R
RStudio 프로그램 실행 및 파일 불러오기 File -> Open File textmining.R
Text Mining in R Bar plot 3D Pie plot Word cloud
Text Mining in R # 작업공간 설정 및 보기 setwd("d:/") getwd() # 관련 패키지 설치 및 로딩하기 install.packages("KoNLP") install.packages("wordcloud") install.packages("RColorBrewer") require(KoNLP) require(wordcloud) require(RColorBrewer)
Text Mining in R # 텍스트 파일을 한 줄씩 읽어오기 rent1 = readLines("new_myray.txt") # 단어 중에서 명사를 추출하기 rent2 = sapply(rent1, extractNoun, USE.NAMES=FALSE) # 리스트(List) 형태의 데이터를 벡터(Vector)로 저장하기 rent3 = unlist(rent2) # 특정한 단어들을 처리하기 rent3 = gsub("[0-9]", "", rent3) # 숫자를 공백으로 rent3 = gsub("[a-z]", "", rent3) # 소문자 알파벳을 공백으로 rent3 = gsub("[A-Z]", "", rent3) # 대문자 알파벳을 공백으로 rent3 = gsub("[:punct:]", "", rent3) # 특수기호를 공백으로 rent3 = Filter(function(x){nchar(x)>=2}, rent3) # 음절의 길이가 2이상인 것만
Text Mining in R # 참고로 이러한 작업은 공백을 제거하기 위함이다. write(unlist(rent3), "myray2.txt") # 새로운 텍스트 파일 읽어오기 rent4 = read.table("myray2.txt") # 단어의 빈도를 구하기 wordcount = table(rent4) # 단어의 색을 지정 palete = brewer.pal(n=9, name="Set3")
Text Mining in R # 워드 클라우드 작성 wordcloud(names(wordcount), # 단어명 freq=wordcount, # 단어의 빈도 min.freq=2, # 워드 클라우드에 나오게 하는 최소의 빈도 rot.per=0.25, # 단어의 회전 각도 scale=c(5,1), # 가장 큰 글자는 5, 가장 작은 글자는 1로 지정 random.order=FALSE, # 단어의 순서를 임의로 지정하지 않음 random.color=TRUE, # 단어의 색은 임의로 지정 colors=palete) # 단어의 색을 지정
Text Mining in R # 추출된 단어 중에서 상위 10개만 저장하기 top10 = head(sort(wordcount, decreasing=TRUE), n=10) # 막대그래프 작성 bt = barplot(top10, col="purple", cex.names=0.8,ylim=c(0,15)) text(x=bt, y=top10*1.05, labels=paste(top10, "건", sep=""), col="black", cex=0.7) # 3차원 원그래프 작성 install.packages("plotrix") require(plotrix) pie3D(top10, col=rainbow(10), cex=0.5, explode=0.05)