텍스트마이닝 실습 (R 이용).

Slides:



Advertisements
Similar presentations
- 1 - IT COOKBOOK 전산정보처리학과 프로그래밍 언어 전산정보처리학과 중위 ( 진 ) 정세화.
Advertisements

항공레저스포츠사업 설명회 국민생활체육 전국패러글라이딩연합회. TABLE OF CONTENTS 항공법 개정사항 항공레저스포츠사업 등록절차 초경량비행장치 신고절차 안전교육 FAQ 질의 및 응답.
방과후 컴퓨터 교실 실력 Up 행복 Up 신풍초등학교. 실력 UP 행복 UP 방과후컴퓨터교실 한글 2005 에서 문서를 관리할 수 있다. 한글 2005 에서 문서를 작성할 수 있다. 한글 2005 의 화면을 구성하는 요소의 종류와 역할을 설명할 수 있 다. Ⅰ. 한글.
- 1 - 파워포인트 (Power Point)  파워포인트 개요 >> 파워포인트로 작성 가능한 문서 브리핑 문서 / 학술회의 문서.
12 월 29 일 수업내용 전체 슬라이드에 디자인 일괄 넣기 슬라이드 쇼 처음부터 쇼보기 F5 현재 슬라이드부터 쇼보기 Shift + F5 슬라이드 머리글 / 바닥글 넣기 슬라이드번호 & 날짜 넣기 슬라이드 화면 전환 개체별 애니메이션 넣기 실행단추 넣기 실전 프레젠테이션.
SK 고용디딤돌 참여기업 FAQ 1.
고객관리 솔루션 사용설명서 고객을 알아보며, 통화하는 솔루션 콜마스터!!.
다이닝 우대 서비스 이용방법 JCB 플래티늄 회원 여러분께 ■이용기간 ■대상자 ■주의사항
스크랩 등 매입자납부제도
메모장 다루기 A. 메모장 실행법 시작>모든 프로그램> 보조 프로그램>메모장 Notepad
입주자대표회의 운영교육
실습 – MODi Eunok Paek Dept. of Computer Science & Engineering
1. Association rule analysis
디지털교과서 활용 연수 남양초등학교 최 종 원.
제2장 자바 개발 도구.
한국어 정보의 전산 처리 강좌 소개 박진호 (서울대 국문과 교수).
재난관리 포털 1 1. 디자인 시안 재난관리 포털 메인화면(허브메인) 각 시스템 메인.
아이돌봄 지원사업 홈페이지 이용자 매뉴얼 년 Version 1.0.
소비자 만족도 설문조사 결과.
240%~250% + 메리스가든 그릇set (5만↑ 건당)
Ver WithWOORI 보조금관리시스템 보조사업자 매뉴얼.
Qman QMan QMan 이란? QMan은 문제등록 및 관리하는 프로그램으로 문제분류별 관리, 문제입력, 문항분석, 동영상, 이미지, 음성, 수식입력, 일괄입력 기능, 오류문제 수정 기능 등을 이용하여 편리하게 문제은행을 구축할 수 있습니다.
초·중등학교 정보공시 : 학교정보공시 지침 소개 (지침서 67P).
가속도 감지센서를 이용한 안드로이드 게임 지도교수님 : 전진우 이동훈.
㈜학술교육원 온라인논문투고시스템 투고자 메뉴얼.
지출/수입 결의 업무 매뉴얼 학기 재무회계팀.
8. 빅데이터 기법(텍스트마이닝).
Power Java 제2장 자바 개발 도구.
홍익대학교 메일 시스템 구축 주소록 이전하기.
08. 파일 처리 제목. 08. 파일 처리 제목 파일을 처리하는 방식을 익힌다. SD카드의 파일을 처리하는 방식을 배운다. 커스텀뷰의 작성법을 알아본다.
컴퓨터 활용 및 실습 Chapter 3 수식과 함수 김 정 석
프리젠테이션 활용 및 데이터활용 Chapter 1 엑셀의 개요 김 정 석
연구재료 구매절차 주요 사항 1. 연구장비 및 연구재료(시약 등)취득 시 구매절차 준수(자산관리규칙, 2015년도 2차 정기감사) - 구매요구 전 분임부서와 확인 후 물품코드 부여 받음(기존 물품코드 생성 여부 확인) 2. 구매수리 신청 이후 개별 연구비 카드결제 불가.
PowerPoint 제1장 파워포인트 사용.
부 서 관 리 자 과제카드 인수인계 매뉴얼.
Java의 정석 제 1 장 JDK설치 및 설정 Java 정석 남궁성 의
Maxcampus [Ctrl] , [Shift] 키 기능 [Ctrl] 키 [Shift] 키 ① 첫 클릭 지점에서 그리기
Java의 정석 제 1 장 JDK설치 및 설정 Java 정석 남궁성 의
전자입찰시스템 협 력 업 체 사 용 매 뉴 얼.
카카오톡 속의 우리 모습 이 부 일 충남대학교 정보통계학과.
밥을 이용한 음식의 종류 실과 6학년 3. 간단한 음식 만들기> 1) 밥을 이용한 음식 만들기 (1/10)
동물의 특징을 음악적 요소로 표현 하기 음악 3학년 2학기 20. 동물의 사육제(1 / 2) 수업계획 수업활동 [제작 의도]
경상남도 해외마케팅 사업지원 시스템 사용자 매뉴얼.
카카오톡 속의 우리 모습 이 부 일 충남대학교 정보통계학과
DataScience Lab. 박사과정 김희찬 (월)
엑셀 개요(Excel Introduction) 2 – 셀 선택, 데이터 입력, 셀 편집, 셀 서식
한국어 정보의 전산 처리 강좌 소개 박진호 (서울대 국문과 교수).
2018학년도 북일고등학교 신입생^^* 북일고등학교 여송학사 따라잡기.
작성 요령 본 제안서는 1회전 제출물로, 제출된 제안서를 검토한 후 2회전 참가팀을 선별함
Text Mining (Parsing) with R
파워포인트 2003.
열린무역관 서비스 고객용 신청 매뉴얼.
전문 대졸 인턴 사원 FAQ.
컴퓨터활용능력1급필기 06 PC 운영체제(2) Windows 탐색기 제어판 인쇄.
중등교원 전보시스템 로그인 오류시 해결 해결방안 * 작성일 2016 년 12 월 15일 * 작성자 광주광역시교육청.
JSP와의 첫 만남 간간한 JSP 프로그램을 작성하면서 앞으로 학습에 필요한 과정을 익힌다.
2018학년도 동계 현장실습 현장실습 안내.
제1회 PNU 코딩경진대회 부산대학교 소프트웨어교육센터.
Chapter 12. 도형과 스마트아트 슬라이드 만들기
컴퓨터 및 정보통신 - PPT 보충자료 - 건국대 경영대학 박성식
하수도 원인자부담금 부과 산업폐수의 공공하수처리장 유입에 따른 울산광역시 남구청
사각형과 원.
문서의 작성 정보과학부 이지연.
아이즈모바일 약 정 교육파트.
자료구조 강의소개 정성훈 연락처 : 이메일 : 연구실 : 연219호 연락처 : 이메일 : 홈페이지: 정성훈.
실시간사업비관리시스템사용설명서 (화) 14시 ~ 한국과학기술회관 소회의실 3.
1% 공부장학금 받는 방법.
Jre 설치 확인 방법 규제정보화 시스템 운영팀.
Java Programming for Beginners
Chapter 1 인간행동의 이해와 사회복지실천
Presentation transcript:

텍스트마이닝 실습 (R 이용)

1. 분석개요 텍스트마이닝의 이해 실습 문제 분석기법 의미 문제정의 사용시 고려사항 적용방안 텍스트 기반 데이터에서 의미 있는 정보는 무엇인가? 다양한 포맷의 문서들을 구조적인 형태로 재구성하여 문서의 분류 및 군집, 추출, 요약을 수행함 문제정의 연말정산에 대해 일반국민들이 궁금해 하는 사항은 무엇일까? 사용시 고려사항 해당 언어자체 및 문화·관습에 대한 깊이 있는 이해가 필요함 문화와 관습의 차이가 텍스트 데이터에 반영되므로 국가별로 다른 접근방식 필요 한 언어에서 좋은 결과를 보였던 분석기법이 다른 언어에서도 좋은 결과를 보인다는 보장이 없음 적용방안 국민들이 느끼고 있는 연말정산에 대한 어려운 부분을 파악하여 쉽게 이해하고 진행할 수 있도록 함 콜센터, 홈페이지FAQ, 안내책자 등에 분석된 항목을 집중적으로 다루도록 함

2. 실습데이터 및 패키지 준비 ① "C:/Rtest"라는 폴더에 "tax.txt" 실습파일 준비  메모장에서 작성·저장시 파일 확장자를 .txt로 함 Rstudio에서 사용할 작업폴더의 경로를 다음과 같이 세팅함 > setwd("c:/Rtest") ② 한글에 대한 텍스트마이팅 패키지인 KoNLP 및 워드클라우드를 만드는 wordcloud라는 패키지, 워드클라우드 단어들에 색상을 입히는 RColorBrewer를 설치하고, 메모리에 업로드 함 - KoNLP패키지는 자바실행환경(JRE: Java Runtime Environment) 을 설치해 주어야 함) > install.packages("KoNLP") > install.packages("RColorBrewer") > install.packages("wordcloud") > library(KoNLP) > library(RColorBrewer) > library(wordcloud) ③

3. 실습데이터 읽기 및 텍스트 분석 > result <- file("tax.txt", encoding="UTF-8") > result2 <- readLines(result) > head(result2, 3) > result3 <- sapply(result2, extractNoun, USE.NAMES=F) > head(unlist(result3), 20) > write(unlist(result3), "tax_word.txt") ① 추출된 명사들이 result3 객체라는 메모리에 보관되어 있으므로 이후 활용을 위해서 실제 파일로 저장을 해 놓음 ② ③ Tax.csv 파일에 들어 있는 내용을 result라는 객체에 불러옴 - 이어서 result객체에 들어 있는 내용을 한 줄씩 행단위로 별도로 읽어서 result2에 보관함 result2에 행단위로 보관되어 있는 문장들에서 명사형 단어를 추출해서 result3라는 객체에 보관함 - 이어서 result3에 들어 있는 단어들 중에서 20개 정도를 출력해 봄

4. 텍스트마이닝 분석 ① ② > myword <- read.table("tax_word.txt") > nrow(myword) > wordcount <- table(myword) > head(sort(wordcount, decreasing=T), 20) ① ② tax_word.txt 파일에 들어 있는 내용을 데이터테이블 형태로 만들어 myword라는 객체에 불러옴 - 이어서 myword의 행(레코드) 개수를 확인해 봄 myword에 들어 있는 단어들을 빈도수를 각각 구하여 wordcount에 저장함 - wordcount에 들어 있는 단어별 빈도수를 기준으로 내림차순으로 순차정렬을 시키고 빈도수가 높은 단어부터 20개를 조회해 봄

5. 텍스트마이닝 분석 ① ② ④ ③ > palete <- brewer.pal(9, "Set1") > x11( ) > wordcloud( + names(wordcount), + freq=wordcount, + scale=c(5, 1), + rot.per=0.5, + min.freq=4, + random.order=F, + random.color=T, + colors=palete + ) ① 워드클라우드를 만드는 기능을 가진 wordcloud 패키지의 또다른 세부 기능을 가진 RColorBrewer를 메모리에 업로드 시킴 - 워드클라우드 작성시 이를 구성하는 단어들마다의 색상을 부여해줌 ② 워드클라우드 형식의 그림데이터를 표현하기 위한 별도의 그래픽구현 창을 생성함 Wordcloud함수의 세부 인수(옵션) 값을 조정하여 워드클라우드에서 중요키워드를 파악함 - scale이 출력되는 단어들간의 크기 비율임 - rot.per는 단어들간의 간격을 조절함 - min.freq는 단어의 언급횟수를 의미함 ④ ③ 원래는 아래의 기다란 형태의 한 줄로 코딩이 되어야 하지만 작성화면이 상당히 복잡하고 불편함 - 이에 따라 wordcloud( )라는 함수의 인수들을 작성하다 적당한 부근에서 Shift + Enter키를 누르면 그 다음 줄에 (+)기호가 생성되고 들여쓰기 형태로 코딩을 하게 됨 - 이를 표현하는 것이 바로 플러스기호(+)로 각각의 줄이 하나의 개별적인 R명령코딩이 아니라 원래 한 줄로 구성되어 있는 코딩이라는 의미임 wordcloud(names(wordcount), freq=wordcount,scale=c(5, 1),rot.per=0.5,min.freq=4,random.order=F,random.color=T,colors=palete)

6. 워크클라우드를 통한 시각화 최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드 최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드 > result2 <- gsub("것", "", result2) > result2 <- gsub("저", "", result2) > result2 <- gsub("원", "", result2) 최초 작성된 워드클라우드에서 파악된 비중요 단어들을 제거함