8. 빅데이터 기법(텍스트마이닝).

Slides:



Advertisements
Similar presentations
1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
Advertisements

Lesson 2 A Caring Friend. Making true friends is hard. Keeping them is even harder. To keep a good friendship, you need to care about others. Then, how.
Marketing Marketing - 현안과 발전 방향 ㈜ 엠포스 대표이사 박상현
구글 (Google) 계정 만들기 어르신을 위한 디지털 라이프 튜터 김재만입니다.. 1. 화면의 오른쪽 밑의 [ 메인 메뉴 ] 를 누릅니다.
2 Ⅰ Ⅱ Ⅲ 3 Ⅰ 4 1. 추진배경 2. 사업의 정의 3. 사업의 범위 4. 개선방향.
W2E(Where To Eat) - interim presentation - Team: 2&1 (Two and One) SEP527 Mobile Software Development Spring Professor : Chul Chung Software Expert.
도 입 Introduction 여러분 중에 부모인 분 손들어보세요. How many of you are parents? 여러분의 아이가 태어난 날부터 아이의 성장을 위해 어떤 방법으로 아이를 키우시겠습니까 ? What specific ways are you concerned.
설득 커뮤니케이션의 이해와 활용 김정현 지음 설득 커뮤니케이션의 이해와 활용 김정현 지음.
이력서 작성법 서강대학교 전자공학과. 이력서 이력서란 ? ◦ 이력서 ( 履歷書 ) a rsum 《미》 ;a personal history[statement];a curriculum vitae 《라》 ;a record of one’s life ◦ 이력 [ 履歷 ] [ 명사.
W2E(Where To Eat) - interim announcement - Team: 2&1 (Two and One) SEP527 Mobile Software Development Spring Professor : Chul Chung Software Expert.
HRD 체계 및 계획수립 Contents  HRD 체계 / 계획 수립 기본 Process  성인학습자의 특성  기업 교육의 형태  기업 교육의 일반적 정의  학습이론의 변천  HRD 의 정의  HRD 패러다임 Shift  Mission, Vision,
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
건국대 강의자료 목 차 플랫폼 사업의 이해
한국농수산식품유통공사 귀하 「국내 외식트렌드 조사」 보고서를 제출합니다
Social Network Service
빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013
Green Ajou Administrative Procedures그린아주 운영절차
대학원 (유학), 전문가로 다시 태어나는 첫걸음
사회의 사람들을 이어주는 망과같은역할을 하는 서비스를 SNS라고 한다.
Social Network Service!
온라인 소셜 네트워크 서비스 환경에서 오피니언 리더쉽이 구전효과에 미치는 영향 The Impact of Opinion Leadership on Word-of-Mouth under the Online Social Networking Service Environment 한성대학교.
Fifth theme : Writing Class Superhero powers
English Communication R/W
Introduction to Django
1. Association rule analysis
블로그 활용 현황 학과 : 영어영문학과 학번 : 이름 : 정경업
웹 2.0 개요.
텍스트마이닝 실습 (R 이용).
전자책 자동반납 및 예약도서 자동대출 알림 설정 방법 안내
제주지역대학 제주 새별오름 들불축제 지역 식생(植生) 변화 조사 연구
LISTEN AND UNDERSTAND LISTEN AND SING
과목 홈페이지  전산학개론 이메일 숙제를 제출할 경우, 메일 제목은 반드시 ‘[전산학개론]’으로 시작.
English Communication 3 Syllabus
미래 예측 3가지 방법론.
설계를 위한 분석단계 사용자, 과업, 맥락.
English Communication 1
Python Network Data Science Lab Seunghun Lee, KangHee Lee
Fifth theme Superhero powers
After You Read, Talk and Talk
Team no.13 Tech TonicS.
Open Class Lesson- L2B3 Greeting (5’ 00”) Word Like Daddy, Like Mommy
POWER POINT TEMPLATE 뭘 넣을까요 ㅋ THE BIZCAM SEND 조땡 OO 대학교 OO학과 00학번
The Best Thing I've Learned This Year
2009, 46th KLA General Conference
임상 시나리오를 통해 알아보는 「UpToDate」 사용법
카카오톡 속의 우리 모습 이 부 일 충남대학교 정보통계학과
Course Guide - Algorithms and Practice -
: 부정(negative)의 의미를 나타내는 접두사
Text Mining (Parsing) with R
CEO가 가져야 할 품질 혁신 마인드.
Operating System Multiple Access Chatting Program using Multithread
IT조 ! 숨쉬는 경영학과 1조 IT조 ( 1조 IT조 IT관련 공부를 하니까! 경영학과 이종덕
“서울시랑 즐거웁게, 시민이랑 어울리게, 모바일로 만나는 스마트한 서울라이프”
Data Analytics for Healthcare
The World of English by George E.K. Whitehead.
• I was touched by my friends’ effort.
소프트웨어 종합설계 (Software Capstone Design)
Web based Presentation & Controller Service
-아/어 드릴까요? 문 열어 드릴까요? 네, 감사합니다. Sogang Korean 2A UNIT 7 “-아/어 드릴까요?”
Bug Localization Based on Code Change Histories and Bug Reports
Presentation by Timothy Kane
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Speaking -첫 번째 강의 ( Part 1 유형별분석) RACHEL 선생님
제3의 미디어, SNS의 힘! 경영학부 권예슬.
Steps for Writing a Paragraph
Moral Decision-Making
Fifth theme Superhero powers
Welcome Parents! Parent Advisory.
Speaking -여섯 번째 강의 (Review ) RACHEL 선생님
Sawasdee ka.
Presentation transcript:

8. 빅데이터 기법(텍스트마이닝)

Text Mining is part of our lives

Google trends

Google correlate

Social Metrics Insight

Related words on “bigdata”

Sentiment analysis on “bigdata”

summly

summly In March 2011, D’Aloisio created Trimit, an app that summerizes e-mails, blog posts and more into 1,000, 500, or 140-character summaries and be able to share it via SMS, email, Facebook, Twitter in .txt form in just a few clicks or shakes of your iPhone.  In July of the same year, Apple named Trimit as a noteworthy app on the. App Store

Text Mining Applications of text mining Automatic detection of e-mail spam or phishing thr ough analysis of the document content Automatic processing of messages or e-mails to ro ute a message to the most appropriate party to pro cess that message Analysis of warranty claims, help desk calls/reports, and so on to identify the most common problems a nd relevant responses

Text Mining How to mine text Eliminate commonly used words (stop-words) Replace words with their stems or roots (stemming algorithms) Consider synonyms and phrases Calculate the weights of the remaining terms

Sentiment analysis (Opinion Mining) sentiment analysis aims to determine the attitude of a speaker or a writer with respect to some topic or the overall contextual polarity of a document. The attitude may be his or her judgment or evaluation on affective state (that is to say, the emotional state of the author when writing), or the intended emotional communication.

Social network analysis Social network analysis (SNA) is the use of network theory to analyse social networks. Social network analysis views social relationships in terms of network theory, consisting of nodes, representing individual actors within the network, and ties which represent relationships between the individuals, such as friendship, kinship, organizations and sexual relationships. These networks are often depicted in a social network diagram, where nodes are represented as points and ties are represented as lines. (NodeXL)

Human SNS Graph

Text Mining 사례 임금피크제의 미래 예측

Ⅰ. 임금피크제란? Ⅱ. 연구방법론 Ⅲ. 퓨처스휠 기법 Ⅳ. 결론 : 임금피크제의 정의와 이슈 : 연구 스트럭쳐 자료 분석 방법 신문기사 : 임금피크제의 미래 예측 : 연관관계 검색을 활용한 +,- 선택

“일정 연령이 되면 임금을 삭감하는 대신 정년을 보장하는 제도.” Ⅰ. 임금피크제란? 임금피크제의 정의와 2013년 한국의 임금피크제 주요 이슈를 알아본다. 임금피크제란? “일정 연령이 되면 임금을 삭감하는 대신 정년을 보장하는 제도.” 워크셰어링의 한 형태로서 일정 연령이 되면 임금을 삭감하는 대신 정년까지 고용을 보장 미국, 유럽, 일본에서 유래됨 한국에는 2003년 신용보증기금의 ‘일자리나누기’로 최초 도입 한국의 임금피크제 현황 “박근혜 정부의 대선 공약으로 2016년 부터 정년 60세 의무화” 2013년 현재 정년연장형 35%, 고용연장형 35%, 정년보장형 27% 2012년 기준으로 임금피크제 도입률은 16.3%(100인 이상 사업장) 2016년 300인 이상 기업은 정년 60세 의무화

Ⅱ. 연구방법론: 연구 스트럭쳐 1단계: 자료분석, 2단계: 퓨쳐스휠 기법 활용, 3단계: +-선택, 4단계: 최종 결론 퓨처스휠 기법 활용 1차: 무배열식 나열 자료분석 결과를 토대로 키워드를 연관성 없이 나열 2차: 중복 단어 제거 중복 단어 제거 및 유사 단어 묶음 키워드 배열 방법 3차: 연관 키워드 연결 연관 키워드를 묶거나 서로 연결 최종 키워드 도출 밑에서부터 위로 올라감에 따라 최종 키워드 도출 자료분석 신문기사, 논문, FGI분석, 인터넷, 프로젝트 등 으로부터 자료 분석. 핵심이슈, 단어 추출 (공통 단어 제외) 결론 +, - 선택 5개의 최종 키워드의 가중치를 1로 봄 최종 키워드 +,-에 따라 임금피 크제 미래에 대한 결론 도출 연관 관계 검색(인터넷 검색의 감성키워드)을 활용한 +, - 선택 밑에서부터 위로 점점 +, -가 올라감

Ⅱ. 연구방법론: 자료 분석 방법 주 제 내 용 신문기사 내용 주 제 내 용 신문기사 내용 중앙일보,조선일보, 한국경제 등의 신문기사 1000여 개에서 2010.10~2013.6 까지 제목, 내용의 trend 분석 후 주요 이슈, 단어, 쟁점을 추출. 논문 국내의 학위논문(47개), 국내 학술지 논문(43개), 단행본(25개) 등 115편의 제목, 주제, 이슈로부터 단 어를 추출. 키워드 인식도, 정착(도입) 개선방안, 일본의 임금피크제, 조직공정성과 조직유효성, 고령화 사회, 행동몰입과 성과, 임금피크제 결정요인, 문제점, 기업사례, 도입배경, 공기업의 임금피크제, 임금피크제 모형, 은행 권의 임금피크제 연구, 한국형 임금피크제, 임금피크제 매뉴얼, 도입에 따른 직무개발 방안 FGI 분석 HR 전문가 4명(컨설턴트, 기업 인사담당, HR전문가, 교수)을 대상으로 ‘임금피크제 해결방안’에 관한 심층적인 FGI 후 주요 이슈, 단어, 쟁점을 추출. 임금피크제 적용의 차별화, 선택형 임금피크제, 직무전문가, 지원금, 업종별 임금삭감폭, Job sharing Google, NAVER, SOME Google 정의, 장단점, 도입사례, 찬반, 보전수당제도, 문제점 NAVER 장단점, 찬성반대, 사례, 정의, 퇴직금, 지원금, 중소기업, 비용절감, 공무원 임금피크제 SOME 연간키워드: 아카데미, 기업, 직원, 프로그램, 퇴직금, PIP, 퇴출프로그램 아카데미, 방판, 대기업, 정리해고 감성키워드: 최악, 절규, 위협, 비판, 청년실업, 편법 임금피크제 프로젝트 공공기관의 ‘민간기업 임금피크제 적용방안’ 프로젝트의 trend 분석 후 주요 이슈, 단어, 쟁점을 추출. 고령화, 생산성 저하, 세대간 경합, 퇴출 프로그램, 퇴직금, 지원금, 60세 정년의 법제화, 베이비부머 세 대, 정의, 검토요인, 전직지원, 수출입은행, 도입률, 적용대상 및 유형, 임금설계, 직무설계, 노사관계, 제조업과 서비스업, 직무개발

Ⅲ. 퓨쳐스휠 기법 1단계 자료분석을 토대로 퓨쳐스휠 기법 적용 후 ‘임금피크제 미래’ Map 완성. 메인 키워드: 임금피크제 대안, 목적과 이유, 해결과제, 배경, 찬반논란. 노년층 고령자의 skill,노하우 필요기업 소속감, 충성심 향상 임금프크제 적용 직접적인 이유 베이비붐세대 고령자가 多기업 정부의 발빼기 지지층 인건비감소 2016.1.1 까지 결정 해결책 시급 김성태 의원(새누리) 찬성이유 노사vs회사 대립 회사vs노조 분쟁 해결책 시급 58,59,60세 단계적인 증가 임금삭감 없는 순수 정년연장 2016년 시행 모호한 임금체계 개편 대책시급 까다로운 조건 우리은행의 임금피크제&전직지원제도 고령자의 skill,노하우가 필요없는 기업 세대간 갈등 실패이유 감성키워드: 최악, 절규, 유형, 비판, 공감 성공 후 민간도입 공기업 성과,몰입 저하 대기업 편중 2016.1.1 60세 정년 법제화 실행 노조간 갈등 20대가 多기업 우선적용 공기업 다양한 임금피크제중 종업원 선택 졸속법안 저비용으로 인사적체해소 청년실업 복리후생비 증가 기존직원 불안 적은 지원금 임금피크제 지원금 기업부담 대선공약 고용률70% 20대 인사적체 인건비증가 회사의배신 직무전문가(직무평가시스템) 대교 3단계 퇴출프로그램 정부지원금 박근혜 시간제일자리 노사협력이 관건 작용대상자 생산성저하 신용보증기금 실패 BC카드 임금피크제/아카데미교육/방판 임금삭감 기업에 미루기 부작용 위축 다른 인사제도 도입 새누리당 노사정 합의 대립 대교, 현대차, 금융권 편법 퇴직강요프로그램 교육 PIP 단계적인 피크제 도입 Job sharing 고령자 기술,노하우 적용가능 공동의식 저하 금융권 금융권의 반대 후배지시 불편 반대이유 대상자 부적응 노사정합의 시간제일자리 노사관계 문제 테스트 후 선출 주 3일제 여당 노조 제조업 마땅한 직무가 없음 직무개발필요 실효성 없음 보험상품 실요성무 임금피크제 보험상품 임금피크제 변형 임금피크제 대안 반대세력 일본 65세 정년 추진中 찬성 반대 임금피크제 미루기 고령화 대비 일자리 나누기 임금피크제 목적, 이유 임금피크제 미래 임금피크제 찬반논란 북핵문제 미국폐지 독일 70세 높은 연령의 정년 국민연금 신규채용 증가 일본,미국,유럽 유럽 67세 국가적배경 프랑스 60->62세 임금피크제 해결과제 임금피크제 배경 결혼감소 솔록족증가 스웨덴 고령자 노하우,기술 활용 인건비 부담감소 사회적배경 정치적배경 독거노인증가 출산율저하 임금피크제 법안추진 간접적인 원인 저비용 인사적체 해소 임금피크제 구성요소 정치적배경 고령화사회 일본60세 정년 일본 65세 추진, 독일 70세 추진 갈등 새누리당 대선 대선공약 박근혜 배후세력 김성태 새누리 의원 한국 65세 정년의 법제화 대두 노사vs회사측 정년연장형 삭감률 종류 원인 정년보장형 임금곡선 하수평 정부가 삭감률 정책을 회사에 떠넘기기 고용연장형 2016.1.1 마감시한 상승유형 하상 상승둔화 하락 노사측 주장 회사측 주장 수평유형 임금삭감 없는 순수정년 연장 임금피크제 도입 * 메인 키워드: 임금피크제 대안, 목적과 이유, 해결과제, 배경, 찬반논란. 임금피크제 삭감률 정도의 문제

Ⅳ. 결론: 연관관계 검색을 활용한 +,- 선택 결론: 최종 5개 키워드 중 3개가 + 이므로 임금피크제 미래 예측은 긍정으로 예측 가능함. - + 노년층 고령자의 skill,노하우 필요기업 + 소속감, 충성심 향상 임금프크제 적용 직접적인 이유 + - 베이비붐세대 + - - 고령자가 多기업 + - 정부의 발빼기 지지층 인건비감소 2016.1.1 까지 결정 - + 찬성이유 - 해결책 시급 김성태 의원(새누리) 노사vs회사 대립 회사vs노조 분쟁 - - + - 해결책 시급 58,59,60세 단계적인 증가 임금삭감 없는 순수 정년연장 - - - - 2016년 시행 + 모호한 임금체계 개편 - 고령자의 skill,노하우가 필요없는 기업 - 대책시급 까다로운 조건 + 우리은행의 임금피크제&전직지원제도 - 세대간 갈등 실패이유 감성키워드: 최악, 절규, 유형, 비판, 공감 - - 성공 후 민간도입 공기업 - 성과,몰입 저하 - 대기업 편중 - + 2016.1.1 60세 정년 법제화 실행 - - 노조간 갈등 우선적용 공기업 + 다양한 임금피크제중 종업원 선택 졸속법안 - 20대가 多기업 - - 저비용으로 인사적체해소 복리후생비 증가 - - 기존직원 불안 적은 지원금 - - - + 청년실업 - 임금피크제 지원금 기업부담 + 대선공약 고용률70% - 20대 인사적체 - - - 인건비증가 회사의배신 대교 3단계 퇴출프로그램 - 직무전문가(직무평가시스템) - + - 정부지원금 - 박근혜 시간제일자리 - 노사협력이 관건 작용대상자 생산성저하 - - BC카드 - - 신용보증기금 실패 임금피크제/아카데미교육/방판 - 임금삭감 기업에 미루기 + 부작용 - 위축 + - - 다른 인사제도 도입 새누리당 노사정 합의 - - - - - 대립 대교, 현대차, 금융권 편법 퇴직강요프로그램 교육 PIP - 단계적인 피크제 도입 + + 고령자 기술,노하우 적용가능 금융권 - - 공동의식 저하 Job sharing - 금융권의 반대 - 후배지시 불편 + + - - + - - 반대이유 대상자 부적응 노사정합의 시간제일자리 노사관계 문제 테스트 후 선출 주 3일제 + 여당 노조 - - + 제조업 - - 마땅한 직무가 없음 - 직무개발필요 - - 실요성무 - 임금피크제 보험상품 임금피크제 변형 임금피크제 대안 + 반대세력 실효성 없음 보험상품 - + - + 찬성 반대 임금피크제 미루기 - 일본 65세 정년 추진中 + - 미국폐지 + + 고령화 대비 + 일자리 나누기 + - 임금피크제 목적, 이유 임금피크제 미래` 임금피크제 찬반논란 북핵문제 + + 독일 70세 + + + + 높은 연령의 정년 국민연금 + 유럽 + + 67세 신규채용 증가 - + 국가적배경 일본,미국,유럽 - - 프랑스 60->62세 스웨덴 + + + 임금피크제 해결과제 임금피크제 배경 솔록족증가 고령자 노하우,기술 활용 인건비 부담감소 - 결혼감소 + 사회적배경 - - - + 정치적배경 독거노인증가 출산율저하 - 임금피크제 법안추진 간접적인 원인 - 저비용 인사적체 해소 - 임금피크제 구성요소 + 각정당 + 고령화사회 + + 일본60세 정년 일본 65세 추진, 독일 70세 추진 갈등 새누리당 + + 대선 + - 대선공약 + 박근혜 + 배후세력 + 김성태 새누리 의원 + 한국 65세 정년의 법제화 대두 노사vs회사측 + + 정년연장형 - 삭감률 종류 + 원인 + + 정년보장형 정부가 삭감률 정책을 회사에 떠넘기기 - 임금곡선 하수평 + + - + 상승유형 하상 고용연장형 2016.1.1 마감시한 + - + - 상승둔화 하락 노사측 주장 회사측 주장 + 수평유형 임금삭감 없는 순수정년 연장 - - 임금피크제 도입 * 메인 키워드: 임금피크제 대안, 목적과 이유, 해결과제, 배경, 찬반논란. - 임금피크제 삭감률 정도의 문제

Text Mining Techniques R Python Open API

Text Mining (Parsing) with R

1. Introduction A case on “What they think abut tax?” : what are their major interests in tax?

1). Prepare the lab for parsing ① ① copy "tax.txt" into "C:/Rtest“  use memo pad to edit the data and the data should have extension .txt ② Open R and set path as below > setwd("c:/Rtest") ② ③ Install packages for dealing Korean languages (KoNLP), wordcloud (words clouding) RColorBrewer (coloring words) - KoNLP needs (JRE: Java Runtime Environment) > install.packages("KoNLP") > install.packages("RColorBrewer") > install.packages("wordcloud") > library(KoNLP) > library(RColorBrewer) > library(wordcloud) ③

2). Read data and text analysis > result <- file("tax.txt", encoding="UTF-8") > result2 <- readLines(result) > head(result2, 3) > result3 <- sapply(result2, extractNoun, USE.NAMES=F) > head(unlist(result3), 20) > write(unlist(result3), "tax_word.txt") ① The nouns extracted are saved in result3 and they can be used later for other uses. ② ③ Import the contents in Tax.csv and save it into result - Copy content in result row by row. Save then to result2 Extract nouns from each line in result2 and save it to result3 - print about 20 nouns from result3

3). Text analysis > myword <- read.table("tax_word.txt") > nrow(myword) > wordcount <- table(myword) > head(sort(wordcount, decreasing=T), 20) ① ② Read contents in tax_word.txt and save them into myword - check each record inside of myword Count words frequency in myword and save it into wordcount - show 20 words ranked by frequency in wordcount. The words are sorted in descending order

4). Text analysis > palete <- brewer.pal(9, "Set1") > wordcloud( + names(wordcount), + freq=wordcount, + scale=c(5, 1), + rot.per=0.5, + min.freq=4, + random.order=F, + random.color=T, + colors=palete + ) ① 워드클라우드를 만드는 기능을 가진 wordcloud 패키 지의 또다른 세부 기능을 가진 RColorBrewer를 메모 리에 업로드 시킴 - 워드클라우드 작성시 이를 구성하는 단어들마다의 색상을 부여해줌 ② 워드클라우드 형식의 그림데이터를 표현하기 위한 별도의 그래픽구현 창을 생성함 Wordcloud함수의 세부 인수(옵션) 값을 조정하여 워드클라우드에서 중요키워드를 파악함 - scale이 출력되는 단어들간의 크기 비율임 - rot.per는 단어들간의 간격을 조절함 - min.freq는 단어의 언급횟수를 의미함 ④ ③ 원래는 아래의 기다란 형태의 한 줄로 코딩이 되어야 하지만 작성화면이 상당히 복잡하고 불편 함 - 이에 따라 wordcloud( )라는 함수의 인수들을 작성하다 적당한 부근에서 Shift + Enter키를 누르면 그 다음 줄에 (+)기호가 생성되고 들여쓰기 형태로 코딩을 하게 됨 - 이를 표현하는 것이 바로 플러스기호(+)로 각각의 줄이 하나의 개별적인 R명령코딩이 아니라 원래 한 줄로 구성되어 있는 코딩이라는 의미임 wordcloud(names(wordcount), freq=wordcount,scale=c(5, 1),rot.per=0.5,min.freq=4,random.order=F,random.color=T,colors=palete)

5). 워크클라우드를 통한 시각화 최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드 최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드 > result2 <- gsub("것", "", result2) > result2 <- gsub("저", "", result2) > result2 <- gsub("원", "", result2) 최초 작성된 워드클라우드에서 파악된 비 중요 단어들을 제거함