Presentation is loading. Please wait.

Presentation is loading. Please wait.

8. 빅데이터 기법(텍스트마이닝).

Similar presentations


Presentation on theme: "8. 빅데이터 기법(텍스트마이닝)."— Presentation transcript:

1 8. 빅데이터 기법(텍스트마이닝)

2 Text Mining is part of our lives

3 Google trends

4

5 Google correlate

6 Social Metrics Insight

7 Related words on “bigdata”

8 Sentiment analysis on “bigdata”

9 summly

10 summly In March 2011, D’Aloisio created Trimit, an app that summerizes s, blog posts and more into 1,000, 500, or 140-character summaries and be able to share it via SMS, , Facebook, Twitter in .txt form in just a few clicks or shakes of your iPhone.  In July of the same year, Apple named Trimit as a noteworthy app on the. App Store

11 Text Mining Applications of text mining
Automatic detection of spam or phishing thr ough analysis of the document content Automatic processing of messages or s to ro ute a message to the most appropriate party to pro cess that message Analysis of warranty claims, help desk calls/reports, and so on to identify the most common problems a nd relevant responses

12 Text Mining How to mine text
Eliminate commonly used words (stop-words) Replace words with their stems or roots (stemming algorithms) Consider synonyms and phrases Calculate the weights of the remaining terms

13 Sentiment analysis (Opinion Mining)
sentiment analysis aims to determine the attitude of a speaker or a writer with respect to some topic or the overall contextual polarity of a document. The attitude may be his or her judgment or evaluation on affective state (that is to say, the emotional state of the author when writing), or the intended emotional communication.

14 Social network analysis
Social network analysis (SNA) is the use of network theory to analyse social networks. Social network analysis views social relationships in terms of network theory, consisting of nodes, representing individual actors within the network, and ties which represent relationships between the individuals, such as friendship, kinship, organizations and sexual relationships. These networks are often depicted in a social network diagram, where nodes are represented as points and ties are represented as lines. (NodeXL)

15 Human SNS Graph

16 Text Mining 사례 임금피크제의 미래 예측

17 Ⅰ. 임금피크제란? Ⅱ. 연구방법론 Ⅲ. 퓨처스휠 기법 Ⅳ. 결론 : 임금피크제의 정의와 이슈 : 연구 스트럭쳐 자료 분석 방법 신문기사 : 임금피크제의 미래 예측 : 연관관계 검색을 활용한 +,- 선택

18 “일정 연령이 되면 임금을 삭감하는 대신 정년을 보장하는 제도.”
Ⅰ. 임금피크제란? 임금피크제의 정의와 2013년 한국의 임금피크제 주요 이슈를 알아본다. 임금피크제란? “일정 연령이 되면 임금을 삭감하는 대신 정년을 보장하는 제도.” 워크셰어링의 한 형태로서 일정 연령이 되면 임금을 삭감하는 대신 정년까지 고용을 보장 미국, 유럽, 일본에서 유래됨 한국에는 2003년 신용보증기금의 ‘일자리나누기’로 최초 도입 한국의 임금피크제 현황 “박근혜 정부의 대선 공약으로 2016년 부터 정년 60세 의무화” 2013년 현재 정년연장형 35%, 고용연장형 35%, 정년보장형 27% 2012년 기준으로 임금피크제 도입률은 16.3%(100인 이상 사업장) 2016년 300인 이상 기업은 정년 60세 의무화

19 Ⅱ. 연구방법론: 연구 스트럭쳐 1단계: 자료분석, 2단계: 퓨쳐스휠 기법 활용, 3단계: +-선택, 4단계: 최종 결론
퓨처스휠 기법 활용 1차: 무배열식 나열 자료분석 결과를 토대로 키워드를 연관성 없이 나열 2차: 중복 단어 제거 중복 단어 제거 및 유사 단어 묶음 키워드 배열 방법 3차: 연관 키워드 연결 연관 키워드를 묶거나 서로 연결 최종 키워드 도출 밑에서부터 위로 올라감에 따라 최종 키워드 도출 자료분석 신문기사, 논문, FGI분석, 인터넷, 프로젝트 등 으로부터 자료 분석. 핵심이슈, 단어 추출 (공통 단어 제외) 결론 +, - 선택 5개의 최종 키워드의 가중치를 1로 봄 최종 키워드 +,-에 따라 임금피 크제 미래에 대한 결론 도출 연관 관계 검색(인터넷 검색의 감성키워드)을 활용한 +, - 선택 밑에서부터 위로 점점 +, -가 올라감

20 Ⅱ. 연구방법론: 자료 분석 방법 주 제 내 용 신문기사 내용
주 제 내 용 신문기사 내용 중앙일보,조선일보, 한국경제 등의 신문기사 1000여 개에서 ~ 까지 제목, 내용의 trend 분석 후 주요 이슈, 단어, 쟁점을 추출. 논문 국내의 학위논문(47개), 국내 학술지 논문(43개), 단행본(25개) 등 115편의 제목, 주제, 이슈로부터 단 어를 추출. 키워드 인식도, 정착(도입) 개선방안, 일본의 임금피크제, 조직공정성과 조직유효성, 고령화 사회, 행동몰입과 성과, 임금피크제 결정요인, 문제점, 기업사례, 도입배경, 공기업의 임금피크제, 임금피크제 모형, 은행 권의 임금피크제 연구, 한국형 임금피크제, 임금피크제 매뉴얼, 도입에 따른 직무개발 방안 FGI 분석 HR 전문가 4명(컨설턴트, 기업 인사담당, HR전문가, 교수)을 대상으로 ‘임금피크제 해결방안’에 관한 심층적인 FGI 후 주요 이슈, 단어, 쟁점을 추출. 임금피크제 적용의 차별화, 선택형 임금피크제, 직무전문가, 지원금, 업종별 임금삭감폭, Job sharing Google, NAVER, SOME Google 정의, 장단점, 도입사례, 찬반, 보전수당제도, 문제점 NAVER 장단점, 찬성반대, 사례, 정의, 퇴직금, 지원금, 중소기업, 비용절감, 공무원 임금피크제 SOME 연간키워드: 아카데미, 기업, 직원, 프로그램, 퇴직금, PIP, 퇴출프로그램 아카데미, 방판, 대기업, 정리해고 감성키워드: 최악, 절규, 위협, 비판, 청년실업, 편법 임금피크제 프로젝트 공공기관의 ‘민간기업 임금피크제 적용방안’ 프로젝트의 trend 분석 후 주요 이슈, 단어, 쟁점을 추출. 고령화, 생산성 저하, 세대간 경합, 퇴출 프로그램, 퇴직금, 지원금, 60세 정년의 법제화, 베이비부머 세 대, 정의, 검토요인, 전직지원, 수출입은행, 도입률, 적용대상 및 유형, 임금설계, 직무설계, 노사관계, 제조업과 서비스업, 직무개발

21 Ⅲ. 퓨쳐스휠 기법 1단계 자료분석을 토대로 퓨쳐스휠 기법 적용 후 ‘임금피크제 미래’ Map 완성.
메인 키워드: 임금피크제 대안, 목적과 이유, 해결과제, 배경, 찬반논란. 노년층 고령자의 skill,노하우 필요기업 소속감, 충성심 향상 임금프크제 적용 직접적인 이유 베이비붐세대 고령자가 多기업 정부의 발빼기 지지층 인건비감소 까지 결정 해결책 시급 김성태 의원(새누리) 찬성이유 노사vs회사 대립 회사vs노조 분쟁 해결책 시급 58,59,60세 단계적인 증가 임금삭감 없는 순수 정년연장 2016년 시행 모호한 임금체계 개편 대책시급 까다로운 조건 우리은행의 임금피크제&전직지원제도 고령자의 skill,노하우가 필요없는 기업 세대간 갈등 실패이유 감성키워드: 최악, 절규, 유형, 비판, 공감 성공 후 민간도입 공기업 성과,몰입 저하 대기업 편중 세 정년 법제화 실행 노조간 갈등 20대가 多기업 우선적용 공기업 다양한 임금피크제중 종업원 선택 졸속법안 저비용으로 인사적체해소 청년실업 복리후생비 증가 기존직원 불안 적은 지원금 임금피크제 지원금 기업부담 대선공약 고용률70% 20대 인사적체 인건비증가 회사의배신 직무전문가(직무평가시스템) 대교 3단계 퇴출프로그램 정부지원금 박근혜 시간제일자리 노사협력이 관건 작용대상자 생산성저하 신용보증기금 실패 BC카드 임금피크제/아카데미교육/방판 임금삭감 기업에 미루기 부작용 위축 다른 인사제도 도입 새누리당 노사정 합의 대립 대교, 현대차, 금융권 편법 퇴직강요프로그램 교육 PIP 단계적인 피크제 도입 Job sharing 고령자 기술,노하우 적용가능 공동의식 저하 금융권 금융권의 반대 후배지시 불편 반대이유 대상자 부적응 노사정합의 시간제일자리 노사관계 문제 테스트 후 선출 주 3일제 여당 노조 제조업 마땅한 직무가 없음 직무개발필요 실효성 없음 보험상품 실요성무 임금피크제 보험상품 임금피크제 변형 임금피크제 대안 반대세력 일본 65세 정년 추진中 찬성 반대 임금피크제 미루기 고령화 대비 일자리 나누기 임금피크제 목적, 이유 임금피크제 미래 임금피크제 찬반논란 북핵문제 미국폐지 독일 70세 높은 연령의 정년 국민연금 신규채용 증가 일본,미국,유럽 유럽 67세 국가적배경 프랑스 60->62세 임금피크제 해결과제 임금피크제 배경 결혼감소 솔록족증가 스웨덴 고령자 노하우,기술 활용 인건비 부담감소 사회적배경 정치적배경 독거노인증가 출산율저하 임금피크제 법안추진 간접적인 원인 저비용 인사적체 해소 임금피크제 구성요소 정치적배경 고령화사회 일본60세 정년 일본 65세 추진, 독일 70세 추진 갈등 새누리당 대선 대선공약 박근혜 배후세력 김성태 새누리 의원 한국 65세 정년의 법제화 대두 노사vs회사측 정년연장형 삭감률 종류 원인 정년보장형 임금곡선 하수평 정부가 삭감률 정책을 회사에 떠넘기기 고용연장형 마감시한 상승유형 하상 상승둔화 하락 노사측 주장 회사측 주장 수평유형 임금삭감 없는 순수정년 연장 임금피크제 도입 * 메인 키워드: 임금피크제 대안, 목적과 이유, 해결과제, 배경, 찬반논란. 임금피크제 삭감률 정도의 문제

22 Ⅳ. 결론: 연관관계 검색을 활용한 +,- 선택 결론: 최종 5개 키워드 중 3개가 + 이므로 임금피크제 미래 예측은 긍정으로 예측 가능함. - + 노년층 고령자의 skill,노하우 필요기업 + 소속감, 충성심 향상 임금프크제 적용 직접적인 이유 + - 베이비붐세대 + - - 고령자가 多기업 + - 정부의 발빼기 지지층 인건비감소 까지 결정 - + 찬성이유 - 해결책 시급 김성태 의원(새누리) 노사vs회사 대립 회사vs노조 분쟁 - - + - 해결책 시급 58,59,60세 단계적인 증가 임금삭감 없는 순수 정년연장 - - - - 2016년 시행 + 모호한 임금체계 개편 - 고령자의 skill,노하우가 필요없는 기업 - 대책시급 까다로운 조건 + 우리은행의 임금피크제&전직지원제도 - 세대간 갈등 실패이유 감성키워드: 최악, 절규, 유형, 비판, 공감 - - 성공 후 민간도입 공기업 - 성과,몰입 저하 - 대기업 편중 - + 세 정년 법제화 실행 - - 노조간 갈등 우선적용 공기업 + 다양한 임금피크제중 종업원 선택 졸속법안 - 20대가 多기업 - - 저비용으로 인사적체해소 복리후생비 증가 - - 기존직원 불안 적은 지원금 - - - + 청년실업 - 임금피크제 지원금 기업부담 + 대선공약 고용률70% - 20대 인사적체 - - - 인건비증가 회사의배신 대교 3단계 퇴출프로그램 - 직무전문가(직무평가시스템) - + - 정부지원금 - 박근혜 시간제일자리 - 노사협력이 관건 작용대상자 생산성저하 - - BC카드 - - 신용보증기금 실패 임금피크제/아카데미교육/방판 - 임금삭감 기업에 미루기 + 부작용 - 위축 + - - 다른 인사제도 도입 새누리당 노사정 합의 - - - - - 대립 대교, 현대차, 금융권 편법 퇴직강요프로그램 교육 PIP - 단계적인 피크제 도입 + + 고령자 기술,노하우 적용가능 금융권 - - 공동의식 저하 Job sharing - 금융권의 반대 - 후배지시 불편 + + - - + - - 반대이유 대상자 부적응 노사정합의 시간제일자리 노사관계 문제 테스트 후 선출 주 3일제 + 여당 노조 - - + 제조업 - - 마땅한 직무가 없음 - 직무개발필요 - - 실요성무 - 임금피크제 보험상품 임금피크제 변형 임금피크제 대안 + 반대세력 실효성 없음 보험상품 - + - + 찬성 반대 임금피크제 미루기 - 일본 65세 정년 추진中 + - 미국폐지 + + 고령화 대비 + 일자리 나누기 + - 임금피크제 목적, 이유 임금피크제 미래` 임금피크제 찬반논란 북핵문제 + + 독일 70세 + + + + 높은 연령의 정년 국민연금 + 유럽 + + 67세 신규채용 증가 - + 국가적배경 일본,미국,유럽 - - 프랑스 60->62세 스웨덴 + + + 임금피크제 해결과제 임금피크제 배경 솔록족증가 고령자 노하우,기술 활용 인건비 부담감소 - 결혼감소 + 사회적배경 - - - + 정치적배경 독거노인증가 출산율저하 - 임금피크제 법안추진 간접적인 원인 - 저비용 인사적체 해소 - 임금피크제 구성요소 + 각정당 + 고령화사회 + + 일본60세 정년 일본 65세 추진, 독일 70세 추진 갈등 새누리당 + + 대선 + - 대선공약 + 박근혜 + 배후세력 + 김성태 새누리 의원 + 한국 65세 정년의 법제화 대두 노사vs회사측 + + 정년연장형 - 삭감률 종류 + 원인 + + 정년보장형 정부가 삭감률 정책을 회사에 떠넘기기 - 임금곡선 하수평 + + - + 상승유형 하상 고용연장형 마감시한 + - + - 상승둔화 하락 노사측 주장 회사측 주장 + 수평유형 임금삭감 없는 순수정년 연장 - - 임금피크제 도입 * 메인 키워드: 임금피크제 대안, 목적과 이유, 해결과제, 배경, 찬반논란. - 임금피크제 삭감률 정도의 문제

23 Text Mining Techniques
R Python Open API

24 Text Mining (Parsing) with R

25 1. Introduction A case on “What they think abut tax?”
: what are their major interests in tax?

26 1). Prepare the lab for parsing
copy "tax.txt" into "C:/Rtest“  use memo pad to edit the data and the data should have extension .txt Open R and set path as below > setwd("c:/Rtest") Install packages for dealing Korean languages (KoNLP), wordcloud (words clouding) RColorBrewer (coloring words) - KoNLP needs (JRE: Java Runtime Environment) > install.packages("KoNLP") > install.packages("RColorBrewer") > install.packages("wordcloud") > library(KoNLP) > library(RColorBrewer) > library(wordcloud)

27 2). Read data and text analysis
> result <- file("tax.txt", encoding="UTF-8") > result2 <- readLines(result) > head(result2, 3) > result3 <- sapply(result2, extractNoun, USE.NAMES=F) > head(unlist(result3), 20) > write(unlist(result3), "tax_word.txt") The nouns extracted are saved in result3 and they can be used later for other uses. Import the contents in Tax.csv and save it into result - Copy content in result row by row. Save then to result2 Extract nouns from each line in result2 and save it to result3 - print about 20 nouns from result3

28 3). Text analysis > myword <- read.table("tax_word.txt")
> nrow(myword) > wordcount <- table(myword) > head(sort(wordcount, decreasing=T), 20) Read contents in tax_word.txt and save them into myword - check each record inside of myword Count words frequency in myword and save it into wordcount - show 20 words ranked by frequency in wordcount. The words are sorted in descending order

29 4). Text analysis > palete <- brewer.pal(9, "Set1")
> wordcloud( names(wordcount), freq=wordcount, scale=c(5, 1), rot.per=0.5, min.freq=4, random.order=F, random.color=T, colors=palete ) 워드클라우드를 만드는 기능을 가진 wordcloud 패키 지의 또다른 세부 기능을 가진 RColorBrewer를 메모 리에 업로드 시킴 - 워드클라우드 작성시 이를 구성하는 단어들마다의 색상을 부여해줌 워드클라우드 형식의 그림데이터를 표현하기 위한 별도의 그래픽구현 창을 생성함 Wordcloud함수의 세부 인수(옵션) 값을 조정하여 워드클라우드에서 중요키워드를 파악함 - scale이 출력되는 단어들간의 크기 비율임 - rot.per는 단어들간의 간격을 조절함 - min.freq는 단어의 언급횟수를 의미함 원래는 아래의 기다란 형태의 한 줄로 코딩이 되어야 하지만 작성화면이 상당히 복잡하고 불편 함 - 이에 따라 wordcloud( )라는 함수의 인수들을 작성하다 적당한 부근에서 Shift + Enter키를 누르면 그 다음 줄에 (+)기호가 생성되고 들여쓰기 형태로 코딩을 하게 됨 - 이를 표현하는 것이 바로 플러스기호(+)로 각각의 줄이 하나의 개별적인 R명령코딩이 아니라 원래 한 줄로 구성되어 있는 코딩이라는 의미임 wordcloud(names(wordcount), freq=wordcount,scale=c(5, 1),rot.per=0.5,min.freq=4,random.order=F,random.color=T,colors=palete)

30 5). 워크클라우드를 통한 시각화 최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드
최초 작성된 워드클라우드 - 것, 저, 원 등이 중요하지 않음 수정된 워드클라우드 > result2 <- gsub("것", "", result2) > result2 <- gsub("저", "", result2) > result2 <- gsub("원", "", result2) 최초 작성된 워드클라우드에서 파악된 비 중요 단어들을 제거함


Download ppt "8. 빅데이터 기법(텍스트마이닝)."

Similar presentations


Ads by Google