1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab
1. Introduction 2. Related Works 2.1 Topic Modeling & Network Analysis on Social Media 2.2 Prediction on Social Issue & Presidential Election 3. Methodology 3.1 Twitter Mining System 3.2 Research Design 4. Topic Modeling and Network Analysis on Korean Presidential Election 4.1 Multinomial Topic Modeling 4.2 Network Analysis 5. Conclusion 2
3
Introduction WEB 2.0 paradigm Communication TECHNIC 4
연구질문 1 연구질문 2 트위터 상에서 발견되는 토픽은 실제 사회적 이슈와 어떠한 관계가 있는가 ? 대선과 관련한 이용자들의 네트워크는 어떠한 특징을 보이는가 ? Research Purpose 5
6
RT 2 M System Local Database Twitter4J Stream API Query Terms : “Geun Hae Park”, “Jae In Moon”, “Chul Su Ahn”, “Presidential Election” Gets Data in Real-time MySQL DB Sends Queries Twitter_ID Tweet Timestamp Has TF/IDF-based User Similarity Calculation Term Co-occurrence Retrieval Topic Modeling By Timeline (Multi-nomial LDA) Network Analysis & Visualization Redis DB Data Processing (Morph. Anal.) Has Keywords Mentions User-Mention Pairs User-Keyword Pairs System Overview
Twitter Mining System 8
동시출현 단어 검색 Term Co-occurrence Retrieval 멘션 기반 이용자 네트워크 시각화 Visualization Twitter Users by Query 이용자간 유사도 검색 TF-IDF Similarity Calculation between Two Users 토픽 모델링 Topic Modeling 특정한 질의어를 입력하면 멘션에서 해당 질의어와 함께 출현한 단어를 동시출현 빈도 순으로 출력 결과는 100 개, 500 개, 1,000 개, 2,000 개 단위로 출력 특정한 질의어를 입력하면 해당 질의어를 포함하여 멘션을 주고 받은 이용자들 간의 네트워크를 시각화하여 출력 두 이용자의 아이디를 입력하면 해당 이용자들이 작성한 멘션에 기반하여 TF-IDF 를 계산하고, 이를 기반으로 이용자간의 유사도를 출력 해당기간 내 수집된 문서들을 시간을 third parameter 로 하는 Multinomial LDA 알고리즘을 적용하여 토픽 모델링의 결과를 해당 토픽 내 단어분포와 함께 출력 9
Research Design 2012 년 10 월 1 일부터 31 일까지 트위터 한국어 홈페이지 본문에 “ 박근혜 ”, “ 문재인 ”, “ 안철수 ”, “ 대선 ” 이라는 단어가 출현한 1,737,969 건의 트윗을 수집 트위터 상의 사회적 이슈를 시계열로 추적 ‘ 대선 ’ 이라는 이슈를 중심으로 발생하는 사회적 네트워크의 특성을 규명 10
DMR Generative Model Multinomial Topic Modeling 11
User Network Analysis 소셜 네트워크 분석 ? 개인, 집단, 사회의 관계를 네트워크로 파악하는 연구방법론 node tie node 개인 또는 집단 node 분석 기본 단위 : 트위터 멘션과 그 멘션의 방향성 NETWORK 추출 / 특성 분석 사용 라이브러리 : JUNG (Java Universal Network/Graph Framework) 네트워크 분석과 시각화 사용 알고리즘 : Community Detection / PageRank (JUNG) 이용자의 특성파악 12
13
Multinomial Topic Modeling _ Result Overview 14
TopicLabelMajor TermsType Topic_01 정수장학회 박근혜, 정수장학회, 안철수, 대선, 문재인, MBC, 최필립, 새누리당, 부산일보 rising Topic_02 대선 후보박근혜, 문재인, 안철수, 후보, 대선, 대통령 rising Topic_03 박근혜 지지율 박근혜, 후보, 안철수, 대선, 새누리당, 문재인, 단일화, 대통령, 지지율, 선거 falling Topic_04 안철수 의혹안철수, 박근혜, 논문, 표절, 의혹, 다운계약서, 서울대 falling Topic_05 대선 후보박근혜, 문재인, 안철수, 후보, 대선, 대통령 rising Topic_06 후보 단일화안철수, 박근혜, 문재인, 대선, 후보, 무소속, 단일화 rising Topic_07 박근혜 슬로건박근혜, 문재인, 안철수, 나라, 내, 꿈이, 이루어지는 rising Topic_08 박근혜 캠프 구성 박근혜, 문재인, 안철수, 민주당, 캠프, 김경재, 이, 대선, 장악한, 종북세력, 막으러, 들어왔다 rising Topic_09 대선 후보후보, 박근혜, 안철수, 새누리당, 무소속, 민주통합당, 문재인 falling Topic_10 NLL 포기 의혹박근혜, 문재인, NLL, 안철수, 노무현, 정문헌, 민주통합당 rising 15 Multinomial Topic Modeling _ Result Overview
Rising Issues 16
Comparison Topic #1 (Left) and Related News Articles (Right) 17
Comparison Topic #6 (Left) and Related News Articles (Right) 18
Comparison Topic #10 (Left) and Related News Articles (Right) 19
Falling Issues 20
Comparison Topic #3 (Left) and Related News Articles (Right) 21
1 3 2 Network Analysis 실제 사회적 관계를 바탕으로 이미 잘 알고 있는 사람들과의 관계 ( 쌍방향 ) 상대방의 동의가 없어도 일방적으로 팔로우하는 단방향적 관계를 형성 Follow / following “ 트윗이라는 하나의 ‘ 매체 ’ 를 구독하기 위한 소유의 기능 ” 멘션에 동시 출현한 자질과 그 빈도를 기반으로 대선과 관련된 트윗을 게재한 총 136,754 명의 이용자 네트워크를 분석 멘션을 기반으로 완전히 상호연결된 이용자 집단을 찾아내기 위해 커뮤니티 디텍션 알고리즘을 사용 커뮤니티의 생성과 이용자의 영향력 간의 상관관계를 알아보기 위해 PageRank 기법으로 노드의 영향력을 평가 본 연구의 분석기법 22
Mention Directedness- based ID Network Visualization 23 Nodes: 11,683(8.54%)
#Size Modularity 0140, E , , , , Community Detection 커뮤니티에 속한 이용자는 총 129,835 명으로 전체 이용자 136,754 명의 대부분인 94.94% 를 차지하고 있다. Modularity 값이 1.25E-04 인 10 개의 커뮤니티를 발견하였다. –Modularity 값이 -0.5 ~ 1 사이에 있을 경우, 커뮤니티 내부의 노드들은 밀집되어 있으며, 서로 다른 커뮤니티에 속한 노드들은 드물게 연결되어 있음을 의미한다. – 대선 관련 이슈의 이용자 네트워크는 커뮤니티 내부의 밀도가 높으며, 커뮤니티 간의 연결은 적은 편이다. 24 _ Voltage-clustering algorithm Community Detection 대규모 네트워크의 데이터의 구조를 파악하기에 유용한 방법
멘션 기반의 커뮤니티 분석으로는 토픽 모델링과의 관계를 파악하기 어려움 #Size Frequently Occurred Terms Related Topic 12,995 후보, 박근혜, 안철수, 국민, 대통령, 문재인, 단일화 후보 단일화 3537 안철수, 후보, 박근혜, 대선, 국민, 단일화, 문재인 후보 단일화 1781 대선, 흑색선전, 후보자, 깨 끗한, 선거문화, 선거 공정선거 1150 대선, 선거, 비방, 흑색선전, 후보자, 깨끗한 공정선거 3340 상호존중, 통일정책, 질서, 제정, 실천, 국회 후보, 대선, 대통령, 도발, 평화, 안철수, 박근혜 후보, 박근혜, 대선, 행복, 국민 박근혜 후원 상처, 기대감, 관광, 여론조 사, 전화통화 - Community Detection 1 번과 3 번 커뮤니티의 경우 고빈도어 사이에 뚜렷한 특징 없이 토픽 모델링 결과 출현했던 단어들이 출현하였으며, 각 커뮤니티에서 랜덤 표집으로 이용자를 추출하여 프로파일과 멘션을 확인한 결과 1 번 커뮤니티에는 보수적 정치 성향의 이용자가, 3 번 커뮤니티에는 진보적 정치 성향의 이용자가 주로 존재하는 것으로 확인되었다. 17 번과 11 번 커뮤니티의 경우 흑색선전, 깨끗한, 선거문화 등 특징적인 단어들이 출현하였으며 해당 이용자의 프로파일과 멘션을 분석한 결과 공정선거홍보 및 지방자치단체의 선거관리위원회 계정들로 확인되었다. 39 번 커뮤니티는 ‘ 박근혜를 사랑하는 모임 ’ 이 주최하고 ‘ 해핑 ’ 이 후원하는 박근혜 대통령 후보 공식 후원 업체로 박근혜 관련 콘텐츠를 생성하는 것으로 확인 되었다. 25 _ SCAN
A A B B A A I I J J C C D D G G F F H H C C D D E E F F G G C C L L K K 질의어 박근혜 네트워크 시각화 질의어 문재인 네트워크 시각화 질의어 안철수 네트워크 시각화 Mention-based User Network Visualization 26
27 Term Co-occurrence Comparison 박근혜 TF 안철수 TF 문재인 TF 1 대선 634,540 안철수 62,770 문재인 143,663 2 지지선언 589,728 문재인 53,554 대선 92,062 3 박근혜 530,307 박근혜 38,750 지지선언 62,766 4 여론조사 492,762 대선 35,468 안철수 57,420 5 지지 82,428 지지선언 11,672 여론조사 54,494 6 선언 80,904 여론조사 10,630 박근혜 49,785 7 무소속안철수 52,990 민주통합당 6,858 민주통합당 8,552 8 문재인 46,614 새누리당 6,752 새누리당 7,818 9 안철수 40,078 문재인캠프 6,540 문재인캠프 7, snspage38,748 김정숙 5,740 투표시간연장 7, 육영수 20,326 다운계약서 4,678 문재인 tv 5, 박정희 13,059 단일화 3,240 김정숙 5, 박근혜정책 10,201 개념인터뷰 2,702 단일화 4,140 _ by Query
Term Co-occurrence Network Visualization 28 Total number of tweets: 1,678,403 Total pairs of terms: 6,904,227
29
Conclusion 영향력이 높은 이용자의 프로파일과 해당기간에 작성한 트윗 분석 결과 멘션을 기반으로 한 이용자 네트워크를 추출하여 분석한 결과 이용자들의 페이지랭크 값과 커뮤니티의 크기에 대한 상관분석 결과 실시간으로 특정사건을 중심으로 발생하는 콘텐트 상의 사회적 이슈를 시계열로 추적한 결과 30
31