1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 2013. 7. 2 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.

Slides:



Advertisements
Similar presentations
SMART MANAGED INSTRUCTION WITH SNS 도지원 강동하 나지범 박창현 최병찬 SixSignal Capstone Design 2012.
Advertisements

학교 자체평가의 실제 신 동 한. 목 차  표지 제목  학교 소개  평가위원회 구성  지표별 평가의 실제  학교 자체평가의 향후 반영 계획  설문지 처리.
Copyright © 2000 UNIUS. All rights reserved UNIUS COCOSA SERVICE
Web Based Data Warehouse Query Tool 이화여자대학교 2002 년 컴퓨터학과 졸업프로젝트 14 조.
전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 연세대학교 문헌정보학과 송민
WCL 이민학 Big Data & Hadoop.
Prosumer Marketing Related to WEB 2.0 Prosumer Kim DuK SU Jung Gil Su Seo Jun Ho Lee Min JU No su yung.
2012 Knowledge Service Engineering Knowledge Service Engineering.
‘140 자의 마법 ’ 트위터 배우기 하나님의 참사랑을 상속받고 승화 때까지 영광을 올리자 ! 한국협회 기획조정실.
Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ ’ ( 금 ) ~ ( 목 ) / 15 개 시・군 대한체육회 / 도, 교육청, 도체육회 47 개 종목 / 32 천명 ’ ( 금 ) ~ ( 화 ) / 9 개 시・군 대한장애인체육회 / 도,
Web Service & Social Media 전략 연구소. 발표자 소개 eStory LAB 웹 서비스 & 소셜미디어 전략 연구소 소장 웹 서비스 기획 컨설턴트 신규 서비스 개발 프로젝트 PM - myPickup 강연 / 발표자 -Web 서비스 모델 기획 / 개발 -Social.
설득 커뮤니케이션의 이해와 활용 김정현 지음 설득 커뮤니케이션의 이해와 활용 김정현 지음.
정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013
Predicting User Interests from Contextual Information
컴퓨터공학부 교수님 연구 분야 소개.
소프트웨어시스템 실험 Software Systems Lab. (2012년 2학기) 강의 소개
Social Network Service!
IT집중교육1 (Mobile Multimedia Service & System Design)
연구실 인턴쉽 안내자료 컴퓨터공학과 2017학년도 1학기.
그래픽스 및 웹 응용 설계 (자기소개) Self Introduction 2010 년 5 월 17 일 작성자 : 백 선 재.
과 목 : 다이어그램 그래픽 학 과 : 멀티미디어정보처리 제출자 : 박윤미, 정만식, 이지현, 김재학
강의 : 고전작가론 교수님 : 변승구 교수님 발표자 : 이재관, 최순조
SNS의 개인행위 특성요인이 사용의도에 미치는 영향
Google Analytics Seminar
Information Technology
데이터마이닝의 소개 Data Mining Introduction
최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )
Excel OLAP Reporting / OWC를 이용한
신년워크숍-전략경영본부 (월), 09:30~13:30, 본관 교육장.
Korea University of Technology and Education Hongyeon Kim
데이터 웨어 하우스 이병규 김기훈.
NTAS 소개 (Network Transaction Application Server)
EPS Based Motion Recognition algorithm Comparison
1. 시멘틱웹(Semantic Web) Preview 항목 상세내역 개요 기출여부 관련KeyWord 추천사이트
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
Critical Success Factors for Project Management Information System in Construction 김건웅.
CRM에서의 Data Quality Management
Technological Forecasting & social change(2014)
CH 851 지식기반 시스템 응용 (모바일 시스템) 2006년도 제 2학기.
통신과 통신망 (Communication & Networks)
Information Retrieval (Chapter 5: 질의연산)
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
학업 성취도에 영향을 미치는 요인.
2장. 학사관리 예제 DATABASE 학사 데이터베이스의 해설 테이블의 내용 무결성 규칙 쉽게 배우는 MySQL 5.x
2009, 46th KLA General Conference
정보 추출기술 (Data Mining Techniques ) : An Overview
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
ERP 시스템의 구축 ERP 시스템의 구축 기업이 ERP 시스템의 도입을 검토하는 단계에서부터 실제 업무에 적용하고 사후관리에 들어가는 단계에 이르기까지 시스템을 효과적으로 사용하기 위해 필요한 모든 활동.
고루 잘사는 따뜻한 전라북도 복지여성보건분야 주요업무계획.
NTAS 소개 (Network Transaction Application Server)
SQL INJECTION MADE BY 김 현중.
Goal-directed design을 위한 Persona process
2011 석사학위논문 논문연구 | 국립 한경대학교 산업대학원 디자인학과 | 김용규| Sep. 30, 2011 |
Challenging Issues 다양한 형태로 흩어져 있는 데이터를 어떻게 모으고 관리할 것 인가?
국제물류.
Data Analytics for Healthcare
Data Mining and Bioinformatics Lab
수 업 계 획 1. 단원지도계획 2. 수업설계서 3. 학습지 4. 형성평가지 5. 참고자료 6. 참고사이트 7. 제작자
1장. 서 론 데이터베이스의 개요 모델의 종류 관계형 모델과 객체 지향형 데이터베이스 SQL이란 무엇인가?
지역사회복지론 지역사회복지 실천 가치 강 우 수 명 더불어 숲 - 복지의 큰 숲을 만들어 갑니다.
북방한계선(NLL) 제안 (추정) 노무현 전 대통령의 동경 124.5도 북위 38도 개성 북위 37도
경영학과 의학의 비교분석 가톨릭대학교 (마케팅) 성 명: 학 번 남경태: (02반)
Peer-to-Peer SIP Network Using Distributed Hash Table
제3의 미디어, SNS의 힘! 경영학부 권예슬.
제2기 지역사회복지계획 수립, 추진 및 평가 사 례 발 표
CAJ – KNS55 (China Academic Journals)
Presentation transcript:

1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab

1. Introduction 2. Related Works 2.1 Topic Modeling & Network Analysis on Social Media 2.2 Prediction on Social Issue & Presidential Election 3. Methodology 3.1 Twitter Mining System 3.2 Research Design 4. Topic Modeling and Network Analysis on Korean Presidential Election 4.1 Multinomial Topic Modeling 4.2 Network Analysis 5. Conclusion 2

3

Introduction WEB 2.0 paradigm Communication TECHNIC 4

연구질문 1 연구질문 2 트위터 상에서 발견되는 토픽은 실제 사회적 이슈와 어떠한 관계가 있는가 ? 대선과 관련한 이용자들의 네트워크는 어떠한 특징을 보이는가 ? Research Purpose 5

6

RT 2 M System Local Database Twitter4J Stream API Query Terms : “Geun Hae Park”, “Jae In Moon”, “Chul Su Ahn”, “Presidential Election” Gets Data in Real-time MySQL DB Sends Queries Twitter_ID Tweet Timestamp Has TF/IDF-based User Similarity Calculation Term Co-occurrence Retrieval Topic Modeling By Timeline (Multi-nomial LDA) Network Analysis & Visualization Redis DB Data Processing (Morph. Anal.) Has Keywords Mentions User-Mention Pairs User-Keyword Pairs System Overview

Twitter Mining System 8

동시출현 단어 검색 Term Co-occurrence Retrieval 멘션 기반 이용자 네트워크 시각화 Visualization Twitter Users by Query 이용자간 유사도 검색 TF-IDF Similarity Calculation between Two Users 토픽 모델링 Topic Modeling 특정한 질의어를 입력하면 멘션에서 해당 질의어와 함께 출현한 단어를 동시출현 빈도 순으로 출력 결과는 100 개, 500 개, 1,000 개, 2,000 개 단위로 출력 특정한 질의어를 입력하면 해당 질의어를 포함하여 멘션을 주고 받은 이용자들 간의 네트워크를 시각화하여 출력 두 이용자의 아이디를 입력하면 해당 이용자들이 작성한 멘션에 기반하여 TF-IDF 를 계산하고, 이를 기반으로 이용자간의 유사도를 출력 해당기간 내 수집된 문서들을 시간을 third parameter 로 하는 Multinomial LDA 알고리즘을 적용하여 토픽 모델링의 결과를 해당 토픽 내 단어분포와 함께 출력 9

Research Design 2012 년 10 월 1 일부터 31 일까지 트위터 한국어 홈페이지 본문에 “ 박근혜 ”, “ 문재인 ”, “ 안철수 ”, “ 대선 ” 이라는 단어가 출현한 1,737,969 건의 트윗을 수집 트위터 상의 사회적 이슈를 시계열로 추적 ‘ 대선 ’ 이라는 이슈를 중심으로 발생하는 사회적 네트워크의 특성을 규명 10

DMR Generative Model Multinomial Topic Modeling 11

User Network Analysis 소셜 네트워크 분석 ? 개인, 집단, 사회의 관계를 네트워크로 파악하는 연구방법론 node tie node 개인 또는 집단 node 분석 기본 단위 : 트위터 멘션과 그 멘션의 방향성  NETWORK 추출 / 특성 분석 사용 라이브러리 : JUNG (Java Universal Network/Graph Framework)  네트워크 분석과 시각화 사용 알고리즘 : Community Detection / PageRank (JUNG)  이용자의 특성파악 12

13

Multinomial Topic Modeling _ Result Overview 14

TopicLabelMajor TermsType Topic_01 정수장학회 박근혜, 정수장학회, 안철수, 대선, 문재인, MBC, 최필립, 새누리당, 부산일보 rising Topic_02 대선 후보박근혜, 문재인, 안철수, 후보, 대선, 대통령 rising Topic_03 박근혜 지지율 박근혜, 후보, 안철수, 대선, 새누리당, 문재인, 단일화, 대통령, 지지율, 선거 falling Topic_04 안철수 의혹안철수, 박근혜, 논문, 표절, 의혹, 다운계약서, 서울대 falling Topic_05 대선 후보박근혜, 문재인, 안철수, 후보, 대선, 대통령 rising Topic_06 후보 단일화안철수, 박근혜, 문재인, 대선, 후보, 무소속, 단일화 rising Topic_07 박근혜 슬로건박근혜, 문재인, 안철수, 나라, 내, 꿈이, 이루어지는 rising Topic_08 박근혜 캠프 구성 박근혜, 문재인, 안철수, 민주당, 캠프, 김경재, 이, 대선, 장악한, 종북세력, 막으러, 들어왔다 rising Topic_09 대선 후보후보, 박근혜, 안철수, 새누리당, 무소속, 민주통합당, 문재인 falling Topic_10 NLL 포기 의혹박근혜, 문재인, NLL, 안철수, 노무현, 정문헌, 민주통합당 rising 15 Multinomial Topic Modeling _ Result Overview

Rising Issues 16

Comparison Topic #1 (Left) and Related News Articles (Right) 17

Comparison Topic #6 (Left) and Related News Articles (Right) 18

Comparison Topic #10 (Left) and Related News Articles (Right) 19

Falling Issues 20

Comparison Topic #3 (Left) and Related News Articles (Right) 21

1 3 2 Network Analysis 실제 사회적 관계를 바탕으로 이미 잘 알고 있는 사람들과의 관계 ( 쌍방향 ) 상대방의 동의가 없어도 일방적으로 팔로우하는 단방향적 관계를 형성 Follow / following “ 트윗이라는 하나의 ‘ 매체 ’ 를 구독하기 위한 소유의 기능 ” 멘션에 동시 출현한 자질과 그 빈도를 기반으로 대선과 관련된 트윗을 게재한 총 136,754 명의 이용자 네트워크를 분석 멘션을 기반으로 완전히 상호연결된 이용자 집단을 찾아내기 위해 커뮤니티 디텍션 알고리즘을 사용 커뮤니티의 생성과 이용자의 영향력 간의 상관관계를 알아보기 위해 PageRank 기법으로 노드의 영향력을 평가 본 연구의 분석기법 22

Mention Directedness- based ID Network Visualization 23 Nodes: 11,683(8.54%)

#Size Modularity 0140, E , , , , Community Detection 커뮤니티에 속한 이용자는 총 129,835 명으로 전체 이용자 136,754 명의 대부분인 94.94% 를 차지하고 있다. Modularity 값이 1.25E-04 인 10 개의 커뮤니티를 발견하였다. –Modularity 값이 -0.5 ~ 1 사이에 있을 경우, 커뮤니티 내부의 노드들은 밀집되어 있으며, 서로 다른 커뮤니티에 속한 노드들은 드물게 연결되어 있음을 의미한다. – 대선 관련 이슈의 이용자 네트워크는 커뮤니티 내부의 밀도가 높으며, 커뮤니티 간의 연결은 적은 편이다. 24 _ Voltage-clustering algorithm Community Detection 대규모 네트워크의 데이터의 구조를 파악하기에 유용한 방법

멘션 기반의 커뮤니티 분석으로는 토픽 모델링과의 관계를 파악하기 어려움 #Size Frequently Occurred Terms Related Topic 12,995 후보, 박근혜, 안철수, 국민, 대통령, 문재인, 단일화 후보 단일화 3537 안철수, 후보, 박근혜, 대선, 국민, 단일화, 문재인 후보 단일화 1781 대선, 흑색선전, 후보자, 깨 끗한, 선거문화, 선거 공정선거 1150 대선, 선거, 비방, 흑색선전, 후보자, 깨끗한 공정선거 3340 상호존중, 통일정책, 질서, 제정, 실천, 국회 후보, 대선, 대통령, 도발, 평화, 안철수, 박근혜 후보, 박근혜, 대선, 행복, 국민 박근혜 후원 상처, 기대감, 관광, 여론조 사, 전화통화 - Community Detection 1 번과 3 번 커뮤니티의 경우 고빈도어 사이에 뚜렷한 특징 없이 토픽 모델링 결과 출현했던 단어들이 출현하였으며, 각 커뮤니티에서 랜덤 표집으로 이용자를 추출하여 프로파일과 멘션을 확인한 결과 1 번 커뮤니티에는 보수적 정치 성향의 이용자가, 3 번 커뮤니티에는 진보적 정치 성향의 이용자가 주로 존재하는 것으로 확인되었다. 17 번과 11 번 커뮤니티의 경우 흑색선전, 깨끗한, 선거문화 등 특징적인 단어들이 출현하였으며 해당 이용자의 프로파일과 멘션을 분석한 결과 공정선거홍보 및 지방자치단체의 선거관리위원회 계정들로 확인되었다. 39 번 커뮤니티는 ‘ 박근혜를 사랑하는 모임 ’ 이 주최하고 ‘ 해핑 ’ 이 후원하는 박근혜 대통령 후보 공식 후원 업체로 박근혜 관련 콘텐츠를 생성하는 것으로 확인 되었다. 25 _ SCAN

A A B B A A I I J J C C D D G G F F H H C C D D E E F F G G C C L L K K 질의어 박근혜 네트워크 시각화 질의어 문재인 네트워크 시각화 질의어 안철수 네트워크 시각화 Mention-based User Network Visualization 26

27 Term Co-occurrence Comparison 박근혜 TF 안철수 TF 문재인 TF 1 대선 634,540 안철수 62,770 문재인 143,663 2 지지선언 589,728 문재인 53,554 대선 92,062 3 박근혜 530,307 박근혜 38,750 지지선언 62,766 4 여론조사 492,762 대선 35,468 안철수 57,420 5 지지 82,428 지지선언 11,672 여론조사 54,494 6 선언 80,904 여론조사 10,630 박근혜 49,785 7 무소속안철수 52,990 민주통합당 6,858 민주통합당 8,552 8 문재인 46,614 새누리당 6,752 새누리당 7,818 9 안철수 40,078 문재인캠프 6,540 문재인캠프 7, snspage38,748 김정숙 5,740 투표시간연장 7, 육영수 20,326 다운계약서 4,678 문재인 tv 5, 박정희 13,059 단일화 3,240 김정숙 5, 박근혜정책 10,201 개념인터뷰 2,702 단일화 4,140 _ by Query

Term Co-occurrence Network Visualization 28 Total number of tweets: 1,678,403 Total pairs of terms: 6,904,227

29

Conclusion 영향력이 높은 이용자의 프로파일과 해당기간에 작성한 트윗 분석 결과 멘션을 기반으로 한 이용자 네트워크를 추출하여 분석한 결과 이용자들의 페이지랭크 값과 커뮤니티의 크기에 대한 상관분석 결과 실시간으로 특정사건을 중심으로 발생하는 콘텐트 상의 사회적 이슈를 시계열로 추적한 결과 30

31