What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.

Slides:



Advertisements
Similar presentations
1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
Advertisements

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 연세대학교 문헌정보학과 송민
WCL 이민학 Big Data & Hadoop.
김예슬 김원석 김세환. Info Northcutt Bikes Northcutt Bikes The Forecasting problem The Forecasting problem The solution 1~6 The.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필 목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델.
새가족부 워크샵 결과 '09 Review 및 '10 섬김계획 새가족부.
정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술
7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술
Predicting User Interests from Contextual Information
Master Thesis Progress
Capstone Design - Concept & Management
- 예∙결산 및 기본재산 운영 신뢰도 제고를 위한 실태점검, 결산지원사업 -
Sentiment analysis support vector machines with diverse information sources 데이터베이스 연구실 이 상환.
How do They Make Computer Games?
Development and Initial Validation of Quality-of-Life Questionnaires for Intermittent Exotropia Ophthalmology 2010;117:163–168 Pf. 임혜빈 / R2 정병주.
Hierarchical Classification: Comparison with Flat Method
Dialogue System Seminar
인재채용의 경쟁우위확보를 위한 역량기반의 구조적 면접 컨설팅 추진방안
Technical Writing (기술글쓰기)
14주차 1교시 강화계획 [학습목표] 1. 강화계획의 정의를 안다 [학습내용] 1. 단순한 강화계획 2. 간헐적 강화 3. 복합 계획 4. 선택과 대응법칙 [사전학습] 강화계획이 일어날 수 있는 사례를 생각해본다.
연장근로와 야간·휴일근로 김영호 노무사 나눔 노사관계연구소 소장 연세대 일반대학원 박사 수료 고려사이버대 법학과 외래교수
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
Ⅱ-1. 물질의 기본 성분 원소들의 지도, 주기율표 이솔희.
제4장 자연언어처리, 인공지능, 기계학습.
JNEA T 주니어니트 제안서 국가영어능력평가시험(NEAT)대비 Junior National English Ability
설계를 위한 분석단계 사용자, 과업, 맥락.
데이터 웨어 하우스 이병규 김기훈.
EPS Based Motion Recognition algorithm Comparison
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
Word2Vec Tutorial 박 영택 숭실대학교.
BSC 기법에 의한 성과지표설정방법 강사 : 오영환(달란트HR컨설팅 대표/경영학박사)
8. 빅데이터 기법(텍스트마이닝).
Technological Forecasting & social change(2014)
통신과 통신망 (Communication & Networks)
A Survey of Affect Recognition Methods :
Semi-supervised Document classification (probabilistic model and EM)
for Robust Facial Landmark Localization
INTRODUCTION TO WESTLAW NEXT V.1.0
TREC (Text Retrieval Conference) 소개
Parallel software Lab. 박 창 규
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
영어 교수학습 지원을 위한 디지털 교과서 기능 분석
FTA강의자료 경영컨설팅의 이해와 비즈니스 모델의 창출 나도성 한성 KSCon 교수겸 연구원장.
제8장 BSC와 지식경영.
정보 추출기술 (Data Mining Techniques ) : An Overview
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
Course Guide - Algorithms and Practice -
(주)신원데이터넷 BMJ (주)신원데이터넷
Text Mining (Parsing) with R
소프트웨어 형상관리: 목차 변경 및 형상관리의 기초 개념 형상항목 확인 및 버전관리 변경관리 감사 및 감사보고 99_11
옆사람과 짝 만들기. 옆사람과 짝 만들기 짝을 이루는 방법? 교차잡기 일방적 잡기 다른 물건 같이 잡기.
Sentiment Analysis 유재명.
의료관리 연구방법론 강의 소개 - 지역보건 기획과 평가
성공적인 웹사이트 구축 (2) 변화 발전하는 Site의 미래를 예측 반영해야 함.
Extracting Schedule Information from Korean
Social Commerce.
Problem description and pipeline
Data Analytics for Healthcare
(생각열기) 1족 원자는 전자 1개를 잃기 쉽다. 전자 1를 잃으면 어떤 이온이 되는가? ( )
고급 정보 검색 1. 개 요.
제 10 장 서비스 관리.
소프트웨어 종합설계 (Software Capstone Design)
Advanced Data Analytics 데이터분석 전문가
Bug Localization Based on Code Change Histories and Bug Reports
3장. 데이터베이스 시스템 데이터베이스 시스템의 정의 데이터베이스의 구조 데이터베이스 사용자 데이터 언어
연구 진행 상황 보고서 Insulin Pump CPF Xproject 2주전 계획 연구 결과 문제점 및 대책 목표 및 계획
Progress Seminar 신희안.
Progress Seminar 선석규.
사회복지실천기술연구 호남대학교대학원 사회복지학과 이름 : 구 선 하 학번 :
Presentation transcript:

What Opinion mining?

Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion about Document of level (task in blogosphere) 4. Highlights importance of opinion mining

1. Introduction 2000년대에 들어서 오피니언 마이닝 분야의 연구들이 활발하게 진행 되었다. 그에 따른 다양한 개념과 용어들이 폭발적으로 생겨나고, 효율적인 방법론들도 생겨났다.

1.1 Fact based IR VS Opinion based IR 초기에 정보검색분야는 Google, Yahoo등 거대한 검색엔진회사들을 필두로 Fact(사실), Topic(주제)에 기반한 검색들이 이루어져 왔다. How does X feel about Y? 오피니언 마이닝은 사실기반의 데이터보다 사람들의 의중을 알고 싶어하고, 그것이 곧 고급정보가 된다.

2. Granularity-based opinion mining 1) Opinion detection process 1) Opinion detection process 1. 먼저 topic(주제)에 관련된 문서set을 검색한다. 2. 단어레벨에서 극성방향을 계산한다. (positive, negative, neutral) 극성방향이 정해지면, 극성강도를 계산한다. 3. 단어레벨의 극성방향, 정도를 계산한 것들을 결합하여 문장 혹은 단락의 극성방향, 극성강도를 계산한다. 4. 마찬가지로 문장레벨에서 계산된 것들을 결합하여 문서의 극성방향, 극성강도를 계산한다. 5. 최종적으로 Relvance여부, 오피니언 점수를 결합하여 final점수를 매긴다.

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing Esuli and Sebastiani(2006) Word-level sentiment analysis -Determine subjectivity of words in a document -Determine orientation or polarity of words a. Corpus-based approaches b. Dictionary-based approaches

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing a.Corpus-based approaches

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing PMI(Pointwise Mutual Information) 두 단어간의 상관관계를 수치화한 식 로그함수를 취함으로써… PMI =0 두 단어는 독립! PMI > 0 두 단어는 상관관계가 높다! PMI < 0 두 단어는 상관관계가 낮다! Word in seed set O(t) > 0 Positive! O(t) < 0 Negative! Positive seed set Negative seed set

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing b. Dictionary-based approach Using semantic relation => WordNet( 동의어관계, 상하관계 ) Using semantic relation + gloss definition => SentiWordNet Kamp et al(2004). Distance What gloss?

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing SentiWordNet(SWN) 3 Synset => Obj(s), Pos(s), Neg(s) each synset 0~1. Sum all synset 1.

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing WordNet Affect(Valitutti. 2004) WordNet, SentiWordNet을 통해 점수를 잘 매겼다 하더라도, 어떠한 요소들을 매길 것인가는 중요한 문제이다. 즉, WordNet에 적절한 도메인을 활용한다면 더 효과적일 것이다.

2. Granularity-based opinion mining 2) Word level processing 2) Word level processing 주관적인지 객관적인지 판단하는 것은 Corpus-based가 좋다. 그러나, 다양한 도메인내 에서 종합적인 극성 방향을 판단하는 것은 Dictionary-based가 좋다.

2. Granularity-based opinion mining 2) Sentence level processing 2) Sentence level processing Sentence-level sentiment analysis -Determine whether a sentence is subjective or objective. -Determine whether a sentence is positive or negative. 1)Sentence subjectivity identification 문장의 주관성을 판단하는 것은 우선적으로는 문장 내에 주관적인 단어를 찾는 것에 의존할 수 밖에 없다. Zang et al(2009) 강도 쎈 의견단어 하나가 문장 내에 모든 단어를 분석 하여 합친 결과보다 더 좋은 성능을 낸 결과를 발표 했다. Bruce, Wiebe 는 로그우도확률을 통해 통계적으로 형용사가 있는 문장이 주관성을 갖고 있을 확률이 높다는 것을 증명했다.

2. Granularity-based opinion mining 2) Sentence level processing 2) Sentence level processing Riloff et al(2003) 은 명사를 통해 문장의 주관성을 밝혀내는 것을 발표했다. (Naïve Bayes 사용 ) Yu and Hatzivassiloglou(2003) 은 문장의 유사도를 이용했다. 즉, 주관적인 문장들과 비슷한 유사도를 갖고 있다면 그 문장은 주관적인 문장일 확률이 높다는 것이다. (SIMFINDER 알고리즘, WordNet 사용 ) 2) Sentence polarity tagging - Number of Polar words - word-level polarity scores Seed 단어들과의 동시발생관계를 이용하여 점수를 매긴다.(PMI) 문장레벨에서는 POS(part-of-speech) 구성이 중요하다. 문장 안에 형용사, 부사, 동사가 있다면 최대의 정확성을 보인다.

2. Granularity-based opinion mining 2) Sentence level processing 2) Sentence level processing Prior polarity and Contextual polarity are different!! ex) John’s house is not beautiful at all. Major Contexts responsible for polarity shift of the terms. - 부정어 (not, neither, never…) 가 해당 극성언어를 감싸고 있다면, 극성은 무조건 부정으로 변경한다. - SWN 을 활용하여 의미적인 다의어에 대해서 판단한다. (strong#a#7 긍정 0.75 부정 0.0 strong#8# 긍정 0.0 부정 0.5) -Topic-Dependent contextual polarity (unpredictable film plot, unpredictable functional response)

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Using corpus-based dictionaries - Using ready-made dictionaries(GI, SentiWordNet) - Text classification approaches - Role of external data collections as a tool for query expansion and training data - Role of relevance feedback

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Using corpus-based dictionaries 의견어휘를 이용하여 의견문서를 찾아내는 방식이다. Internal corpus-based Gerani et al(2009) 외부의 데이터들을 사용하지 않고, 자체적으로 Corpus 를 구축하여 활용했다. External corpus-based Hui Yang and Si(2006), Seki(2007) 에서는 의견어휘를 아마존 사이트 리뷰들을 모아 구축했다. 27,544 개의 리뷰들을 모아서 긍정단어 들을 feature 로서 찾아냈다. 도메인 독립성과 성능 사이에 Trade-off 관계가 있다. External 방식은 외부에 다양하게 사용되고 있는 어휘집합들을 사용하여 일반화에 좋은 대신에 성능이 좀 떨어진다.

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Using ready-made dictionaries  General Inquirer(GI), WordNet, SentiWordNet 잘 구축된 어휘망을 이용하기 때문에, 도메인에 독립적이고 오피니언 마이닝 에 일반적으로 사용하는 방법이다. GI 는 수동적으로 구성한 대규모 사전으로, SWN 이 출현하기 전, 의견을 찾기 위한 노력으로 만들어 졌다. 10,000 개 이상의 단어들을 넓은 범위의 감정 카테고리로서 제공한다.

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Text classification approaches Corpus, Dictionary… 감정어휘, 의견어휘에 관한 Lexicon-based approaches 들이 잘 되었다면, 그것들을 활용하는 Machine Learning 기술이 필요하다. SVM, Logistic Regression, Naïve Bayes… 컨셉에 맞는 ML 기법을 적용한다. SVM 은 ML 분야에서 가장 성능이 좋은 것으로 알려져 있고, 많이 사용된다.

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Role of external data collections as a tool for query expansion and training data Opinion detection 작업을 위해서 또는 classifier 를 위한 ML training 을 위해서 많은 경우 외부데이터 콜렉션을 사용한다. ML-training 을 위한 데이터들이 필요하다. Movie Review(Yahoo etc..), Customer Review(AMAZON), Digital Camera review etc..

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - external data collection – Yahoo Movie Review Data (used in Zhang and Zhang 2006) – Epinion Digital Camera Review data (used in Zhang and Zhang 2006) – Reuters Newswire Data (used in Zhang and Zhang 2006]) – Reviews from (used in Zhang and Yu 2006, 2007) – Reviews from (used in Seki et al. 2007) – AQUAINT-2 news corpus (used in Ernsting et al. 2007; He et al. 2007) – Internet Movie Database plot summaries (used in Robin Anil 2008; Yang 2008) – Reviews from Rotten Tomatoes (used in Robin Anil 2008)

2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Role of relevance feedback 그 동안 가장 성능에 효과적인 방법들 중 topical 검색 단계에서 Pseudo Relevance Feedback 을 사용하는 것 이 topic relevance MAP 의 향상을 일으켰다.

3. Challenges for opinion mining - Identifying comparative sentence - Leveraging domain-dependency - Opinion-topic association(NLP, POS tagging…) - Feature-based opinion mining - Contextual polarity of words - Use of social feature for opinion mining