What Opinion mining?
Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion about Document of level (task in blogosphere) 4. Highlights importance of opinion mining
1. Introduction 2000년대에 들어서 오피니언 마이닝 분야의 연구들이 활발하게 진행 되었다. 그에 따른 다양한 개념과 용어들이 폭발적으로 생겨나고, 효율적인 방법론들도 생겨났다.
1.1 Fact based IR VS Opinion based IR 초기에 정보검색분야는 Google, Yahoo등 거대한 검색엔진회사들을 필두로 Fact(사실), Topic(주제)에 기반한 검색들이 이루어져 왔다. How does X feel about Y? 오피니언 마이닝은 사실기반의 데이터보다 사람들의 의중을 알고 싶어하고, 그것이 곧 고급정보가 된다.
2. Granularity-based opinion mining 1) Opinion detection process 1) Opinion detection process 1. 먼저 topic(주제)에 관련된 문서set을 검색한다. 2. 단어레벨에서 극성방향을 계산한다. (positive, negative, neutral) 극성방향이 정해지면, 극성강도를 계산한다. 3. 단어레벨의 극성방향, 정도를 계산한 것들을 결합하여 문장 혹은 단락의 극성방향, 극성강도를 계산한다. 4. 마찬가지로 문장레벨에서 계산된 것들을 결합하여 문서의 극성방향, 극성강도를 계산한다. 5. 최종적으로 Relvance여부, 오피니언 점수를 결합하여 final점수를 매긴다.
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing Esuli and Sebastiani(2006) Word-level sentiment analysis -Determine subjectivity of words in a document -Determine orientation or polarity of words a. Corpus-based approaches b. Dictionary-based approaches
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing a.Corpus-based approaches
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing PMI(Pointwise Mutual Information) 두 단어간의 상관관계를 수치화한 식 로그함수를 취함으로써… PMI =0 두 단어는 독립! PMI > 0 두 단어는 상관관계가 높다! PMI < 0 두 단어는 상관관계가 낮다! Word in seed set O(t) > 0 Positive! O(t) < 0 Negative! Positive seed set Negative seed set
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing b. Dictionary-based approach Using semantic relation => WordNet( 동의어관계, 상하관계 ) Using semantic relation + gloss definition => SentiWordNet Kamp et al(2004). Distance What gloss?
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing SentiWordNet(SWN) 3 Synset => Obj(s), Pos(s), Neg(s) each synset 0~1. Sum all synset 1.
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing WordNet Affect(Valitutti. 2004) WordNet, SentiWordNet을 통해 점수를 잘 매겼다 하더라도, 어떠한 요소들을 매길 것인가는 중요한 문제이다. 즉, WordNet에 적절한 도메인을 활용한다면 더 효과적일 것이다.
2. Granularity-based opinion mining 2) Word level processing 2) Word level processing 주관적인지 객관적인지 판단하는 것은 Corpus-based가 좋다. 그러나, 다양한 도메인내 에서 종합적인 극성 방향을 판단하는 것은 Dictionary-based가 좋다.
2. Granularity-based opinion mining 2) Sentence level processing 2) Sentence level processing Sentence-level sentiment analysis -Determine whether a sentence is subjective or objective. -Determine whether a sentence is positive or negative. 1)Sentence subjectivity identification 문장의 주관성을 판단하는 것은 우선적으로는 문장 내에 주관적인 단어를 찾는 것에 의존할 수 밖에 없다. Zang et al(2009) 강도 쎈 의견단어 하나가 문장 내에 모든 단어를 분석 하여 합친 결과보다 더 좋은 성능을 낸 결과를 발표 했다. Bruce, Wiebe 는 로그우도확률을 통해 통계적으로 형용사가 있는 문장이 주관성을 갖고 있을 확률이 높다는 것을 증명했다.
2. Granularity-based opinion mining 2) Sentence level processing 2) Sentence level processing Riloff et al(2003) 은 명사를 통해 문장의 주관성을 밝혀내는 것을 발표했다. (Naïve Bayes 사용 ) Yu and Hatzivassiloglou(2003) 은 문장의 유사도를 이용했다. 즉, 주관적인 문장들과 비슷한 유사도를 갖고 있다면 그 문장은 주관적인 문장일 확률이 높다는 것이다. (SIMFINDER 알고리즘, WordNet 사용 ) 2) Sentence polarity tagging - Number of Polar words - word-level polarity scores Seed 단어들과의 동시발생관계를 이용하여 점수를 매긴다.(PMI) 문장레벨에서는 POS(part-of-speech) 구성이 중요하다. 문장 안에 형용사, 부사, 동사가 있다면 최대의 정확성을 보인다.
2. Granularity-based opinion mining 2) Sentence level processing 2) Sentence level processing Prior polarity and Contextual polarity are different!! ex) John’s house is not beautiful at all. Major Contexts responsible for polarity shift of the terms. - 부정어 (not, neither, never…) 가 해당 극성언어를 감싸고 있다면, 극성은 무조건 부정으로 변경한다. - SWN 을 활용하여 의미적인 다의어에 대해서 판단한다. (strong#a#7 긍정 0.75 부정 0.0 strong#8# 긍정 0.0 부정 0.5) -Topic-Dependent contextual polarity (unpredictable film plot, unpredictable functional response)
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Using corpus-based dictionaries - Using ready-made dictionaries(GI, SentiWordNet) - Text classification approaches - Role of external data collections as a tool for query expansion and training data - Role of relevance feedback
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Using corpus-based dictionaries 의견어휘를 이용하여 의견문서를 찾아내는 방식이다. Internal corpus-based Gerani et al(2009) 외부의 데이터들을 사용하지 않고, 자체적으로 Corpus 를 구축하여 활용했다. External corpus-based Hui Yang and Si(2006), Seki(2007) 에서는 의견어휘를 아마존 사이트 리뷰들을 모아 구축했다. 27,544 개의 리뷰들을 모아서 긍정단어 들을 feature 로서 찾아냈다. 도메인 독립성과 성능 사이에 Trade-off 관계가 있다. External 방식은 외부에 다양하게 사용되고 있는 어휘집합들을 사용하여 일반화에 좋은 대신에 성능이 좀 떨어진다.
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Using ready-made dictionaries General Inquirer(GI), WordNet, SentiWordNet 잘 구축된 어휘망을 이용하기 때문에, 도메인에 독립적이고 오피니언 마이닝 에 일반적으로 사용하는 방법이다. GI 는 수동적으로 구성한 대규모 사전으로, SWN 이 출현하기 전, 의견을 찾기 위한 노력으로 만들어 졌다. 10,000 개 이상의 단어들을 넓은 범위의 감정 카테고리로서 제공한다.
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Text classification approaches Corpus, Dictionary… 감정어휘, 의견어휘에 관한 Lexicon-based approaches 들이 잘 되었다면, 그것들을 활용하는 Machine Learning 기술이 필요하다. SVM, Logistic Regression, Naïve Bayes… 컨셉에 맞는 ML 기법을 적용한다. SVM 은 ML 분야에서 가장 성능이 좋은 것으로 알려져 있고, 많이 사용된다.
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Role of external data collections as a tool for query expansion and training data Opinion detection 작업을 위해서 또는 classifier 를 위한 ML training 을 위해서 많은 경우 외부데이터 콜렉션을 사용한다. ML-training 을 위한 데이터들이 필요하다. Movie Review(Yahoo etc..), Customer Review(AMAZON), Digital Camera review etc..
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - external data collection – Yahoo Movie Review Data (used in Zhang and Zhang 2006) – Epinion Digital Camera Review data (used in Zhang and Zhang 2006) – Reuters Newswire Data (used in Zhang and Zhang 2006]) – Reviews from (used in Zhang and Yu 2006, 2007) – Reviews from (used in Seki et al. 2007) – AQUAINT-2 news corpus (used in Ernsting et al. 2007; He et al. 2007) – Internet Movie Database plot summaries (used in Robin Anil 2008; Yang 2008) – Reviews from Rotten Tomatoes (used in Robin Anil 2008)
2. Granularity-based opinion mining 3 ) Document level processing 3 ) Document level processing - Role of relevance feedback 그 동안 가장 성능에 효과적인 방법들 중 topical 검색 단계에서 Pseudo Relevance Feedback 을 사용하는 것 이 topic relevance MAP 의 향상을 일으켰다.
3. Challenges for opinion mining - Identifying comparative sentence - Leveraging domain-dependency - Opinion-topic association(NLP, POS tagging…) - Feature-based opinion mining - Contextual polarity of words - Use of social feature for opinion mining