Sentiment analysis support vector machines with diverse information sources 2007. 11. 14 데이터베이스 연구실 이 상환
Contents 1. Introduction 2. Motivation 3. Methods 4. Experiments - 3.1 Semantic orientation with PMI - 3.2 Osgood semantic differentiation with WordNet - 3.3 Topic proximity and syntactic-relation features - 3.4 Support Vector Machines 4. Experiments 5. Results 6. Discussion - 6.1 Other issues 7. Conclusion
Abstract SVM을 사용한 감정분석법 소개 결과 시사점 구와 형용사의 여러 가지 호의성 척도 텍스트의 토픽 지식 토픽정보에 하이브리드 모델을 적용해도 더 나은 결과가 나옴
1. Introduction(1/2) 자연어 문장 내에서 특정한 주제에 대한 호의적인 감정과 비호의적인 감정을 인식하는 연구 증가 뉴스그룹에서 욕설이나 음란한 내용 필터링 검색 엔진 응답 정보 증가 대중 여론의 경향과 고객 의견 분석 감정인식 어려운점 자연어로 된 의견은 미묘하고 복잡한 방식으로 표현된 경우가 많음 n-그램, 키워드 식별 방식과 같은 텍스트 분류 방식으로 해결할 수 없음 단어나 구의 의미론적 영향을 인식하는 것 자체가 쉽지 않은 과제 텍스트의 전반적인 감정은 구문을 분해한 조각의 감정과 동일하지 않음 부정적인 리뷰는 긍정적인 구를 많이 포함하면서도 매우 부정적인 어조를 유지할 수 있으며, 그 반대도 흔함
1. Introduction(2/2) 본 논문은 SVM을 사용하여 긍정적 또는 부정적인 텍스트로 분류하는 기법을 소개 실험결과 선택된 단어와 구에 값을 할당하는데 사용하는 방법 설명 단어와 구를 결합하여 텍스트 분류 모델을 만드는 방법 소개 호의성 값이 할당된 구와 토픽의 의미요소 클래스를 설명 토픽에 대한 핸드 애노테이션이 없는 데이터와 핸드 애노테이션이 있는 데이터를 모두 사용한 실험 결과 소개 실험결과 핸드 애노테이션 없는 경우 : 이전 모델에 비해 더 나은 결과를 얻음 핸드 애노테이션 있는 경우 : 텍스트의 토픽에 대한 지식이 있으면 이 방법을 더욱 개선시킬 수 있음을 시사
2. Motivation 텍스트 감정 분석의 반복되는 도전 특정 텍스트는 전체 텍스트의 어조를 표현하는 부분과 관련 있음 이전에는 단어와 구의 정서적인 어조에 따라 특성을 찾는 연구 수행 Turney와 Littman, 2003; Turney, 2002; Kamps외 다수, 2002; Hatzivassiloglou와 Wiebe, 2000; Hatzivassiloglou와 McKeown, 2002; Wiebe, 2000 각 구의 가치는 텍스트의 전반적인 감정과 거의 관계가 없을 수 있음 thwarted expectations : Pang외 다수(2002) “어떻게 이들이 가장 독창성이 없고 을씨년스럽고 넋두리하는 듯한 느낌을 주는 밴드가 아니라고 할 수 있을까? 왜냐하면...” 리뷰어가 처음에 느꼈던 불안을 설명하면서 나오는데 곧바로 “모르겠다. 하지만 이건 사람들이 기대한 그런 것이 아니잖아. 절대로 아니지.”라는 문장이 이어짐 문장들이 전달하는 매우 긍정적인 감정은 각 부분을 합친 내용에서 기대하는 것과 많은 차이가 있음 구의 부분적 표현과 텍스트 전체 의미 사이의 정서적인 어조의 격차를 만듬 빈정대는 표현, 어림잡는 표현, 주제에서 벗어난 표현 등 이 연구의 동기는 구의 호의적인 내용을 측정하는 방식을 텍스트의 일반적인 분류 도구에 포함시키는 것
3. Method - Semantic orientation with PMI Semantic Orientation(SO) Hatzivassiloglou와 McKeown, 2002 단어나 구에 의해 표현되는 긍정적 또는 부정적인 감정에 해당하는 실수 척도 Turney(2002)가 사용한 방법을 적용하여 텍스트 내의 선택된 구에 대해 가치를 도출 가치구의 SO는 특정 단어를 사용한 구문의 PMI를 근거로 결정 Pointwise mutual information(PMI) p(w1 & w2) PMI (w1, w2) = log2 (----------- ) p(w1) p(w2) p(w1 & w2)는 w1과 w2가 동시에 발생할 확률 최종 SO 등식 SO (phrase) = PMI (phrase, “excellent”) – PMI (phrase, “poor”) “excellent”라는 단어의 PMI와 “poor”이라는 단어의 PMI의 차이 확률은 AltaVista Advanced Search 엔진을 조회하여 추산(NEAR 연산) JJ : Adjective RB : Adverbs VB : Verb VBD : Verb+ed VBN : Verb+en VBG : Verb+ing
3. Method - Osgood semantic differentiation with WordNet WordNet 관계를 이용 형용사의 정서적인 의미와 관련된 세 가지 값을 도출하는 Kamps와 Marx(2002)의 방법 사용(더 많은 의미요소 유형 도출) 세 가지 값은 찰스 Osgood의 의미 차별화 이론(Osgood 외 다수, 1957) 역동성(potency, 강함, 약함) 활동성(activity, 능동적, 수동적) 평가성(evaluative, 좋음, 나쁨) 이 값은 WordNet에서 문제의 형용사와 주어진 계수에 적합한 단어 쌍 사이의 상대적 최소 경로 길이(MPL)을 측정하여 도출 평가성 계수(EVA)의 경우, 형용사와 “good” 과 “bad” 사이의 MPL 비교 동의성을 기준으로 서로 반대되는 정반대되는 단어에 연결된 형용사만 고려 이 방법으로 5410개의 형용사 발견 본 연구에서는 텍스트의 모든 형용사에 대해 이 계수들 각각의 값을 평균 (텍스트의 세 가지 실질 가치로 평가된 의미요소 값) 이 값이 SVM 모델에 추가
3. Method - Topic proximity and syntactic-relation features(1/2) 특정한 주제와 관련하여 표현된 감정은 주제 자체를 참조하여 찾음 Natsukawa와 Yi(2003)의 이론과 일치 전체 텍스트에서 정서적 내용을 수집하면 특정 주제에 대한 텍스트의 감정을 알려주는 가장 일반적인 답을 얻을 수 있음 핵심은 구에서 도출된 관련된 의미 방향 값을 텍스트 모델에 포함 다양한 소스에서 나온 의미 방향 값을 채택하고 SVM을 사용하여 클래스로 분리시킬 수 있는 피쳐 공간을 만드는데 그 값을 사용 응용 분야, 감정을 평가하는데 토픽을 활용 여론에 근거한 텍스트의 경우 호의적이거나 비호의적인 하나의 주요 주제가 있지만, 2차 주제 발견에 도움이 됨 주요 주제는 책 -> 2차 주제 : 리뷰하는 사람이 저자에 대한 전반적인 의견 제품 리뷰 -> 2차 주제 : 제품을 제조하는 회사에 대한 의견 두 번째 데이터셋에서, Open Ontology Forge 애노테이션 툴을 사용 리뷰 대상 레코드의 참조란에 THIS_WORK 태그,리뷰 대상 아티스트 참조란에 THIS_ARTIST 태그 붙임 엔티티에 태그를 붙이면, 토픽 엔티티 및 3.1절에서 설명한 것과 비슷한 value phrase 사이의 다양한 관계를 표현하는 의미요소를 추출
3. Method - Topic proximity and syntactic-relation features(2/2) 클래스 Turney value : 텍스트의 모든 value phrase SO 값의 평균값 In sentence with THIS WORK : 문장 내에서 나타나는 모든 value phrase 평균값. Following THIS WORK : reference 다음에 오는 모든 value phrase 평균 값. Preceding THIS WORK : reference 앞에 오는 모든 value phrase 평균 값 In sentence with THIS ARTIST : 아티스트를 참조한다는 점 외에는 위와 동일 Following THIS ARTIST : 아티스트를 참조한다는 점 외에는 위와 동일 Preceding THIS ARTIST : 아티스트를 참조한다는 점 외에는 위와 동일 Feature는 다음을 포함하여 사용 Text-wide EVA : 텍스트내 모든 형용사의 평균 EVA 값 Text-wide POT : 텍스트내 모든 형용사의 평균 POT 값 Text-wide ACT : 텍스트내 모든 형용사의 평균 ACT 값 TOPIC-sentence EVA : 텍스트내 토픽과 문장을 공유하는 모든 형용사의 평균 EVA 값 TOPIC-sentence POT : 텍스트내 토픽과 문장을 공유하는 모든 형용사의 평균 POT 값 TOPIC-sentence ACT : 텍스트내 토픽과 문장을 공유하는 모든 형용사의 평균 ACT 값 각 텍스트를 이런 실질 가치 feature들의 벡터 표현 : SVM 모델의 기초 형성 텍스트를 대표하는 feature 벡터 다른 요소들과 결합 유니그램 스타일 의미요소, Osgood 값, PMI 값
3. Method - Support Vector Machines SVM은 마진이 최대가 되는 Optimal separating hyperplan을 구함 마진이란 OSH와 평행하면서 샘플데이터를 만날 때까지 확장한 폭 마진의 기준이 되는 샘플 데이터들을 support vectors라고 함
4. Experiments 실험순서 및 방법 실험대상 SVM은 Kudo의 TinySVM 소프트웨어 활용하여 구현 가치구를 추출한 다음 3.1절에서 설명한 방법으로 가치구의 값 도출 그 후에 이 값을 의미요소로 사용하여 supervised learning을 수행 트레이닝 데이터에서 평점이 평균 이하인 리뷰는 부정적, 평균 이상인 리뷰는 긍정적으로 분류 실험대상 1번째 데이터셋은 총 1380개의 imdb.com 영화 리뷰 대략 절반은 긍정적이었고 절반은 부정적임 Pang 외 다수(2002)에서 제시한 것과 동일(결과를 직접 비교하기 위해) 3-fold cross validation 결과 리포트 (결과 뒷받침하기 위해10-fold cross validation 결과 리포트) 2번째 데이터셋은 Pitchfork Media 온라인 레코드 리뷰 간행물 100개 리뷰 각 리뷰 토픽을 핸드 애노테이션(수작업) 1번째 데이터셋에서 사용한 의미요소 외에도 3.3절에서 설명한 의미요소 사용 100, 20, 10 및 5-fold cross validation 사용 (데이터의 양 및 결과 정확도 극대화) SVM은 Kudo의 TinySVM 소프트웨어 활용하여 구현
5. Results – (1/2) 토픽 정보가 없는 첫 번째 데이터셋 결과 Osgood 값, Turney 값 도움이 되지 않음 Turney 값 하나만 사용한 SVM의 경우 : 정확도 68.3% Osgood의 값은 상당히 더 낮음 (정확도가 56.2% 불과) Lemma는 모든 실험에서 유니그램보다 더 좋은 결과 산출 Lemma 모델로도 Turney와 Osgood의 의미요소들로 보강한 모델보다 더 좋은 결과를 얻을 수 있음 하이브리드 SVM 결과가 가장 좋음 3-fold 실험 : 84.6%, 10-fold 실험 : 86.0%
5. Results – (2/2) 두 번째 데이터셋 결과 Osgood 의미요소를 포함시켜도 모델링이 개선되지 않음 PMI값을 사용하면 개선됨 (토픽 관계가 도움이 됨을 의미) 하이브리드 SVM이 가장 좋은 결과가 나옴 4가지 n-fold 교차 검증 실험에 대한 하이브리드 SVM의 평균 점수 : 86.5% 결과가 두 번째로 좋은 모델의 평균 점수는 85%
6. Discussion 이전의 “bag of word” 방식에만 전적으로 의존했던 SVM에 여러 가지 새로운 정보 소스를 의미요소로 포함 토픽 관계 및 근접성이 이득이 된다는 직관적인 사실도 현재의 실험에서 나타남 기타 이슈 AltaVista Search에 도메인 컨텍스트를 추가하면 어느 정도 성능 개선 “unpredictable”(예측할 수 없는)이라는 단어 일반적으로 영화 플롯을 묘사할 때는 일반적으로 긍정적 자동차나 정치가를 묘사할 때는 부정적 토픽 관련 단어 제약조건을 쿼리에 추가하여 도메인 제한 문제 힛 카운트(hit count)가 크게 줄어 들음(이익 상쇄) 앞으로 검색 엔진이 계속 개선되고 인터넷이 계속 성장하면 더 많은 가능성이 열리게 될 것임
7. Conclusion 이 논문에서 소개한 방식 구와 단어를 SVM 모델링을 위한 의미요소로 포함 이전보다 더 유용한 방식으로 활용할 구와 단어에 의미론적 가치를 할당 유니그램 및 분류 정리된 유니그램에 근거한 SVM과 연계하여 이런 의미요소들을 사용하는 SVM의 결합 사용하지 않는 모델보다 더 좋은 결과를 얻음