Sentiment analysis support vector machines with diverse information sources 2007. 11. 14 데이터베이스 연구실 이 상환.

Slides:



Advertisements
Similar presentations
학자금 신청방법 대학현장협업부.  신청서 작성 시 공인인증서가 필요합니다 공인인증서란 ? - 전자상거래를 할 때 신원을 확인하고, 문서의 위조와 변조, 거래 사실의 부인 방지 등을 목적으로 공인인증기관 (CA) 이 발행하는 전자적 정보로서, 일종의 사이버 거래용 인감증명서이다.
Advertisements

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 연세대학교 문헌정보학과 송민
일과 삶의 균형잡힌 조화를 통한 올바른 직업생활을 지원하는. CONTENTS 왜 인성교육인가 ? 01 인성교육 전문가 양성 교육과정 소개 02 인성교육 전문가 양성과정 특장점 / 기대효과 03.
DNN 을 활용한 메일 분류 임영욱 백창훈 정강우.
일본주식시장의 신 고레가와긴조 투자전략 6 조 안승권. 신문수 발표자 : 신 문 수. 출 생 : 1897 효고현에서 출생 학 력 : 초등학교졸업, 사업가 1992 년 95 세 사망 유일한 자서전 1981 년 스미토모 금속광산 주식매매 200 억엔 벌다⇒ 일본 소득세 납세.
한글자모의 새로운 교수법 기초반의 한글자모 지도와 기초문법지도의 구체적 안내 뉴져지 한국학교 교장 전현자.
2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필 목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
ProQuest 인터페이스를 이용한 데이터베이스 검색/활용 방법.
2009개정 중등 국어과 교육과정 울산광역시교육청 교육과정 컨설팅단 : 정일진.
Extracting Schedule Information from Korean
SW사업자신고 안내
달라지는 노동법 개정 내용 노무법인 正道 잠시나마… 주요 노동관계법 개정내용 3. 마무리 Contents
자연어처리 기초 번역 엔진 연구팀 손성준.
Hierarchical Classification: Comparison with Flat Method
과제도출하기 액션러닝.
Technical Writing (기술글쓰기)
SNS의 개인행위 특성요인이 사용의도에 미치는 영향
-을 거예요 앤디 씨, 지난 방학 때 뭐 했어요? 그럼 다음 방학 때도 여행할 거예요? 여행했어요. 네, 여행할 거예요.
목차 Main Homepage 소개 III. Collections I. Science Magazine
Information Retrieval (Chapter 4: 질의언어)
ANNUAL REVIEWS 마지막 업데이트:
1. 시멘틱웹(Semantic Web) Preview 항목 상세내역 개요 기출여부 관련KeyWord 추천사이트
Critical Success Factors for Project Management Information System in Construction 김건웅.
Stroke pattern analysis and synthesis
Accelerometer Data Collection and Preprocessing
논 문 작 성 법 방재안전관리전공 정 상 섬 교수.
인간의 신경인지기전의 모델에 기반한 추론/학습기술 개발
Technological Forecasting & social change(2014)
A Survey of Affect Recognition Methods :
An Intra-Task DVFS Technique based on Statistical Analysis of Hardware Events 순천향대학교 컴퓨터학부 윤희성.
for Robust Facial Landmark Localization
머신 러닝 2 ㈜ 퀀트랩.
12장. 혼성 모델 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
사회복지프로그램 기획 및 평가 -로직모델을 중심으로 김유심(가양4종합사회복지관장) 프로그램의 개발과 평가의 개념
McGraw-Hill Technology Education
Progress Seminar 권순빈.
American Medical Association JAMA & Archives Journals
‘그린나래호텔’은 대한민국 공군에서 해운대 해수욕장변에 건축한 군의 복지향상을 위해 지은 군휴양소 건물입니다.
생산요소시장 © 2007 Thomson South-Western.
Science 마지막 업데이트:
(주)신원데이터넷 BMJ (주)신원데이터넷
Asymmetric Aldol Additions: A Guided-Inquiry Laboratory Activity on Catalysis
Taylor & Francis Informa World
Macromolecule analysis Ⅱ-② TLC(thin-layer chromatography)
SAGE Last updated: Feb 2012.
목적을 갖고 살아요!.
삼안 인트라넷 메뉴얼.
“Poster Main Title” Author and co-author names
Sentiment Analysis 유재명.
Data Analytics for Healthcare
병원인적자원관리 3강. 교육훈련 경희대학교 의료경영센터 백 미 라.
나비는 두 꽃 중에서 어느 꽃으로 날아 갈까요? 한 장미꽃은 향기가 나고 한 장미꽃은 악취가 납니다 두 개의 장미꽃이 있습니다
기업의 조직 건강도 체크리스트 Wisdom21 Management Consulting
Macromolecule analysis Ⅰ
CONTENTS Ⅰ. 대회목적 Ⅱ. 대회개요 Ⅲ. 대회요강 Ⅳ. 대회규정 Ⅴ. 운영계획 Ⅵ. 홍보계획 Ⅶ. 예산계획.
Advanced Data Analytics 데이터분석 전문가
호손 실험 (Hawthorne Experiments)
Final Team Project 이 종철 김 용환
SNU Programming Language
ANNUAL REVIEWS 마지막 업데이트:
EBSCO KOREA.
검색엔진의 이해 정보사회와 컴퓨터- 팀프로젝트 황연옥 최은숙 이한아
Students’ research activity TDK
연구 진행 상황 보고서 Insulin Pump CPF Xproject 2주전 계획 연구 결과 문제점 및 대책 목표 및 계획
2009개정 중등 국어과 교육과정.
제 11장 언어 발달 박하나.
관리자 페이지에서 관리자 승인 1. 정기권 신규고객 1. 로그인 화면 2. 차량등록여부 확인 3. 개인정보 활용 동의
Presentation transcript:

Sentiment analysis support vector machines with diverse information sources 2007. 11. 14 데이터베이스 연구실 이 상환

Contents 1. Introduction 2. Motivation 3. Methods 4. Experiments - 3.1 Semantic orientation with PMI - 3.2 Osgood semantic differentiation with WordNet - 3.3 Topic proximity and syntactic-relation features - 3.4 Support Vector Machines 4. Experiments 5. Results 6. Discussion - 6.1 Other issues 7. Conclusion

Abstract SVM을 사용한 감정분석법 소개 결과 시사점 구와 형용사의 여러 가지 호의성 척도 텍스트의 토픽 지식 토픽정보에 하이브리드 모델을 적용해도 더 나은 결과가 나옴

1. Introduction(1/2) 자연어 문장 내에서 특정한 주제에 대한 호의적인 감정과 비호의적인 감정을 인식하는 연구 증가 뉴스그룹에서 욕설이나 음란한 내용 필터링 검색 엔진 응답 정보 증가 대중 여론의 경향과 고객 의견 분석 감정인식 어려운점 자연어로 된 의견은 미묘하고 복잡한 방식으로 표현된 경우가 많음 n-그램, 키워드 식별 방식과 같은 텍스트 분류 방식으로 해결할 수 없음 단어나 구의 의미론적 영향을 인식하는 것 자체가 쉽지 않은 과제 텍스트의 전반적인 감정은 구문을 분해한 조각의 감정과 동일하지 않음 부정적인 리뷰는 긍정적인 구를 많이 포함하면서도 매우 부정적인 어조를 유지할 수 있으며, 그 반대도 흔함

1. Introduction(2/2) 본 논문은 SVM을 사용하여 긍정적 또는 부정적인 텍스트로 분류하는 기법을 소개 실험결과 선택된 단어와 구에 값을 할당하는데 사용하는 방법 설명 단어와 구를 결합하여 텍스트 분류 모델을 만드는 방법 소개 호의성 값이 할당된 구와 토픽의 의미요소 클래스를 설명 토픽에 대한 핸드 애노테이션이 없는 데이터와 핸드 애노테이션이 있는 데이터를 모두 사용한 실험 결과 소개 실험결과 핸드 애노테이션 없는 경우 : 이전 모델에 비해 더 나은 결과를 얻음 핸드 애노테이션 있는 경우 : 텍스트의 토픽에 대한 지식이 있으면 이 방법을 더욱 개선시킬 수 있음을 시사

2. Motivation 텍스트 감정 분석의 반복되는 도전 특정 텍스트는 전체 텍스트의 어조를 표현하는 부분과 관련 있음 이전에는 단어와 구의 정서적인 어조에 따라 특성을 찾는 연구 수행 Turney와 Littman, 2003; Turney, 2002; Kamps외 다수, 2002; Hatzivassiloglou와 Wiebe, 2000; Hatzivassiloglou와 McKeown, 2002; Wiebe, 2000 각 구의 가치는 텍스트의 전반적인 감정과 거의 관계가 없을 수 있음 thwarted expectations : Pang외 다수(2002) “어떻게 이들이 가장 독창성이 없고 을씨년스럽고 넋두리하는 듯한 느낌을 주는 밴드가 아니라고 할 수 있을까? 왜냐하면...” 리뷰어가 처음에 느꼈던 불안을 설명하면서 나오는데 곧바로 “모르겠다. 하지만 이건 사람들이 기대한 그런 것이 아니잖아. 절대로 아니지.”라는 문장이 이어짐 문장들이 전달하는 매우 긍정적인 감정은 각 부분을 합친 내용에서 기대하는 것과 많은 차이가 있음 구의 부분적 표현과 텍스트 전체 의미 사이의 정서적인 어조의 격차를 만듬 빈정대는 표현, 어림잡는 표현, 주제에서 벗어난 표현 등 이 연구의 동기는 구의 호의적인 내용을 측정하는 방식을 텍스트의 일반적인 분류 도구에 포함시키는 것

3. Method - Semantic orientation with PMI Semantic Orientation(SO) Hatzivassiloglou와 McKeown, 2002 단어나 구에 의해 표현되는 긍정적 또는 부정적인 감정에 해당하는 실수 척도 Turney(2002)가 사용한 방법을 적용하여 텍스트 내의 선택된 구에 대해 가치를 도출 가치구의 SO는 특정 단어를 사용한 구문의 PMI를 근거로 결정 Pointwise mutual information(PMI) p(w1 & w2) PMI (w1, w2) = log2 (----------- ) p(w1) p(w2) p(w1 & w2)는 w1과 w2가 동시에 발생할 확률 최종 SO 등식 SO (phrase) = PMI (phrase, “excellent”) – PMI (phrase, “poor”) “excellent”라는 단어의 PMI와 “poor”이라는 단어의 PMI의 차이 확률은 AltaVista Advanced Search 엔진을 조회하여 추산(NEAR 연산) JJ : Adjective RB : Adverbs VB : Verb VBD : Verb+ed VBN : Verb+en VBG : Verb+ing

3. Method - Osgood semantic differentiation with WordNet WordNet 관계를 이용 형용사의 정서적인 의미와 관련된 세 가지 값을 도출하는 Kamps와 Marx(2002)의 방법 사용(더 많은 의미요소 유형 도출) 세 가지 값은 찰스 Osgood의 의미 차별화 이론(Osgood 외 다수, 1957) 역동성(potency, 강함, 약함) 활동성(activity, 능동적, 수동적) 평가성(evaluative, 좋음, 나쁨) 이 값은 WordNet에서 문제의 형용사와 주어진 계수에 적합한 단어 쌍 사이의 상대적 최소 경로 길이(MPL)을 측정하여 도출 평가성 계수(EVA)의 경우, 형용사와 “good” 과 “bad” 사이의 MPL 비교 동의성을 기준으로 서로 반대되는 정반대되는 단어에 연결된 형용사만 고려 이 방법으로 5410개의 형용사 발견 본 연구에서는 텍스트의 모든 형용사에 대해 이 계수들 각각의 값을 평균 (텍스트의 세 가지 실질 가치로 평가된 의미요소 값) 이 값이 SVM 모델에 추가

3. Method - Topic proximity and syntactic-relation features(1/2) 특정한 주제와 관련하여 표현된 감정은 주제 자체를 참조하여 찾음 Natsukawa와 Yi(2003)의 이론과 일치 전체 텍스트에서 정서적 내용을 수집하면 특정 주제에 대한 텍스트의 감정을 알려주는 가장 일반적인 답을 얻을 수 있음 핵심은 구에서 도출된 관련된 의미 방향 값을 텍스트 모델에 포함 다양한 소스에서 나온 의미 방향 값을 채택하고 SVM을 사용하여 클래스로 분리시킬 수 있는 피쳐 공간을 만드는데 그 값을 사용 응용 분야, 감정을 평가하는데 토픽을 활용 여론에 근거한 텍스트의 경우 호의적이거나 비호의적인 하나의 주요 주제가 있지만, 2차 주제 발견에 도움이 됨 주요 주제는 책 -> 2차 주제 : 리뷰하는 사람이 저자에 대한 전반적인 의견 제품 리뷰 -> 2차 주제 : 제품을 제조하는 회사에 대한 의견 두 번째 데이터셋에서, Open Ontology Forge 애노테이션 툴을 사용 리뷰 대상 레코드의 참조란에 THIS_WORK 태그,리뷰 대상 아티스트 참조란에 THIS_ARTIST 태그 붙임 엔티티에 태그를 붙이면, 토픽 엔티티 및 3.1절에서 설명한 것과 비슷한 value phrase 사이의 다양한 관계를 표현하는 의미요소를 추출

3. Method - Topic proximity and syntactic-relation features(2/2) 클래스 Turney value : 텍스트의 모든 value phrase SO 값의 평균값 In sentence with THIS WORK : 문장 내에서 나타나는 모든 value phrase 평균값. Following THIS WORK : reference 다음에 오는 모든 value phrase 평균 값. Preceding THIS WORK : reference 앞에 오는 모든 value phrase 평균 값 In sentence with THIS ARTIST : 아티스트를 참조한다는 점 외에는 위와 동일 Following THIS ARTIST : 아티스트를 참조한다는 점 외에는 위와 동일 Preceding THIS ARTIST : 아티스트를 참조한다는 점 외에는 위와 동일 Feature는 다음을 포함하여 사용 Text-wide EVA : 텍스트내 모든 형용사의 평균 EVA 값 Text-wide POT : 텍스트내 모든 형용사의 평균 POT 값 Text-wide ACT : 텍스트내 모든 형용사의 평균 ACT 값 TOPIC-sentence EVA : 텍스트내 토픽과 문장을 공유하는 모든 형용사의 평균 EVA 값 TOPIC-sentence POT : 텍스트내 토픽과 문장을 공유하는 모든 형용사의 평균 POT 값 TOPIC-sentence ACT : 텍스트내 토픽과 문장을 공유하는 모든 형용사의 평균 ACT 값 각 텍스트를 이런 실질 가치 feature들의 벡터 표현 : SVM 모델의 기초 형성 텍스트를 대표하는 feature 벡터 다른 요소들과 결합 유니그램 스타일 의미요소, Osgood 값, PMI 값

3. Method - Support Vector Machines SVM은 마진이 최대가 되는 Optimal separating hyperplan을 구함 마진이란 OSH와 평행하면서 샘플데이터를 만날 때까지 확장한 폭 마진의 기준이 되는 샘플 데이터들을 support vectors라고 함

4. Experiments 실험순서 및 방법 실험대상 SVM은 Kudo의 TinySVM 소프트웨어 활용하여 구현 가치구를 추출한 다음 3.1절에서 설명한 방법으로 가치구의 값 도출 그 후에 이 값을 의미요소로 사용하여 supervised learning을 수행 트레이닝 데이터에서 평점이 평균 이하인 리뷰는 부정적, 평균 이상인 리뷰는 긍정적으로 분류 실험대상 1번째 데이터셋은 총 1380개의 imdb.com 영화 리뷰 대략 절반은 긍정적이었고 절반은 부정적임 Pang 외 다수(2002)에서 제시한 것과 동일(결과를 직접 비교하기 위해) 3-fold cross validation 결과 리포트 (결과 뒷받침하기 위해10-fold cross validation 결과 리포트) 2번째 데이터셋은 Pitchfork Media 온라인 레코드 리뷰 간행물 100개 리뷰 각 리뷰 토픽을 핸드 애노테이션(수작업) 1번째 데이터셋에서 사용한 의미요소 외에도 3.3절에서 설명한 의미요소 사용 100, 20, 10 및 5-fold cross validation 사용 (데이터의 양 및 결과 정확도 극대화) SVM은 Kudo의 TinySVM 소프트웨어 활용하여 구현

5. Results – (1/2) 토픽 정보가 없는 첫 번째 데이터셋 결과 Osgood 값, Turney 값 도움이 되지 않음 Turney 값 하나만 사용한 SVM의 경우 : 정확도 68.3% Osgood의 값은 상당히 더 낮음 (정확도가 56.2% 불과) Lemma는 모든 실험에서 유니그램보다 더 좋은 결과 산출 Lemma 모델로도 Turney와 Osgood의 의미요소들로 보강한 모델보다 더 좋은 결과를 얻을 수 있음 하이브리드 SVM 결과가 가장 좋음 3-fold 실험 : 84.6%, 10-fold 실험 : 86.0%

5. Results – (2/2) 두 번째 데이터셋 결과 Osgood 의미요소를 포함시켜도 모델링이 개선되지 않음 PMI값을 사용하면 개선됨 (토픽 관계가 도움이 됨을 의미) 하이브리드 SVM이 가장 좋은 결과가 나옴 4가지 n-fold 교차 검증 실험에 대한 하이브리드 SVM의 평균 점수 : 86.5% 결과가 두 번째로 좋은 모델의 평균 점수는 85%

6. Discussion 이전의 “bag of word” 방식에만 전적으로 의존했던 SVM에 여러 가지 새로운 정보 소스를 의미요소로 포함 토픽 관계 및 근접성이 이득이 된다는 직관적인 사실도 현재의 실험에서 나타남 기타 이슈 AltaVista Search에 도메인 컨텍스트를 추가하면 어느 정도 성능 개선 “unpredictable”(예측할 수 없는)이라는 단어 일반적으로 영화 플롯을 묘사할 때는 일반적으로 긍정적 자동차나 정치가를 묘사할 때는 부정적 토픽 관련 단어 제약조건을 쿼리에 추가하여 도메인 제한 문제 힛 카운트(hit count)가 크게 줄어 들음(이익 상쇄) 앞으로 검색 엔진이 계속 개선되고 인터넷이 계속 성장하면 더 많은 가능성이 열리게 될 것임

7. Conclusion 이 논문에서 소개한 방식 구와 단어를 SVM 모델링을 위한 의미요소로 포함 이전보다 더 유용한 방식으로 활용할 구와 단어에 의미론적 가치를 할당 유니그램 및 분류 정리된 유니그램에 근거한 SVM과 연계하여 이런 의미요소들을 사용하는 SVM의 결합 사용하지 않는 모델보다 더 좋은 결과를 얻음