Presentation is loading. Please wait.

Presentation is loading. Please wait.

Sentiment Analysis 유재명.

Similar presentations


Presentation on theme: "Sentiment Analysis 유재명."— Presentation transcript:

1 Sentiment Analysis 유재명

2 감정 분석 회귀분석/분류분석의 일종 문장의 감정(sentiment)을 예측 점수  회귀분석 긍/부정  분류분석

3 감정 분석의 방법 사전 기반 기계학습 기반

4 선형회귀분석을 이용한 사전 개발 회귀계수 > 0: 긍정 단어 회귀계수 < 0: 부정 단어 문제점: 단어가 너무 많음

5 과적합 overfitting 데이터를 지나치게 많이 설명하는 것 데이터 = 패턴 + 잡음
새로운 데이터를 잘 설명하지 못하게 됨 복잡한 모형일 수록 과적합이 잘 일어남

6

7

8

9

10

11

12 텍스트 분석에서 과적합 텍스트 분석에서 단어 = 변수 단어 많음  변수 많음  모형 복잡

13 정규화 Regularization 오차 = 실제값 – 예측값 OLS는 (오차2)만을 최소화
정규화는 (오차2 + 정규화 항)을 최소화

14 정규화 Regularization Lasso (L1): 회귀계수의 절댓값의 합 Ridge (L2): 회귀계수의 제곱의 합
어느 쪽이나 회귀계수가 작아짐 극단적인 예측이 줄어듦

15

16 Lasso vs. Ridge

17 Lasso vs. Ridge Lasso Ridge 회귀계수를 0으로 만드는 경향이 있음 사전을 만들 때 유용
회귀계수를 전반적으로 줄임 대체로 새로운 데이터의 예측력이 좋음

18 Elastic Net 오차2 + Lasso + Ridge Lasso와 Ridge를 모두 사용

19 선형모형의 장점과 한계 회귀계수의 해석이 쉬움 긍/부정 단어를 찾을 수 있음 과적합 우려가 적음 예측력 제한

20 선형모형의 장점과 한계 예측만 더 잘하고 싶다면 다른 모형 사용 SVM Random Forest XGBoost
Deep Learning

21 감정분석 = 회귀분석 종속변수가 ‘감정’일 뿐… 다른 변수도 통계적으로는 동일


Download ppt "Sentiment Analysis 유재명."

Similar presentations


Ads by Google