Sentiment Analysis 유재명
감정 분석 회귀분석/분류분석의 일종 문장의 감정(sentiment)을 예측 점수 회귀분석 긍/부정 분류분석
감정 분석의 방법 사전 기반 기계학습 기반
선형회귀분석을 이용한 사전 개발 회귀계수 > 0: 긍정 단어 회귀계수 < 0: 부정 단어 문제점: 단어가 너무 많음
과적합 overfitting 데이터를 지나치게 많이 설명하는 것 데이터 = 패턴 + 잡음 새로운 데이터를 잘 설명하지 못하게 됨 복잡한 모형일 수록 과적합이 잘 일어남
텍스트 분석에서 과적합 텍스트 분석에서 단어 = 변수 단어 많음 변수 많음 모형 복잡
정규화 Regularization 오차 = 실제값 – 예측값 OLS는 (오차2)만을 최소화 정규화는 (오차2 + 정규화 항)을 최소화
정규화 Regularization Lasso (L1): 회귀계수의 절댓값의 합 Ridge (L2): 회귀계수의 제곱의 합 어느 쪽이나 회귀계수가 작아짐 극단적인 예측이 줄어듦
Lasso vs. Ridge
Lasso vs. Ridge Lasso Ridge 회귀계수를 0으로 만드는 경향이 있음 사전을 만들 때 유용 회귀계수를 전반적으로 줄임 대체로 새로운 데이터의 예측력이 좋음
Elastic Net 오차2 + Lasso + Ridge Lasso와 Ridge를 모두 사용
선형모형의 장점과 한계 회귀계수의 해석이 쉬움 긍/부정 단어를 찾을 수 있음 과적합 우려가 적음 예측력 제한
선형모형의 장점과 한계 예측만 더 잘하고 싶다면 다른 모형 사용 SVM Random Forest XGBoost Deep Learning
감정분석 = 회귀분석 종속변수가 ‘감정’일 뿐… 다른 변수도 통계적으로는 동일