텍스트 분석 ㈜ 퀀트랩
기본 용어 형태소: 의미가 있는 가장 작은 단위 단어: 자립성이 있는 가장 작은 단위 말뭉치(corpus): 대량의 언어 자료
전산언어학과 자연어 처리 전산언어학 Computational Linguistics 자연어 처리 Natural Language Processing
NLP의 두 분야 NL Understanding NG Generation
텍스트 데이터 분석의 과정 Web Scraping Content Extraction Tokenization Sequential Data Analysis Term-Document Matrix Regression Classification Clustering Dimensionality Reduction
형태소 분석 날씨가 너무 더워 날씨/N 가/J 너무/M 덥다/P 어/E
Bag of Words 문법적인 측면을 포함해서 분석은 어려움 문서에서 단어의 수만 가지고 분석
Term-Document Matrix 에게 만들다 아름다운 한글 문서 1 1 2 문서 2 3 문서 3 문서 4
TDM으로 할 수 있는 것들 시각화 단어 구름 의미망 일반적인 통계기법 거의 모두 상관 회귀/분류 군집/차원 축소
Sentiment Analysis 감정분석
감정 분석 회귀분석/분류분석의 일종 문장의 감정(sentiment)을 예측 점수 회귀분석 긍/부정 분류분석
감정 분석의 방법 사전 기반 기계학습 기반
선형회귀분석을 이용한 사전 개발 회귀계수 > 0: 긍정 단어 회귀계수 < 0: 부정 단어 문제점: 단어가 너무 많음
과적합 overfitting 데이터를 지나치게 많이 설명하는 것 데이터 = 패턴 + 잡음 새로운 데이터를 잘 설명하지 못하게 됨 복잡한 모형일 수록 과적합이 잘 일어남
텍스트 분석에서 과적합 텍스트 분석에서 단어 = 변수 단어 많음 변수 많음 모형 복잡
정규화 Regularization 오차 = 실제값 – 예측값 OLS는 (오차2)만을 최소화 정규화는 (오차2 + 정규화 항)을 최소화
정규화 Regularization Lasso (L1): 회귀계수의 절댓값의 합 Ridge (L2): 회귀계수의 제곱의 합 어느 쪽이나 회귀계수가 작아짐 극단적인 예측이 줄어듦
Lasso vs. Ridge
Lasso vs. Ridge Lasso Ridge 회귀계수를 0으로 만드는 경향이 있음 사전을 만들 때 유용 회귀계수를 전반적으로 줄임 대체로 새로운 데이터의 예측력이 좋음
Elastic Net 오차2 + Lasso + Ridge Lasso와 Ridge를 모두 사용
선형모형의 장점과 한계 회귀계수의 해석이 쉬움 긍/부정 단어를 찾을 수 있음 과적합 우려가 적음 예측력 제한
선형모형의 장점과 한계 예측만 더 잘하고 싶다면 다른 모형 사용 SVM Random Forest XGBoost Deep Learning
감정분석 = 회귀분석 종속변수가 ‘감정’일 뿐… 다른 변수도 통계적으로는 동일