Presentation is loading. Please wait.

Presentation is loading. Please wait.

텍스트 분석 ㈜ 퀀트랩.

Similar presentations


Presentation on theme: "텍스트 분석 ㈜ 퀀트랩."— Presentation transcript:

1 텍스트 분석 ㈜ 퀀트랩

2 기본 용어 형태소: 의미가 있는 가장 작은 단위 단어: 자립성이 있는 가장 작은 단위 말뭉치(corpus): 대량의 언어 자료

3 전산언어학과 자연어 처리 전산언어학 Computational Linguistics
자연어 처리 Natural Language Processing

4 NLP의 두 분야 NL Understanding NG Generation

5 텍스트 데이터 분석의 과정 Web Scraping Content Extraction Tokenization Sequential
Data Analysis Term-Document Matrix Regression Classification Clustering Dimensionality Reduction

6 형태소 분석 날씨가 너무 더워 날씨/N 가/J 너무/M 덥다/P 어/E

7 Bag of Words 문법적인 측면을 포함해서 분석은 어려움 문서에서 단어의 수만 가지고 분석

8 Term-Document Matrix 에게 만들다 아름다운 한글 문서 1 1 2 문서 2 3 문서 3 문서 4

9 TDM으로 할 수 있는 것들 시각화 단어 구름 의미망 일반적인 통계기법 거의 모두 상관 회귀/분류 군집/차원 축소

10 Sentiment Analysis 감정분석

11 감정 분석 회귀분석/분류분석의 일종 문장의 감정(sentiment)을 예측 점수  회귀분석 긍/부정  분류분석

12 감정 분석의 방법 사전 기반 기계학습 기반

13 선형회귀분석을 이용한 사전 개발 회귀계수 > 0: 긍정 단어 회귀계수 < 0: 부정 단어 문제점: 단어가 너무 많음

14 과적합 overfitting 데이터를 지나치게 많이 설명하는 것 데이터 = 패턴 + 잡음
새로운 데이터를 잘 설명하지 못하게 됨 복잡한 모형일 수록 과적합이 잘 일어남

15

16

17

18

19

20

21 텍스트 분석에서 과적합 텍스트 분석에서 단어 = 변수 단어 많음  변수 많음  모형 복잡

22 정규화 Regularization 오차 = 실제값 – 예측값 OLS는 (오차2)만을 최소화
정규화는 (오차2 + 정규화 항)을 최소화

23 정규화 Regularization Lasso (L1): 회귀계수의 절댓값의 합 Ridge (L2): 회귀계수의 제곱의 합
어느 쪽이나 회귀계수가 작아짐 극단적인 예측이 줄어듦

24

25 Lasso vs. Ridge

26 Lasso vs. Ridge Lasso Ridge 회귀계수를 0으로 만드는 경향이 있음 사전을 만들 때 유용
회귀계수를 전반적으로 줄임 대체로 새로운 데이터의 예측력이 좋음

27 Elastic Net 오차2 + Lasso + Ridge Lasso와 Ridge를 모두 사용

28 선형모형의 장점과 한계 회귀계수의 해석이 쉬움 긍/부정 단어를 찾을 수 있음 과적합 우려가 적음 예측력 제한

29 선형모형의 장점과 한계 예측만 더 잘하고 싶다면 다른 모형 사용 SVM Random Forest XGBoost
Deep Learning

30 감정분석 = 회귀분석 종속변수가 ‘감정’일 뿐… 다른 변수도 통계적으로는 동일


Download ppt "텍스트 분석 ㈜ 퀀트랩."

Similar presentations


Ads by Google