텍스트 분석 ㈜ 퀀트랩.

Slides:



Advertisements
Similar presentations
빅 데이터의 정의와 특징 빅 데이터의 이용사례 빅 데이터의 문제점 or 한계점 빅 데이터의 전망.
Advertisements

6σ 관련 기초 통계 (1) -. 통계적사고 -. 모집단과 표본. 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일.
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
제 15 장 요인분석 요인분석의 개념 요인분석(factor analysis) : 다수 변수들간의 관계(상관관계)를 분석하여 변수들의 바탕을 이루는 공통차원들(common underlying dimensions)로써 이 변수들을 설명하는 통계기법 목적 : 다수의 변수들을.
제13장 로지스틱회귀분석.
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
Smartphone & Mobile Internet
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
제14장 요인분석.
해외서, 국내서 요약 ‘북집’ 모바일 서비스 이용방법
Lec 4 Backpropagation & Neural Network
[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
회귀분석(Regression).
회귀분석(Regression).
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
· 제 14 장 상관관계분석과 회귀분석 상관관계분석
3강 한글 맞춤법 총칙.
MicroStrategy6 컴퓨터학과 석사 2학기 진수경.
제 11 장 서비스 수요 예측.
머신 러닝 2 ㈜ 퀀트랩.
(Extensible Markup Language)
Missing Value.
상관분석 (p , p ).
단순회귀분석 단순회귀분석의 개요 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만, 단순선형회귀분석(simple linear regression; 이하 단순회귀분석)은 두 변수간의 인과관계(casual relationship)를 조사하는 방법임. 독립변수(예측변수)
제 1 장 서 론 1. 탐색적 자료분석 - EDA- 1 ◈ EDA(Exploratory Data Analysis) 란?
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
Keller: Stats for Mgmt & Econ, 7th Ed
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
군집 분석.
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
Linear Mixed Model을 이용한 분석 결과
(independent variable)
비정형 데이터분석 유재명.
마케팅 조사론 1학년 A반 차진우( ) 허성원( ) 김혜진( )
회귀분석(Regression).
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
Decision Tree & Ensemble methods
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
제 11장 인자분석(Factor Analysis)
텍스트 분석 기초.
논문작성을 위한 연구모형 설정 양동훈.
Sentiment Analysis 유재명.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
Word2Vec.
Word Embedding.
Support Vector Machine
1. 비정형 데이터마이닝의 이해.
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
Linear Model.
2. 청소년 문제와 청소년 건전한 청소년 문화의 정립 (3) [ ] 나상균.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
자연언어 처리 인지과학 입문.
2007 겨울 통계강좌 중급과정 제12강 판별함수 분석의 이해 및 실전.
Progress Seminar 선석규.
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
Progress Seminar 선석규.
Latent Semantic Analysis
LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호.
Presentation transcript:

텍스트 분석 ㈜ 퀀트랩

기본 용어 형태소: 의미가 있는 가장 작은 단위 단어: 자립성이 있는 가장 작은 단위 말뭉치(corpus): 대량의 언어 자료

전산언어학과 자연어 처리 전산언어학 Computational Linguistics 자연어 처리 Natural Language Processing

NLP의 두 분야 NL Understanding NG Generation

텍스트 데이터 분석의 과정 Web Scraping Content Extraction Tokenization Sequential Data Analysis Term-Document Matrix Regression Classification Clustering Dimensionality Reduction

형태소 분석 날씨가 너무 더워 날씨/N 가/J 너무/M 덥다/P 어/E

Bag of Words 문법적인 측면을 포함해서 분석은 어려움 문서에서 단어의 수만 가지고 분석

Term-Document Matrix 에게 만들다 아름다운 한글 문서 1 1 2 문서 2 3 문서 3 문서 4

TDM으로 할 수 있는 것들 시각화 단어 구름 의미망 일반적인 통계기법 거의 모두 상관 회귀/분류 군집/차원 축소

Sentiment Analysis 감정분석

감정 분석 회귀분석/분류분석의 일종 문장의 감정(sentiment)을 예측 점수  회귀분석 긍/부정  분류분석

감정 분석의 방법 사전 기반 기계학습 기반

선형회귀분석을 이용한 사전 개발 회귀계수 > 0: 긍정 단어 회귀계수 < 0: 부정 단어 문제점: 단어가 너무 많음

과적합 overfitting 데이터를 지나치게 많이 설명하는 것 데이터 = 패턴 + 잡음 새로운 데이터를 잘 설명하지 못하게 됨 복잡한 모형일 수록 과적합이 잘 일어남

텍스트 분석에서 과적합 텍스트 분석에서 단어 = 변수 단어 많음  변수 많음  모형 복잡

정규화 Regularization 오차 = 실제값 – 예측값 OLS는 (오차2)만을 최소화 정규화는 (오차2 + 정규화 항)을 최소화

정규화 Regularization Lasso (L1): 회귀계수의 절댓값의 합 Ridge (L2): 회귀계수의 제곱의 합 어느 쪽이나 회귀계수가 작아짐 극단적인 예측이 줄어듦

Lasso vs. Ridge

Lasso vs. Ridge Lasso Ridge 회귀계수를 0으로 만드는 경향이 있음 사전을 만들 때 유용 회귀계수를 전반적으로 줄임 대체로 새로운 데이터의 예측력이 좋음

Elastic Net 오차2 + Lasso + Ridge Lasso와 Ridge를 모두 사용

선형모형의 장점과 한계 회귀계수의 해석이 쉬움 긍/부정 단어를 찾을 수 있음 과적합 우려가 적음 예측력 제한

선형모형의 장점과 한계 예측만 더 잘하고 싶다면 다른 모형 사용 SVM Random Forest XGBoost Deep Learning

감정분석 = 회귀분석 종속변수가 ‘감정’일 뿐… 다른 변수도 통계적으로는 동일