Presentation is loading. Please wait.

Presentation is loading. Please wait.

텍스트 분석 기초.

Similar presentations


Presentation on theme: "텍스트 분석 기초."— Presentation transcript:

1 텍스트 분석 기초

2 “머리가 빨간 생선을 먹는 고양이” 몇 가지 뜻으로 해석할 수 있을까?

3 “머리가 빨간 생선을 먹는 고양이” 출처:

4 텍스트 분석의 두 가지 방법 자연어 문법은 구조가 복잡  분석 어려움 Bag-of-Words: 단어의 빈도에 기반
Sequential Model: 단어의 연속적 순서 고려 이번 학기는 Bag-of-Words 방법론 중심

5 Bag-of-Words의 장단점 전처리가 단순: 문장을 단어 단위로만 끊으면 된다 일반적인 통계 방법론들을 적용할 수 있다
해석이 간편하다 단어의 맥락을 무시한다 (예: 은행)

6 한국어에서 이슈 굴절어(예: 영어)나 고립어(예: 중국어)와 달리 교착어인 한국어 는 여러 형태소가 합쳐져서 어절을 이룸
먹었다  먹(용언) + 었(선어말어미) + 다(어말어미) 한국어에서는 단어 대신 형태소 단위로 사용 문제: 중국요리 vs. 프랑스 요리

7 단어 문서 행렬

8 단어 문서 행렬 Term Document Matrix (TDM) 일반적인 텍스트는 복잡한 구조(i.e. 문법)을 가지고 있음
TDM: 텍스트를 단어 or 형태소로 쪼개어 표 형태로 정리 대부분의 통계 기법을 적용할 수 있게 된다

9 단어 문서 행렬 문서 1: 안녕 세상 문서 2: 사과 맛있다 안녕 세상 사과 맛있다 문서 1 1 문서 2

10 희소(sparse) vs. 조밀(dense)
단어 문서 행렬에서 대부분의 값은 0 이러한 행렬을 희소(sparse) 행렬이라 함 ↔ 조밀(dense) 용량을 아끼기 위해 0을 빼고 저장하는 압축 방법을 사용

11 Python

12 Python 설치 (1/2)

13 Python 설치 (2/3)

14 Python 설치 (3/3)

15 Python 소개 Guido van Rossum 1989 Christmas Free & Open Source
쉽고 빠르게 프로그래밍 YouTube, Dropbox, Instagram Scientific Programming

16 Popularity

17 실행 명령창 열기 탐색기 주소창에 cmd 또는 SHIFT+우클릭  여기서 명령창 열기 ipython notebook


Download ppt "텍스트 분석 기초."

Similar presentations


Ads by Google