텍스트 분석 기초
“머리가 빨간 생선을 먹는 고양이” 몇 가지 뜻으로 해석할 수 있을까?
“머리가 빨간 생선을 먹는 고양이” 출처: https://twitter.com/nkmr_aki/status/381428185885200384
텍스트 분석의 두 가지 방법 자연어 문법은 구조가 복잡 분석 어려움 Bag-of-Words: 단어의 빈도에 기반 Sequential Model: 단어의 연속적 순서 고려 이번 학기는 Bag-of-Words 방법론 중심
Bag-of-Words의 장단점 전처리가 단순: 문장을 단어 단위로만 끊으면 된다 일반적인 통계 방법론들을 적용할 수 있다 해석이 간편하다 단어의 맥락을 무시한다 (예: 은행)
한국어에서 이슈 굴절어(예: 영어)나 고립어(예: 중국어)와 달리 교착어인 한국어 는 여러 형태소가 합쳐져서 어절을 이룸 먹었다 먹(용언) + 었(선어말어미) + 다(어말어미) 한국어에서는 단어 대신 형태소 단위로 사용 문제: 중국요리 vs. 프랑스 요리
단어 문서 행렬
단어 문서 행렬 Term Document Matrix (TDM) 일반적인 텍스트는 복잡한 구조(i.e. 문법)을 가지고 있음 TDM: 텍스트를 단어 or 형태소로 쪼개어 표 형태로 정리 대부분의 통계 기법을 적용할 수 있게 된다
단어 문서 행렬 문서 1: 안녕 세상 문서 2: 사과 맛있다 안녕 세상 사과 맛있다 문서 1 1 문서 2
희소(sparse) vs. 조밀(dense) 단어 문서 행렬에서 대부분의 값은 0 이러한 행렬을 희소(sparse) 행렬이라 함 ↔ 조밀(dense) 용량을 아끼기 위해 0을 빼고 저장하는 압축 방법을 사용
Python
Python 설치 (1/2)
Python 설치 (2/3)
Python 설치 (3/3)
Python 소개 Guido van Rossum 1989 Christmas Free & Open Source 쉽고 빠르게 프로그래밍 YouTube, Dropbox, Instagram Scientific Programming
Popularity
실행 명령창 열기 탐색기 주소창에 cmd 또는 SHIFT+우클릭 여기서 명령창 열기 ipython notebook