텍스트 분석 기초.

Slides:



Advertisements
Similar presentations
제철고 프로그래밍언어 2015 가을학기 연습 #1 Python 연산식 이다훈 POSTECH 컴퓨터공학과 2015 년 9 월 23 일.
Advertisements

ⓒ 2015 NHN Entertainment Corp. Django 로 만드는 초간단 블로그 시스템운영팀 김영태 개발환경 구축.
프로그래밍언어론 TA 윤들녁. 소개 윤들녁 연락처 : 공대 7 호관 4 층 401 호 데이터베이스 연구실 실습 후 날짜 _ 학번.zip 으로.
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
- 안전교육 - 어린이집 ( 어린이집 ) 버스 이용 시 주의점. 1. 어린이집에서 멀리 또는 가까이 사는 친구들을 집에서 어린이집까지 빠르고 안전하게 데려다 준다. 2. 견학이나 나들이 활동 시 편하고 안전하게 데려다 준다. ( 어린이집 ) 버스의 필요성 -> 버스를.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
난이도 : 초급 제1장 앱 인벤터 소개 및 준비.
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
6월 민주 항쟁 경안초등학교 5학년2반 26번최현지.
형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)
컴퓨터와 인터넷.
IPython Notebook + Spark + TensorFlow on Windows
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
기초C언어 제1주 실습 강의 소개, C언어 개요, Cygwin/Eclipse 사용 컴퓨터시뮬레이션학과 2016년 봄학기
대림대학교 2017년도 1학기 강의 왕보현 순서도와 스크래치 5주차 대림대학교 2017년도 1학기 강의 왕보현
4.19 혁명, 5.18 민주화 운동, 박정희 정권, 6월 민주 항쟁에 대하여
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
1장. 이것이 C 언어다.. 1장. 이것이 C 언어다. 프로그래밍 언어 1-1 C 언어의 개론적 이야기 한글, 엑셀, 게임 등의 프로그램을 만들 때 사용하는 언어 ‘컴퓨터 프로그래머’라는 사람들이 제작 C 언어(C++ 포함)를 가장 많이 사용함.
컴퓨터 개론 및 실습.
네트워크 프로그래밍 및 실습.
전자기적인 Impedance, 유전율, 유전 손실
한국골프대학 종합정보시스템 Windows Vista 사용자를 위한 Component 설치안내서
한국골프대학 종합정보시스템 Windows 7 사용자를 위한 Component 설치안내서
3강 한글 맞춤법 총칙.
CAS (Computer Algebra System) 소개
행렬 기본 개념 행렬의 연산 여러가지 행렬 행렬식 역행렬 연립 일차 방정식 부울행렬.
응용언어학 제 2언어 습득 이론 -동일성 가설 권보경 이윤태.
11.텍스트를 위한 화일.
Jupyter Notebook on Windows
Jupyter Notebook Install
Chap 6.Assembler 유건우.
자연어 처리 (Natural Language Processing) (Lecture Note #27)
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
04 소셜 네트워크의 가능성 Friends Indeed M63339 황지영.
강의 개요. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
SAS Statistical Analysis System 통계패키지 실습 (2011년 1학기)
STOPWATCH 박새별.
IPython Notebook + Spark + TensorFlow on MacOS
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
BERT Install Guide 숭실대학교 test.
Samsung Software Membership 3D MIM 신진수
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
20장. 객체지향 프로그래밍 01_ 객체지향 프로그래밍의 시작.
자바 5.0 프로그래밍.
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
Portfolio Name.
CAS (Computer Algebra System) 소개
접어의 정의 및 특징 박진현.
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
문서 클러스터링 일본언어문화학과 서동진.
Word2Vec.
Word Embedding.
StyleCop 소개 SGS Framework 개발 팀.
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
START는 전 세계에서 만 18~35세 사이의 비전 있는 실천가들로 이루어진 아이사제닉스 내부 커뮤니티입니다
기초C언어 제2주 실습 프로그래밍의 개념, 프로그램 작성 과정 컴퓨터시뮬레이션학과 2016년 봄학기 담당교수 : 이형원
공학도를 위한 C언어 프로그래밍실습1 -통합개발환경 사용법-
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
3.2 분기 명령어.
9 브라우저 객체 모델.
텍스트 분석 ㈜ 퀀트랩.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
제 4 장 Record.
윤성우의 열혈 C++ 프로그래밍 윤성우 저 열혈강의 C++ 프로그래밍 개정판 Chapter 05. 복사 생성자.
수치해석 ch3 환경공학과 김지숙.
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
Microsoft Word 2002 제1장 문자열의 삽입과 변경.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
Presentation transcript:

텍스트 분석 기초

“머리가 빨간 생선을 먹는 고양이” 몇 가지 뜻으로 해석할 수 있을까?

“머리가 빨간 생선을 먹는 고양이” 출처: https://twitter.com/nkmr_aki/status/381428185885200384

텍스트 분석의 두 가지 방법 자연어 문법은 구조가 복잡  분석 어려움 Bag-of-Words: 단어의 빈도에 기반 Sequential Model: 단어의 연속적 순서 고려 이번 학기는 Bag-of-Words 방법론 중심

Bag-of-Words의 장단점 전처리가 단순: 문장을 단어 단위로만 끊으면 된다 일반적인 통계 방법론들을 적용할 수 있다 해석이 간편하다 단어의 맥락을 무시한다 (예: 은행)

한국어에서 이슈 굴절어(예: 영어)나 고립어(예: 중국어)와 달리 교착어인 한국어 는 여러 형태소가 합쳐져서 어절을 이룸 먹었다  먹(용언) + 었(선어말어미) + 다(어말어미) 한국어에서는 단어 대신 형태소 단위로 사용 문제: 중국요리 vs. 프랑스 요리

단어 문서 행렬

단어 문서 행렬 Term Document Matrix (TDM) 일반적인 텍스트는 복잡한 구조(i.e. 문법)을 가지고 있음 TDM: 텍스트를 단어 or 형태소로 쪼개어 표 형태로 정리 대부분의 통계 기법을 적용할 수 있게 된다

단어 문서 행렬 문서 1: 안녕 세상 문서 2: 사과 맛있다 안녕 세상 사과 맛있다 문서 1 1 문서 2

희소(sparse) vs. 조밀(dense) 단어 문서 행렬에서 대부분의 값은 0 이러한 행렬을 희소(sparse) 행렬이라 함 ↔ 조밀(dense) 용량을 아끼기 위해 0을 빼고 저장하는 압축 방법을 사용

Python

Python 설치 (1/2)

Python 설치 (2/3)

Python 설치 (3/3)

Python 소개 Guido van Rossum 1989 Christmas Free & Open Source 쉽고 빠르게 프로그래밍 YouTube, Dropbox, Instagram Scientific Programming

Popularity

실행 명령창 열기 탐색기 주소창에 cmd 또는 SHIFT+우클릭  여기서 명령창 열기 ipython notebook