Word Embedding.

Slides:



Advertisements
Similar presentations
Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Advertisements

프로그램이란 프로그램 생성 과정 프로젝트 생성 프로그램 실행 컴퓨터를 사용하는 이유는 무엇인가 ? – 주어진 문제를 쉽고, 빠르게 해결하기 위해서 사용한다. 컴퓨터를 사용한다는 것은 ? – 컴퓨터에 설치 혹은 저장된 프로그램을 사용하는 것이다. 문제를 해결하기 위한.
1/29 키보드로 직접 입력할 수 없는 다양한 기호와 한자를 입력하는 방법을 알아 보자. 또한 블록으로 영역을 설정하는 여러 가지 방법에 대해 살펴본 후 블록 으로 설정된 내용을 복사하여 붙여넣거나, 잘라내고 이동하는 방법에 대해서 도 알아보자. 02_ 문서의 입력과 편집.
다양한 종류의 문서를 언제든지 보고 바로 편집하세요. 여러 앱을 이용할 필요 없이 MS Office, HWP, PDF, TXT 의 문서를 한 곳에서 확인하고 어디서든 쉽게 편집해 보세요 ! *PDF 문서는 ‘ 보기 모드 ’ 만 지원합니다.
1/37 한글에는 전문적인 문서 편집을 위한 고급 기능이 있다. 문서를 편리하게 수 정할 수 있도록 도와주는 찾기 / 찾아 바꾸기, 다른 위치로 이동할 수 있는 책 갈피와 하이퍼링크에 대해 알아보자. 그리고 자주 사용하는 서식을 미리 정 해 놓고 쓰는 스타일 활용법과 스타일이.
지금 우리 지구는 HOT, HOT 에너지자원. 아이스에이지 2 시청 초 1-11 기후변화의 주된 원인인 지구 온난화 현상을 알고 온실가스의 영향을 실험을 통해 확인할 수 있다. 학습목표 초 1-11.
컴퓨터와 인터넷.
Deep Learning.
Deep Learning.
목차 Contents 무선인터넷용 비밀번호 설정방법 Windows 7 Windows 8 Windows XP MAC OS.
예비보고서1 : 8개의 푸시버튼 스위치가 있다. 이 스위치에 각각 0~7개까지의 번호를 부여하였다고 하자
Entity Relationship Diagram
(생각열기) 멘델레예프의 주기율표와 모즐리의 주기율표 에서 원소를 나열하는 기준은? ( )
RLC 회로 R L C 이 때 전류 i 는 R, L, C 에 공통이다.
Excel 일차 강사 : 박영민.
UNIT 15 Timer & Watch Dog 로봇 SW 교육원 조용수.
제 9 장 구조체와 공용체.
Hybrid INDIGO project 중간보고
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Word2Vec Tutorial 박 영택 숭실대학교.
SEOUL NATIONAL UNIVERSITY OF SCIENCE & TECHNOLOGY
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
17강. 데이터 베이스 - I 데이터 베이스의 개요 Oracle 설치 기본적인 SQL문 익히기
OpenGL 프로젝트 K.S.C팀.
예: Spherical pendulum 일반화 좌표 : θ , Ф : xy 평면으로부터 높이 일정한 량 S 를 정의하면
DIGITAL CAMPAIGN PROPOSAL
DK-128 FND 실습 아이티즌 기술연구소 김태성 연구원
Deep Learning.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
비정형 데이터분석 유재명.
DK-128 FND 실습 아이티즌 기술연구소
Microsoft Word 2002 제4장 그리기와 그림 삽입하기.
Decision Tree & Ensemble methods
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
3주차 오늘은 2주차에 만든 모형의 문제점이 뭘까 생각하면서 더 멀리 날아갈수 있게
텍스트 분석 기초.
CAD 실습 2013년 2학기.
과제 1 4bit x 4 SRAM이 있다 아래 (1), (2) 두 입력에 대한 출력값 [3:0] Dout을 나타내시오 (1)
QR Code 김정민 김준보.
디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승
단축키 기능 1. 단축키 기능 설명 Alt + R 조회 S 저장 I 삽입 A 추가 D 삭제 P 출력 Q 닫기
문서 클러스터링 일본언어문화학과 서동진.
PCA 개선 서울대학교 박노열.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Word2Vec.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
UNIT 25 SPI 로봇 SW 교육원 조용수.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
5.1-1 전하의 흐름과 전류 학습목표 1. 도선에서 전류의 흐름을 설명할 수 있다.
텍스트 분석 ㈜ 퀀트랩.
BioMed Central EBSCO KOREA T: (ext.230)
수치해석 ch3 환경공학과 김지숙.
Microsoft Word 2002 제1장 문자열의 삽입과 변경.
토론의 기술 3 쟁점분석과 입론.
1. 강의 소개 컴퓨팅적 사고와 문제해결.
김선균 컴퓨터 프로그래밍 기초 - 12th : 문자열 - 김선균
 6장. SQL 쿼리.
전류의 세기와 거리에 따른 도선 주변 자기장 세기 변화에 대한 실험적 고찰
버스와 메모리 전송 버스 시스템 레지스터와 레지스터들 사이의 정보 전송을 위한 경로
: 3차원에서 입자의 운동 방정식 제일 간단한 경우는 위치만의 함수 : 시간, 위치, 위치의 시간미분 의 함수
Progress Seminar 선석규.
논리회로 설계 및 실험 8주차.
Text Clustering G 조한얼.
Lecture #6 제 4 장. 기하학적 객체와 변환 (1).
Latent Semantic Analysis
Presentation transcript:

Word Embedding

단어의 의미

Term Documents Matrix의 문제점 단어마다 하나의 컬럼(column) 의미상 비슷한 단어도 서로 다른 컬럼 매우 sparse한 행렬  대부분이 0

해결을 위한 아이디어 단어를 어떤 공간 상의 '점'으로 생각하자 의미상 비슷한 단어는 공간 상에서 위치도 비슷하게 하자  Word Embedding Distributional Semantic Model Distributed Representation Semantic Vector Space

Word Embedding 단어에 좌표를 부여하는 것 단어의 의미를 수치화하는 것으로 생각 텍스트 처리가 더 빠르고 정확해짐

Latent Semantic Analysis Term-Document Matrix를 PCA 빈도가 함께 증가/감소하는 관계의 단어들을 축으로 삼음 적은 데이터에서도 잘 작동 어순 고려 X

어순 나 는 오늘 밥 을 ? ? 자리에 들어갈 수 있는 말은 한정: 먹었다, 굶었다 … 어순이 중요

NNLM

NNLM Feedforward Neural Net Language Model Bengio et al. (2003)

NNLM이 푸는 문제 앞에 나온 단어들로 ?에 들어갈 단어를 예측 오늘 밥 을 ? 앞에 나온 단어들로 ?에 들어갈 단어를 예측 앞에 나온 단어 / 뒤에 나온 단어 / 앞뒤로 나온 단어 등도 가능

NNLM

NNLM 단어를 one-hot encoding으로 표현

one-hot encoding 100 종류의 단어가 있다면 각 단어에 1부터 100까지 번호를 붙임 길이 100인 벡터를 모두 0으로 채움 38번 단어  38번째 값을 1로 표시 모든 단어를 위와 같은 방법으로 벡터로 표현

NNLM 모든 단어에 행렬 C를 곱함

벡터에 행렬을 곱하면? .1 .2 .3 .4 .5 .6 .7 .8 0 1 0 0 = .2 .6

NNLM 일반적인 앞먹임 신경망 feedforward neural network

NNLM 단어 예측

학습 텍스트를 넣고 신경망을 학습시키면 대상 단어를 잘 예측하도록 행렬 C가 구해짐 단어에 행렬 C를 곱한 결과를 사용

NNLM 단어의 의미

NNLM의 문제점 은닉층의 크기 × 단어 종류 단어 수 × 차원 수 × 은닉층의 크기 단어 종류 × 차원 수

Word2Vec

Word2Vec Mikolov et al. (2013) NNLM의 학습 효율을 높임 CBOW와 Skip-gram 제시

CBOW와 Skip-gram

CBOW Continuous Bag-Of-Words 주변 단어로 대상 단어 예측 은닉층을 단순합으로 대체

NNLM vs. CBOW 은닉층의 크기 × 단어 종류 단어 수 × 차원 수 × 은닉층의 크기 단어 종류 × 차원 수

NNLM vs. CBOW 차원 수 × 단어 종류 단어 종류 × 차원 수

Skip-gram CBOW와 반대로 대상 단어로 주변 단어를 예측

결과

결과 더 적은 데이터로 더 큰 벡터를 만들 수 있음 예측도 비슷하거나 더 정확

Word2Vec의 특이한 성질

Word2Vec의 성질

Word2Vec의 성질 왕(king) – 남자(man) + 여자(woman) = 여왕(queen) 일본(Japan) - 도쿄(Tokyo) + 서울(Seoul) = 한국(Korea)

활용

Word Embedding의 활용 Word Embedding 자체를 독립적으로 사용하지는 않음 기계학습이나 딥러닝에서 TDM이나 one-hot encoding 된 단어 를 넣는 것보다 word embedding을 입력으로 넣으면 성능이 향 상될 수 있음 데이터가 상대적으로 소량일 때 미리 대량의 텍스트로 만들어 둔 Word Embedding이 있으면 성능 향상과 일반화 가능성을 높일 수 있음