Word2Vec.

Slides:



Advertisements
Similar presentations
Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Advertisements

1/37 한글에는 전문적인 문서 편집을 위한 고급 기능이 있다. 문서를 편리하게 수 정할 수 있도록 도와주는 찾기 / 찾아 바꾸기, 다른 위치로 이동할 수 있는 책 갈피와 하이퍼링크에 대해 알아보자. 그리고 자주 사용하는 서식을 미리 정 해 놓고 쓰는 스타일 활용법과 스타일이.
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
지금 우리 지구는 HOT, HOT 에너지자원. 아이스에이지 2 시청 초 1-11 기후변화의 주된 원인인 지구 온난화 현상을 알고 온실가스의 영향을 실험을 통해 확인할 수 있다. 학습목표 초 1-11.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
컴퓨터와 인터넷.
Deep Learning.
Deep Learning.
재료수치해석 HW # 박재혁.
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
Smart-phone 액정교체 비용 40만 원 2013년 model 12.0만 원 엣지model 30만 원 20만 원
컴퓨터의 응용-검색엔진 <컴퓨터의 응용> 교수명: 용환승 공학부, 이한아
Entity Relationship Diagram
(생각열기) 멘델레예프의 주기율표와 모즐리의 주기율표 에서 원소를 나열하는 기준은? ( )
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
SDS-PAGE analysis.
공차 및 끼워맞춤.
제 9 장 구조체와 공용체.
Hybrid INDIGO project 중간보고
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Word2Vec Tutorial 박 영택 숭실대학교.
SEOUL NATIONAL UNIVERSITY OF SCIENCE & TECHNOLOGY
디지털영상처리 및 실습 대구보건대학 방사선과.
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
17강. 데이터 베이스 - I 데이터 베이스의 개요 Oracle 설치 기본적인 SQL문 익히기
(Extensible Markup Language)
뉴런과 인공 신경망 2018 경기오산고등학교 이규성.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
과일과 채소 오늘 1인 가구 ______ 개 선택 가능 오늘 2인 가구 ______ 개 선택 가능 오늘 3인 가구 ______ 개 선택 가능 오늘 4인 가구 ______ 개 선택 가능 오늘 5인 가구 ______ 개 선택 가능 오늘 6인 가구 ______ 개 선택 가능.
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
비정형 데이터분석 유재명.
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
Regular Expression 1 Powerful pattern matching with regular expression to a string while () { if ( /ab*c/ ) { print $_; } } substitute operator s/abc*c/def/;
밀도 (1) 부피가 같아도 질량은 달라요 ! 밀도의 측정 밀도의 특징.
Decision Tree & Ensemble methods
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
텍스트 분석 기초.
파워포인트 지키미 (잘못된것은 입력되지 않습니다) 제가 만든 암호기 암호는 ‘1638’ 지우기 입력 완료.
디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승
Regular Expression 1 Powerful pattern matching with regular expression to a string while () { if ( /ab*c/ ) { print $_; } } substitute operator s/abc*c/def/;
헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 헤드라인 텍스트 샘플 텍스트
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
문서 클러스터링 일본언어문화학과 서동진.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Word Embedding.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
Chapter 10 데이터 검색1.
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
웹 사이트 분석과 설계 [디자인 리서치] 학번: 이름 : 홍지애.
텍스트 분석 ㈜ 퀀트랩.
수치해석 ch3 환경공학과 김지숙.
Microsoft Word 2002 제1장 문자열의 삽입과 변경.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
토론의 기술 3 쟁점분석과 입론.
1. 강의 소개 컴퓨팅적 사고와 문제해결.
김선균 컴퓨터 프로그래밍 기초 - 12th : 문자열 - 김선균
 6장. SQL 쿼리.
버스와 메모리 전송 버스 시스템 레지스터와 레지스터들 사이의 정보 전송을 위한 경로
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
Progress Seminar 선석규.
논리회로 설계 및 실험 8주차.
Text Clustering G 조한얼.
Latent Semantic Analysis
Presentation transcript:

Word2Vec

Word Embedding 단어에 좌표를 부여하는 것 단어의 의미를 수치화하는 것으로 생각 텍스트 처리가 더 빠르고 정확해짐

Latent Semantic Analysis Term-Document Matrix를 PCA 빈도가 함께 증가/감소하는 관계의 단어들을 축으로 삼음 적은 데이터에서도 잘 작동 어순 고려 X

어순 나 는 오늘 밥 을 ? ? 자리에 들어갈 수 있는 말은 한정: 먹었다, 굶었다 … 어순이 중요

NNLM

NNLM Feedforward Neural Net Language Model Bengio et al. (2003)

NNLM이 푸는 문제 앞에 나온 단어들로 ?에 들어갈 단어를 예측 오늘 밥 을 ? 앞에 나온 단어들로 ?에 들어갈 단어를 예측 앞에 나온 단어 / 뒤에 나온 단어 / 앞뒤로 나온 단어 등도 가능

NNLM

NNLM 단어를 one-hot encoding으로 표현

one-hot encoding 100 종류의 단어가 있다면 각 단어에 1부터 100까지 번호를 붙임 길이 100인 벡터를 모두 0으로 채움 38번 단어  38번째 값을 1로 표시 모든 단어를 위와 같은 방법으로 벡터로 표현

NNLM 모든 단어에 행렬 C를 곱함

벡터에 행렬을 곱하면? .1 .2 .3 .4 .5 .6 .7 .8 0 1 0 0 = .2 .6

NNLM 일반적인 앞먹임 신경망 feedforward neural network

NNLM 단어 예측

학습 텍스트를 넣고 신경망을 학습시키면 대상 단어를 잘 예측하도록 행렬 C가 구해짐 단어에 행렬 C를 곱한 결과를 사용

NNLM 단어의 의미

NNLM의 문제점 은닉층의 크기 × 단어 종류 단어 수 × 차원 수 × 은닉층의 크기 단어 종류 × 차원 수

Word2Vec

Word2Vec Mikolov et al. (2013) NNLM의 학습 효율을 높임 CBOW와 Skip-gram 제시

CBOW와 Skip-gram

CBOW Continuous Bag-Of-Words 주변 단어로 대상 단어 예측 은닉층을 단순합으로 대체

NNLM vs. CBOW 은닉층의 크기 × 단어 종류 단어 수 × 차원 수 × 은닉층의 크기 단어 종류 × 차원 수

NNLM vs. CBOW 차원 수 × 단어 종류 단어 종류 × 차원 수

Skip-gram CBOW와 반대로 대상 단어로 주변 단어를 예측

결과

결과 더 적은 데이터로 더 큰 벡터를 만들 수 있음 예측도 비슷하거나 더 정확

Word2Vec의 특이한 성질

Word2Vec의 성질

Word2Vec의 성질 왕(king) – 남자(man) + 여자(woman) = 여왕(queen) 일본(Japan) - 도쿄(Tokyo) + 서울(Seoul) = 한국(Korea)

Word2Vec의 활용

Word Embedding으로 활용 감정 분석, 문서 분류 등을 수행할 때 단어  Word Embedding으로 먼저 변환 대부분의 경우 성능 향상

텍스트 이외 분야에서 활용 텍스트: 단어가 순서대로 있는 것 ( )이 순서대로 있는 것이면 Word2Vec을 활용 가능

단백질

단백질 인체는 단백질은 20종의 아미노산으로 구성 아미노산의 순서에 따라 다른 단백질 아미노산:단백질 = 단어:텍스트

ProtVec Asgari & Mofad (2015) 아미노산을 3개씩 묶어 '단어'로 만듦 Skip-gram을 이용해 3-아미노산 '단어'를 벡터로 만듦 단백질은 ‘단어’의 합으로 표현

ProtVec

ProtVec SVM을 이용해 문제 단백질(FG-Nups)과 일반 단백질 구별 정확도 99.81%