김민호 (karma@pusan.ac.kr) 부산대학교 전자전기컴퓨터공학과 자연언어처리 김민호 (karma@pusan.ac.kr) 부산대학교 전자전기컴퓨터공학과.

Slides:



Advertisements
Similar presentations
Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Advertisements

Number Recognizer. Team 이성우 컴퓨터소프트웨어학과 조윤성 전자통신공학과
프로그램이란 프로그램 생성 과정 프로젝트 생성 프로그램 실행 컴퓨터를 사용하는 이유는 무엇인가 ? – 주어진 문제를 쉽고, 빠르게 해결하기 위해서 사용한다. 컴퓨터를 사용한다는 것은 ? – 컴퓨터에 설치 혹은 저장된 프로그램을 사용하는 것이다. 문제를 해결하기 위한.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
강의 SKILL-UP 과정 신 현 호. 2 교육 개요 Ⅰ Verbal, Document, Visual Presentation 성공적인 강의스킬 실현 - 학습심리 -HRD 개요 - 교수 설계 & 교안 작성법 지식 - 교수의 제기법 - 교수매체 활용 - 강의.
초등용 빛으로 노래해요.
한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소
컴퓨터와 인터넷.
7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술
21세기 창의적 공학 설계와 콘텐츠 산업 · 일시 : 2011년 4월 28일 목요일 오후 2:00 ~ 3:00
Deep Learning.
Deep Learning.
방중 학습소모임 PRESENTATION 팀장: 안지현.
인터넷 서비스.
1. 컴파일러 개론 1-1. Compiler 정의 1-2. Language Processing System
1장. 이것이 C 언어다.. 1장. 이것이 C 언어다. 프로그래밍 언어 1-1 C 언어의 개론적 이야기 한글, 엑셀, 게임 등의 프로그램을 만들 때 사용하는 언어 ‘컴퓨터 프로그래머’라는 사람들이 제작 C 언어(C++ 포함)를 가장 많이 사용함.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Hybrid INDIGO project 중간보고
WJ543 인공지능 2003년도 제 2학기.
경영사례 및 영업협상 방법론.
MOS 자격증 Word-Expert 2003.
Number Recognizer.
3강 한글 맞춤법 총칙.
분석적 사고 (Analytical Thinking)
1. C++ 시작하기.
컴퓨터과학 전공탐색 배상원.
Machine Vision의 이해
17강. 데이터 베이스 - I 데이터 베이스의 개요 Oracle 설치 기본적인 SQL문 익히기
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
(Extensible Markup Language)
제4장 자연언어처리 인공지능 기계학습.
자료구조: CHAP 4 리스트 (3) 순천향대학교 컴퓨터공학과 하 상 호.
From Block To C SW 코딩을 위한 5단계 교육
7가지 방법 PowerPoint에서 공동 작업하는 다른 사용자와 함께 편집 작업 중인 사용자 보기
자연어 처리 (Natural Language Processing) (Lecture Note #27)
[ ] RFID/2D시스템 화면 기능 목록 루텍 황어진 안녕하십니까?
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
마인드 맵.
TFT-LCD 구조 동작원리 응용분야.
KAI 장학생 모집 요강 선발개요 선발일정 지원내역 문 의 처
‘Chess’를 읽고 컴퓨터공학부 배상수.
프로그래밍 언어론 - 소개 순천향대학교 컴퓨터공학과 하 상 호.
27강 JAVA Collections - II - Map계열 컬렉션 클래스 살펴보기 - Set계열 컬렉션 클래스 살펴보기
KELS 영어능력향상프로그램 이용 방법 KETS 영어교육실 KETS 영어교육실
성이란 무엇인가? 대연중학교보건실.
문서 요약 (Text Summarization)
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
Writing Machine 이용 시 주의 사항
텍스트 분석 기초.
메카트로닉스공학과 메카트로닉스공학과란? 홈페이지 │
XML (eXtensible Markup Language) 개요
청각장애인용 APP 구성 및 사용법.
문서 클러스터링 일본언어문화학과 서동진.
Word2Vec.
Word Embedding.
금속재료공학전문전공 교과목 이수체계 (KEC2005)
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
공학도를 위한 C언어 프로그래밍실습1 -통합개발환경 사용법-
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
TEXT 콘텐츠의 학습적 활용을 위한 Moodle의 사용자 중심 기능 개선 제안
..재외동포 대상 한국어 교육 방안 (학습자 연령에 따른 한국어 교육)
텍스트 분석 ㈜ 퀀트랩.
3장 (2) 구문과 의미론 순천향대학교 컴퓨터공학과 하상호.
Automatic Music Transcription
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
Microsoft Word 2002 제1장 문자열의 삽입과 변경.
DBMS & SQL Server Installation
LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호.
Presentation transcript:

김민호 (karma@pusan.ac.kr) 부산대학교 전자전기컴퓨터공학과 자연언어처리 김민호 (karma@pusan.ac.kr) 부산대학교 전자전기컴퓨터공학과

자연언어처리 자연언어(natural language) 자연언어처리(natural language processing) 인간이 일상적으로 사용하는 언어 한국어, 영어, 일본어, 중국어, 프랑스어 등 인공언어(artificial language)와 대비됨 자연언어처리(natural language processing) 인간이 보통 쓰는 언어를 컴퓨터에 인식시켜서 처리하는 일 정보검색, 질의응답 시스템, 기계번역, 음성인식, 음성합성 등

자연언어처리 단계 자연언어처리 단계 형태소 분석 통사 분석 의미 분석 화용 분석 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 받았다(받다/VV+았/EP+다/EF) 통사 분석 나는(S) 사과를(O) 받았다(V) 의미 분석 사과 = apple 사과 = apology 화용 분석 나는 사과를 받았다. 그것은 맛있었다.

자연언어처리의 어려움 중의성(ambiguity) 화용 분석 형태소 중의성 통사 중의성 의미 중의성 실세계와의 연결 나는: 나+는, 날다+는, 나다+는 통사 중의성 아름다운 영희의 엄마 의미 중의성 눈이 맑다, 눈이 좋다, 눈이 정확하다, 눈을 의식하다 화용 분석 실세계와의 연결 고양이가 쥐를 쫓는다. 그게 열심히 도망간다. 고양이가 쥐를 쫓는다. 그게 열심히 쫓아간다.

나는 진정한 사과를 받았다. vs 나는 맛있는 사과를 받았다. 의미 분석 어의 중의성 해소(Word Sense Disambiguation) 중의성 어휘가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업 나는 사과를 받았다. 나는 진정한 사과를 받았다. vs 나는 맛있는 사과를 받았다.

어의 중의성 해소의 필요성 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추 출하여 이용하려면 어의 중의성 해소가 필요함 표준국어대사전에 실린 표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어 원, 2002) 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨 기계번역의 예는 ‘구글번역기’를 사용한 것입니다. 구글번역에서 ‘진정한 사과’를 ‘a sincere apoloby’로 번역하기에 그대로 두었습니다. 그리고 ‘나는 맛있는 사과를 받았다’를 ‘I was delicious apples.’로 번역하였는데, 사용자가 대역어 후보 중에서 선택을 할 수 있기 때문에 ‘was -> recived a’로 수정하였습니다. 이 때문에 그림에서 파란색으로 표시됩니다.

어의 중의성 해소 대상

지식기반 WSD: 사전 뜻풀이 지식의 유형 중의성 어휘의 의미 결정 방식 기계 가독형 사전의 뜻풀이 (a)와 (b) 사이에 중복되는 어휘가 가장 많은 의미 (a) 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들 (b) 문장에서 중의성 어휘의 공기 어휘의 사전 뜻풀이에 쓰인 어휘들 그 사람은 수술을 통해 불편한 다리를 고쳤다. **표에서 맨 아래의 파란색 선 없애줄 것**** 어휘 사전 뜻풀이에 쓰인 어휘 (a) 중의성 다리 01 사람, 동물, 몸통, 신체, …. 다리 02 물, 건너다, 시설물, …. (b) 공기 사람 생각, 언어, 만들다, 쓰다, 사회, 살다, 동물, …. 수술 피부, 점막, 조직, 기계, 병, 고치다, …. …

지식기반 WSD: 의미 범주 지식의 유형 중의성 어휘의 의미 결정 방식 시소러스 등의 의미 범주(semantic category) 중의성 어휘의 의미 결정 방식 중의성 어휘와 공기하는 어휘들이 가장 많이 속한 의미 범주를 가진 의미 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인 문맥의 의미 범주를 결정 한다는 가정에 기반을 둔 방법 w1 w2 … bass …wn-1 wn Word Sense Roget’s Thesaurus bass musical senses MUSIC fish ANIMAL

지식기반 WSD: 대응 어휘 쌍 지식의 유형 중의성 어휘의 의미 결정 방식 2개 국어로 된 사전(bilingual dictionary)에서 대응되는 어휘쌍 중의성 어휘의 의미 결정 방식 중의성 어휘가 포함된 구절을 이중어 사전을 이용해 각각의 의미에 따 라 다른 언어로 번역한 후, 말뭉치에서의 출현 빈도가 가장 높은 번역 구절의 의미를 선택함 사과를 먹다 어휘 의미 영어 번역 사과 apple eat an apple apology eat an apology

말뭉치 기반 WSD: 의미 부착 말뭉치 감독(Supervised) WSD 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법 WSD 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습 기법을 적용하여 해결 Naïve Bayes Decsion Tree Supprot Vector Machine

Naïve Bayes for WSD

정보검색(Information retrieval) Goal = find documents relevant to an information need from a large document set Info. need Query IR system Document collection Retrieval Answer list

Possible approaches - Fast - Flexible to further improvement 1. String matching (linear search in documents) - Slow - Difficult to improve 2. Indexing (*) - Fast - Flexible to further improvement

Indexing-based IR Document Query indexing indexing (Query analysis) Representation Representation (keywords) Query (keywords) evaluation

Indexing Indexing 단위 음절, 형태소, 단어 등 N-gram

질의어 확장 동의어/유의어 확장 맞춤법/문법 오류 교정 로마자 표기 변환