자동 음성 인식 (Automatic Speech Recognition)

Slides:



Advertisements
Similar presentations
자동 제어 Sun Moon University 1 of 17 자동제어 목 차 강의 개요 Ch.10 주파수 응답 기법 Ch. 8 근궤적 기법.
Advertisements

SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
1 음성언어정보연구부 IT 신성장 동력 분야별 기술개발 계획 ( 안 ) 한국인 발성 영어 인식기술 ( 평가용 )
명륜종합사회복 지관. * 강사 : 소 찾는 아이 작가 이상희, 김매화 팀장 외 * 북아트란 : 논술교육의 중요성, 자유로운 사고, 창 의력, 논리력 * 준비물 : 색연필, 사인펜, 연필, 지우개, 딱풀, 가위.
직장내 성희롱, 성폭력, 성매매 예방연수.
한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) (금). 김성호 영남대학교 전자공학과.
기상레이더 자료를 이용한 단시간 강수예보 2003년 5월 23일 남 경 엽 원 격 탐 사 연 구 실.
7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
설계 프로젝트 경진대회 성결대학교 컴퓨터공학과 내가 꾸미는 우리 집 팀장 김용훈 김경희 김미선 김헌진.
SAR 영상자료를 이용한 해양 파라미터 추출 기법 연구
음향 시스템 사양서 18“ DUAL SUBWOOFER SPEAKER JBL. ASB4128 SPECIFICATIONS
[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List
Dialogue System Seminar
“자연어처리” 소개 (Natural Language Processing)
(Classification – Advanced Techniques)
1. 컴파일러 개론 1-1. Compiler 정의 1-2. Language Processing System
분자 동역학 컴퓨팅 전승준 (고려대학교 화학과).
제4장 자연언어처리, 인공지능, 기계학습.
Problems of Finite Difference Method (유한차분법)
 midi LOGGER GL220   신제품 소개 Dec, 2011.
Hybrid INDIGO project 중간보고
12. 데이터베이스 설계.
분자 동역학 컴퓨팅 전승준 (고려대학교 화학과).
오토메타 형식언어 2003년도 제 2학기.
EPS Based Motion Recognition algorithm Comparison
Word2Vec Tutorial 박 영택 숭실대학교.
Accelerometer Data Collection and Preprocessing
언어와 기억 담당교수: 남 윤 주.
Tel : Office : 2공학관 408호 오토마타 및 형식언어 김 현 성 Tel : Office : 2공학관 408호
Sung-Hae Jun 자연어 처리의 이해 Sung-Hae Jun
A Survey of Affect Recognition Methods :
Discrete Math II Howon Kim
제 3 장 신경회로망 (Neural Networks)
강문경 · 박용욱 · 이훈열 (강원대학교 지구물리학과) 이문진 (한국해양연구원 해양시스템안전연구소)
Semi-supervised Document classification (probabilistic model and EM)
웨이브렛 프레임과 공간 정보를 이용한 질감 영상 분할 Texture Segmentation Using Wavelet Frame and Spatial Information 지도교수: 조 석 제 예 병 길 제어계측공학과.
GoldExperience 통신공학설계실험 Kim Hyun Tai
8051기반의 음성 인식 프로세서 설계 Chang-Min Kim and Soo-Young Lee
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
From Block To C SW 코딩을 위한 5단계 교육
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
학습목표 Pumping Lemma와 Closure 특성을 통해 CFL와 Language Family간의 관계 이해
MS. Pac Man Jang Su-Hyung.
패턴인식 개론 패턴인식 개요 ( CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | )
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
정보 추출기술 (Data Mining Techniques ) : An Overview
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
경제통계학 개요 사공 용 서강대학교 경제학과.
2007년 02월 15일 수요일 랩 세미나 띄어쓰기 및 철자 오류 동시 교정 작성,발표:이주호.
Discrete Math II Howon Kim
Chatbot.
using Speech Recognition
3. 정규 언어(Regular Language)
인공지능 소개 및 1장.
언어교육 게임SW를 위한 음성인식 기술 IT 신성장 동력 분야별 기술개발 계획(안)
MECHATRONICS 한경대학교 정보제어공학과 담당교수 : 조재훈.
Extracting Schedule Information from Korean
품 목: Videoconference DSP 모델명: NEXIA VC 제조사: BIAMP
M P E G MPEG 1 Overview 제어인식연구실 이 찬 우 10월 19일 1998년.
MR 댐퍼의 동특성을 고려한 지진하중을 받는 구조물의 반능동 신경망제어
IBM Corporation {haoxing, eleve, kravets,
HMM 기반 연속음성인식 베이스라인 시스템 서강대학교 음성언어처리연구실.
여행용 자동통역서비스를 위한 서버형 한국어 대화체 음성인식 기술 ETRI Technology Marketing Strategy
의사결정지원시스템 6조 오나연 송혜정 신은수 오경석
텍스트 분석 ㈜ 퀀트랩.
Automatic Music Transcription
Progress Seminar 신희안.
연구 진행 상황 보고서 Insulin Pump CPF Xproject 2주전 계획 연구 결과 문제점 및 대책 목표 및 계획
Progress Seminar 이준녕.
Presentation transcript:

자동 음성 인식 (Automatic Speech Recognition) 2010. 7. 15 정보 심사과 정 성 윤

1. 음성인식 개요 2. 음성인식 과정 - 특징추출 - 패턴매칭 - 언어처리 3. 음성인식 응용 목 차 1. 음성인식 개요 2. 음성인식 과정 - 특징추출 - 패턴매칭 - 언어처리 3. 음성인식 응용

음성언어 인터페이스 1. 음성인식 개요 DIALOG SEMANTICS SYNTAX LEXICON MORPHOLOGY PHONETICS VOCAL-TRACT ARTICULATORS INNER EAR ACOUSTIC NERVE SPEECH RECOGNITION DIALOG MANAGEMENT SPOKEN LANGUAGE UNDERSTANDING SYNTHESIS

음성언어 인터페이스 1. 음성인식 개요 음성합성 언어생성 (G10L 13) 음성 그래프, 표 시스템 관리 DATABASE 의미표현 음성 담화정보 음성인식 (G10L 15) 언어이해 화자인식 (G10L 17) 음성신호 분석 및 잡음 제거 (G10L 11, 21, 23)

Why Speech Recognition is so Difficult My number is 7360474. m I n & b r i s e v th E z o t ü f O NP VP MY NUMBER IS SEVEN THREE NINE ZERO TWO FOUR

Dimension of Difficulty in Speech Recognition 1. 음성인식 개요 Dimension of Difficulty in Speech Recognition Acoustical Variability Speaker Variability Environmental Variability < 음성인식의 분류 > Form of Speech Speaker Population Vocabulary Size Linguistic and Situational Constraints Environmental Condition Real-time Implementation - 고립단어,연결단어,연속음성 - 화자종속/독립 - 소규모, 중규모, 대어휘

통계적 패턴매칭에 의한 음성인식 방법 1. 음성인식 개요 특징추출 Phonetically labelled signals Training Training Text corpus 특징추출 Speech Acoustic parameters Recognition Language model(s) Acoustic models Decoding (음향모델) (언어모델) Acoustic parameters used: - Mel-scaled Frequency Cepstral Coefficients (MFCC) - Energy - Zero crossing - Linear Predictive Coding (LPC) Perceptual Linear Predictive (PLP) et Rasta-PLP etc.  and   of these parameters

음성인식 처리과정 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 2. 음성인식 처리과정 입력음성 특징벡터열 후보단어 문장 Feature Extraction Pattern Classification Language Processing 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제)

. . . . . . 음성인식 처리과정 – 특징추출 과정 2. 음성인식 처리과정 Speech Digitization Blocking into a frame Frame shift Preemphasis 20 ms . . . 1 frame = 20-25ms Windowing Frame shift = 10ms 10ms Parameterization a1 a2 a3 . . . End of signal No

Linear Predictive Coding (LPC)- based feature extraction 2. 음성인식 처리과정 특징추출 방법 Filter Bank Analysis Linear Predictive Coding (LPC)- based feature extraction

Mel-Frequency Cepstral Coefficients 2. 음성인식 처리과정 특징추출 - MFCC Mel-Frequency Cepstral Coefficients (MFCC) Preemphasis & Windowing FFT Mel-scale filter bank log |.| DCT Speech MFCC 1 2 4 frequency(kHz) 3 weight MFCC Filters 39차 MFCC 1 frame (20ms) - One of most successful feature extraction method

음성인식 처리과정 – 패턴매칭 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 2. 음성인식 처리과정 Feature Extraction Pattern Classification Language Processing 입력음성 출력문장 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 특징벡터열 후보단어,음소 Template Matching : DTW Hidden Markov Model(HMM) Rule-based approach Artificial Neural Network(ANN) 훈련처리 음성DB 특징추출

DTW (Dynamic Time Warping) 기반 음성인식 2. 음성인식 처리과정 DTW (Dynamic Time Warping) 기반 음성인식 . . . Reference Pattern Input Speech . . . Input Pattern

HMM(Hidden Markov Model) 기반 음성인식 2. 음성인식 처리과정 HMM(Hidden Markov Model) 기반 음성인식 기본특성 확률모델을 이용한 통계적 패턴인식 방법 음성특징 벡터열 X가 주어졌을 때, 그에 해당하는 단어열 W를 찾는 것 argmaxW P(W|X)=argmaxW P(X|W)P(W) Bayes 결정이론 (Bayes decision theory) : 만일 P(X|W)와 P(W)를 구할 수 있다면, 최대 사후 추정확률 방법(Maximum A Posteriori (MAP) decoder )이 최소 인식오류를 보장함 통계적 패턴인식 과정 : 훈련과정 인식과정 장점 소어휘 고립단어인식에서 불특정화자 대어휘 연속음성인식까지 일관된 방법으로 구현 가능하여 폭 넓게 사용됨 우수한 성능, 유연한 구조, 탁월한 확장성 단점 다량의 훈련용 음성 DB 필요

음성과 HMM의 관계 (관측확률분포: B) 2. 음성인식 처리과정 보기 : “일” Speech State Transition Probability (상태천이확률 : A) 음성의 HMM 구조 (Left-to-right model) Initial state probability (초기상태확률 : ) Observation probability distribution (관측확률분포: B) Observation vector (관측벡터) HMM : (A,B, p) l1

HMM에 의한 단어모델 훈련과정 2. 음성인식 처리과정 waveform feature Converged? Yes Feature il i chil Converged? Yes Speech database Feature Extraction Baum-Welch Re-estimation end No Word HMM l1 l2 l7

단어단위 HMM에 의한 고립단어 인식과정 . 2. 음성인식 처리과정 HMM for word 1 l1 칠 P(X|l1) Likelihood computation . Recognized word Speech Feature extraction Select maximum HMM for word V lV Likelihood computation P(X|lV)

음성인식 처리과정 – 언어처리 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 2. 음성인식 처리과정 입력음성 특징벡터열 후보단어 출력문장 Feature Extraction Pattern Classification Language Processing 음성DB 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 특징추출 훈련처리

언어 모델 기반 언어처리 Reduces search space within plausible word sequences 2. 음성인식 처리과정 언어 모델 기반 언어처리 Reduces search space within plausible word sequences Finite state network (FSN), Context Free Grammar (CFG) Small vocabulary system Stochastic grammar (N-gram) Estimate probability of a word from previous n-1 words Bigram P(w2|w1) Trigram P(w3|w1,w2) Medium and Large vocabulary system 서울 부산 에서 출발 세시 네시 대구 대전 도착 하는 기차 버스 $time = 세시|네시; $city = 서울|부산|대구|대전; $trans = 기차|버스; sent-start $city (에서 $time 출발 | 출발 $city 도착) 하는 $trans sent-end P(에서|서울)=0.2 P(세시|에서)=0.5 P(출발|세시)=1.0 P(하는|출발)=0.5 P(출발|서울)=0.5 P(도착|대구)=0.9 …

음성인식 응용 로봇 자동통역시스템 방송 뉴스 자동 스크립션 음성인식 네비게이션 음성인식 전등스위치 감정인식 … 3. 음성인식 응용 음성인식 응용 로봇 자동통역시스템 방송 뉴스 자동 스크립션 음성인식 네비게이션 음성인식 전등스위치 감정인식 … 20 20

구글 코리아 - 한국어 음성검색 서비스 http://www.youtube.com/watch?v=GB-p2SrAv50&feature=channel 21