Presentation is loading. Please wait.

Presentation is loading. Please wait.

자동 음성 인식 (Automatic Speech Recognition)

Similar presentations


Presentation on theme: "자동 음성 인식 (Automatic Speech Recognition)"— Presentation transcript:

1 자동 음성 인식 (Automatic Speech Recognition)
정보 심사과 정 성 윤

2 1. 음성인식 개요 2. 음성인식 과정 - 특징추출 - 패턴매칭 - 언어처리 3. 음성인식 응용
목 차 1. 음성인식 개요 2. 음성인식 과정 - 특징추출 - 패턴매칭 - 언어처리 3. 음성인식 응용

3 음성언어 인터페이스 1. 음성인식 개요 DIALOG SEMANTICS SYNTAX LEXICON MORPHOLOGY
PHONETICS VOCAL-TRACT ARTICULATORS INNER EAR ACOUSTIC NERVE SPEECH RECOGNITION DIALOG MANAGEMENT SPOKEN LANGUAGE UNDERSTANDING SYNTHESIS

4 음성언어 인터페이스 1. 음성인식 개요 음성합성 언어생성 (G10L 13) 음성 그래프, 표 시스템 관리 DATABASE
의미표현 음성 담화정보 음성인식 (G10L 15) 언어이해 화자인식 (G10L 17) 음성신호 분석 및 잡음 제거 (G10L 11, 21, 23)

5 Why Speech Recognition is so Difficult
My number is m I n & b r i s e v th E z o t ü f O NP VP MY NUMBER IS SEVEN THREE NINE ZERO TWO FOUR

6 Dimension of Difficulty in Speech Recognition
1. 음성인식 개요 Dimension of Difficulty in Speech Recognition Acoustical Variability Speaker Variability Environmental Variability < 음성인식의 분류 > Form of Speech Speaker Population Vocabulary Size Linguistic and Situational Constraints Environmental Condition Real-time Implementation - 고립단어,연결단어,연속음성 - 화자종속/독립 - 소규모, 중규모, 대어휘

7 통계적 패턴매칭에 의한 음성인식 방법 1. 음성인식 개요 특징추출 Phonetically labelled signals
Training Training Text corpus 특징추출 Speech Acoustic parameters Recognition Language model(s) Acoustic models Decoding (음향모델) (언어모델) Acoustic parameters used: - Mel-scaled Frequency Cepstral Coefficients (MFCC) - Energy - Zero crossing - Linear Predictive Coding (LPC) Perceptual Linear Predictive (PLP) et Rasta-PLP etc.  and   of these parameters

8 음성인식 처리과정 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 2. 음성인식 처리과정 입력음성 특징벡터열 후보단어
문장 Feature Extraction Pattern Classification Language Processing 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제)

9 . . . . . . 음성인식 처리과정 – 특징추출 과정 2. 음성인식 처리과정 Speech Digitization
Blocking into a frame Frame shift Preemphasis 20 ms . . . 1 frame = 20-25ms Windowing Frame shift = 10ms 10ms Parameterization a a a3 . . . End of signal No

10 Linear Predictive Coding (LPC)- based feature extraction
2. 음성인식 처리과정 특징추출 방법 Filter Bank Analysis Linear Predictive Coding (LPC)- based feature extraction

11 Mel-Frequency Cepstral Coefficients
2. 음성인식 처리과정 특징추출 - MFCC Mel-Frequency Cepstral Coefficients (MFCC) Preemphasis & Windowing FFT Mel-scale filter bank log |.| DCT Speech MFCC 1 2 4 frequency(kHz) 3 weight MFCC Filters 39차 MFCC 1 frame (20ms) - One of most successful feature extraction method

12 음성인식 처리과정 – 패턴매칭 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 2. 음성인식 처리과정 Feature
Extraction Pattern Classification Language Processing 입력음성 출력문장 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 특징벡터열 후보단어,음소 Template Matching : DTW Hidden Markov Model(HMM) Rule-based approach Artificial Neural Network(ANN) 훈련처리 음성DB 특징추출

13 DTW (Dynamic Time Warping) 기반 음성인식
2. 음성인식 처리과정 DTW (Dynamic Time Warping) 기반 음성인식 . . . Reference Pattern Input Speech . . . Input Pattern

14 HMM(Hidden Markov Model) 기반 음성인식
2. 음성인식 처리과정 HMM(Hidden Markov Model) 기반 음성인식 기본특성 확률모델을 이용한 통계적 패턴인식 방법 음성특징 벡터열 X가 주어졌을 때, 그에 해당하는 단어열 W를 찾는 것 argmaxW P(W|X)=argmaxW P(X|W)P(W) Bayes 결정이론 (Bayes decision theory) : 만일 P(X|W)와 P(W)를 구할 수 있다면, 최대 사후 추정확률 방법(Maximum A Posteriori (MAP) decoder )이 최소 인식오류를 보장함 통계적 패턴인식 과정 : 훈련과정 인식과정 장점 소어휘 고립단어인식에서 불특정화자 대어휘 연속음성인식까지 일관된 방법으로 구현 가능하여 폭 넓게 사용됨 우수한 성능, 유연한 구조, 탁월한 확장성 단점 다량의 훈련용 음성 DB 필요

15 음성과 HMM의 관계 (관측확률분포: B) 2. 음성인식 처리과정 보기 : “일” Speech State Transition
Probability (상태천이확률 : A) 음성의 HMM 구조 (Left-to-right model) Initial state probability (초기상태확률 : ) Observation probability distribution (관측확률분포: B) Observation vector (관측벡터) HMM : (A,B, p) l1

16 HMM에 의한 단어모델 훈련과정 2. 음성인식 처리과정 waveform feature Converged? Yes Feature
il i chil Converged? Yes Speech database Feature Extraction Baum-Welch Re-estimation end No Word HMM l1 l2 l7

17 단어단위 HMM에 의한 고립단어 인식과정 . 2. 음성인식 처리과정 HMM for word 1 l1 칠 P(X|l1)
Likelihood computation . Recognized word Speech Feature extraction Select maximum HMM for word V lV Likelihood computation P(X|lV)

18 음성인식 처리과정 – 언어처리 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 2. 음성인식 처리과정 입력음성
특징벡터열 후보단어 출력문장 Feature Extraction Pattern Classification Language Processing 음성DB 음향 모델 (음소, 단어) 언어 모델 (어휘,문법,주제) 특징추출 훈련처리

19 언어 모델 기반 언어처리 Reduces search space within plausible word sequences
2. 음성인식 처리과정 언어 모델 기반 언어처리 Reduces search space within plausible word sequences Finite state network (FSN), Context Free Grammar (CFG) Small vocabulary system Stochastic grammar (N-gram) Estimate probability of a word from previous n-1 words Bigram P(w2|w1) Trigram P(w3|w1,w2) Medium and Large vocabulary system 서울 부산 에서 출발 세시 네시 대구 대전 도착 하는 기차 버스 $time = 세시|네시; $city = 서울|부산|대구|대전; $trans = 기차|버스; sent-start $city (에서 $time 출발 | 출발 $city 도착) 하는 $trans sent-end P(에서|서울)=0.2 P(세시|에서)=0.5 P(출발|세시)=1.0 P(하는|출발)=0.5 P(출발|서울)=0.5 P(도착|대구)=0.9

20 음성인식 응용 로봇 자동통역시스템 방송 뉴스 자동 스크립션 음성인식 네비게이션 음성인식 전등스위치 감정인식 …
3. 음성인식 응용 음성인식 응용 로봇 자동통역시스템 방송 뉴스 자동 스크립션 음성인식 네비게이션 음성인식 전등스위치 감정인식 20 20

21 구글 코리아 - 한국어 음성검색 서비스 21


Download ppt "자동 음성 인식 (Automatic Speech Recognition)"

Similar presentations


Ads by Google