SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실
Pattern Matching problem cf) 2014 학년도 2 학기 대화형 사용자 인터페이스 개론 강의자료 Ch.2 HMM 대화형 사용자 인터페이스 개론 2
Speaker Recognition Speaker Verification Client Impostor Speaker verification Ok No Speaker verification 대화형 사용자 인터페이스 개론 3
GMM, SVM GMM (Gaussian Mixture Model) -GMM 은 화자 인식에서 활용되는 알고리즘. -Impostor 데이터 분포의 density estimation 에 기반을 두고 이에 대해서 client 에 이를 적용하는 방식이다. SVMs (Support Vector Machines) - 화자 인식의 궁극적 목표는 client 가 맞는지 아닌지에 대한 classify 이다. -Discriminative 방식으로 화자 인식을 접근할 수 있다. 대화형 사용자 인터페이스 개론 4
System Overview UBM (Universal Background Model) 대화형 사용자 인터페이스 개론 5
수행 내용 Pre-processing – 오픈소스 툴을 이용하여 NIST sphere audio file 을 waveform audio file(*.wav) 로 변형. Speech Data –2004 NIST Speaker Recognition Evaluation (LDC2006S44) –Telephone speech Speech file 확장자 –.sph (speech waveform data) –.scr (scores) –.nbest (N-best lists) –.ctm (ASR transcripts) 대화형 사용자 인터페이스 개론 6
수행 내용 Feature Extraction –Waveform audio 파일에 대한 특징을 추출하여 matrix 형태로 저장한다. pyVerif (verification toolkit) –Python 오픈소스 ( –Configuration 옵션을 수정하여.sph 파일을.wav 파일로 변환. –Extracting features (.wav ->.mat) –Features files 에서 silence 를 제거함. 대화형 사용자 인터페이스 개론 7
수행 내용 Speaker Modeling –Client 의 목소리에 따른 모델을 만들어 verification system 에서의 패턴 매칭에 사용되도록 한 다. –Development dataset 을 두어 Scoring 을 위한 parameter 를 학습할 수 있도록 한다. Scoring – 미리 구해놓은 모델을 통해서 일정 threshold 보다 큰 경우 client 로 판별하고 그렇지 않은 경우 에는 impostor 로 판별한다. Torch3 (machine learning library) –C++ 오픈소스 –Ubuntu 시스템에서 빌드함. – 각 알고리즘 (GMM, SVMs) 의 Speaker modeling 등을 위한 프로그램 대화형 사용자 인터페이스 개론 8