Presentation is loading. Please wait.

Presentation is loading. Please wait.

한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10(금). 김성호 영남대학교 전자공학과.

Similar presentations


Presentation on theme: "한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10(금). 김성호 영남대학교 전자공학과."— Presentation transcript:

1 한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) (금). 김성호 영남대학교 전자공학과

2 Outline Introduction of emotional speech recognition
Related works and current status Standard emotional recognition system MFCC feature Classification by SVM Experimental results Concusions

3 Introduction Speech Information in speech
A sequence of elementary acoustic symbols Information in speech Gender information, age, accent, speaker’s identity, health, and emotion Application of emotional speech recognition Recently, increased attention in this area 융합과제: 반한 감정에 대한 정량적 분석에 도움. Human-Robot interaction Smart call-centers Computer tutoring system

4 Related Works (2007-2008) [J. Sidorova, 2007] [T. Danisman, 2008]
Feature: pitch, intensity, formant, harmonicity  116 dim. Classifier: MLP (neural-network) Number of emotions: 7 types (neutral, angry, disgusted, fear, joy, surprise, sad) Test DB: EMO-DB (Deutch)  80.67% [T. Danisman, 2008] Feature: MFCC, energy Classifier: SVM (Support Vector Machine) Number of emotions: 5 types (angry, happy, neutral, sad, surprise) Test DB: DES-DB (Denmark)  67.6%

5 Related Works (2009-2011) [M. Vondra, 2009] [M. El Ayadi, 2011] Survey
Feature: F0, Intensity, MFCC Classifier: GMM (Gaussian Mixture Model) Number of emotions: 7 types Test DB: EMO-DB (Deutch)  71.63% [M. El Ayadi, 2011] Survey Feature  Best feature is unknown. Classifier HMM, GMM SVM, Neural Net, k-NN Current performance Speaker independent: around 50% Speaker dependent: over 90%

6 Standard Method of Emotional Speech Recognition
Key algorithm Feature extractor: MFCC Classifier: SVM Testing acoustic files MFCC Recognized emotions Training acoustic files SVM or Nearest class mean classifier MFCC

7 Feature for Emotional Speech Recognition
Mel Frequency Cepstral Coefficients (MFCC) Convey information of short time energy in frequency domain Signal Fourier transform (frequency domain) Mapping the power spectrum onto the mel scale Mel Scale Take Log of powers at each mel frequency Take discrete Cosine transform Hertz Scale Mel scale: 사람이 차이를 느끼는 주파수 간격 Final MFCC: Amplitude of resulting spectrum

8 Classifier: Support Vector Machine
Original SVM  basically binary class classifier Multiclass SVM  use multiple SVMs and voting Feature space Learning: Finding optimal classifier Ex. y=ax+b Recognition: Performed by the learned classifier

9 Classifier: Nearest Class Mean
Feature space Recognition: Finding nearest class Learning: Finding class means

10 Exp.1 on EMO Database EMO DB
7 types (happy, angry, anxious, fearful, bored, disgusted, neutral) 10 kinds of sentences 10 people (male 5, female 5) Language: Deutch anger happy boredom

11 Recognition using Nearest Class Mean Classifier
Learning: 150 (randomly selected), test: 150 Recognition rate: 47.0%

12 Recognition using SVM Recognition rate: 38.0%
SVM 보다 Nearest Class Mean Classifier가 우수함.

13 Exp2. 독일어로 학습  일본어 테스트 놀람 슬픔 기쁨  독일어와 일본어의 차이로 인해 인식이 불안정함.

14 Exp3. 일본어로 학습  일본어로 테스트 DB구성: 5개 감정, 57개 음성클립 (언덕 위의 구름 4화만 활용)
'neutral 'anger’ 'happy’ ‘surprise’ 'sad'

15 인식결과: Nearest Class Mean Classifier 이용
56.7% neutral anger happy surprise sad

16 인식결과: SVM 이용 86.6%  SVM 인식 기법이 더 우수함. neutral anger happy surprise
sad 86.6%  SVM 인식 기법이 더 우수함.

17 Exp.4 확장 실험 학습: 158 음성 클립(1-4화, 2초/클립) 26,635x20dim
10회 반복(cross-validation, random sampling, 5000개 feature, 16ms/feature) 평균인식률: 92.85 neutral anger happy surprise sad

18 제1화 전체 음성 파일 분석 결과 세 주인공의 유년시절 나레이션 많음. 배경 음악 자주 있음. 불꽃놀이 헤어짐 영어수업
neutral anger happy surprise sad 순양함 감탄 surprise

19 제2화 전체 음성 파일 분석 결과 세 주인공의 학창시절 나레이션 많음. 배경 음악 자주 있음. 해군 훈련 surprise

20 제3화 전체 음성 파일 분석 결과 청일전쟁 직전 나레이션 많음. 배경 음악 자주 있음. 부친상, 회상, 나레이션
조선군대 파병 관련 관료 대화 surprise

21 제4화 전체 음성 파일 분석 결과 청일전쟁 나레이션 많음. 배경 음악 자주 있음. 나레이션 육상전쟁 해상전쟁 종군기자

22 제5화 전체 음성 파일 분석 결과 청일전 승리 얘기 미국 방문 나레이션 많음. 민비시해사건소개(놀람) 미국 무도회
나이아가라폭포관광(놀람)

23 제6화 전체 음성 파일 분석 결과

24 제7화 전체 음성 파일 분석 결과 해군교육 (anger) 문학인죽음 (sad) 장례식 (sad)

25 제8화 전체 음성 파일 분석 결과

26 제9화 전체 음성 파일 분석 결과 출항, 헤어짐 (sad) 전투 (anger) 전투 (anger)

27 결론 감성 언어 인식 기법 결론 ‘언덕위의 구름’ 전체 음성 분석 결과
MFCC 특징량 추출 및 인식기(SVM, Nearest mean class classifier) 개발 독일어 7종 감정 인식 성능은 최대 47%임. 독일어 학습  일본어 감정 인식 성능은 매우 안좋음. 일본어 5종 감정 학습  일본어 감정 인식 최대 성능은 92.85%임. ‘언덕위의 구름’ 전체 음성 분석 결과 1-9화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서 감정이 일부 상관 관계가 있었지만, 배경 음악, 나레이션 등에 의해 무의미한 부분이 많음. 반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음.


Download ppt "한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10(금). 김성호 영남대학교 전자공학과."

Similar presentations


Ads by Google