한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10(금). 김성호 영남대학교 전자공학과.

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

Rethink: Big Intelligence? 2014 년 9 월 27 일 삼성전자 어길수 부사장.
인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
발표자 : KAIST 산업디자인과 김명석 교수 지능형 로봇 디자인기술로드맵 개발결과 설명회 핵심디자인기술의 개념 및 중요성 로봇 디자인 기술 로봇 서비스 컨텐츠 디자인기술 로봇 조형 생성 기술 로봇 생산 지원 디자인기술 로봇디자인 개발환경 구축.
EMLAB Modeling of Digital Communication Systems using Simulink Chap2. Sinusoidal Simulink Model Chap3. Digital Communications BER Performance in AWGN (BPSK.
PRESENTATION EMBEDDED AND BIO DATABASE LAB YONSEI UNIVERSITY, XX JUNGRIM KIM.
2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필 목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델.
주제 : 독거여성노인의 현황과 대책 학 과 학 번 성 명 사회복지학과 김 진 석
김 형 진 전북대학교 IT응용시스템공학과 정보통신의 기본원리 Chapter 김 형 진 전북대학교 IT응용시스템공학과.
IT CookBook, 쉽게 배우는 신호 및 시스템
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
스테레오 비젼을 위한 3장 영상의 효율적인 영상정렬 기법
Neural Network - Perceptron
신호 분석 방법에 관한 연구 컴퓨터 응용과학부 김수진.
Chapter 3 데이터와 신호 (Data and Signals).
Smart-phone 액정교체 비용 40만 원 2013년 model 12.0만 원 엣지model 30만 원 20만 원
분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Application of Acoustic Sensing and Signal Processing for PD Detection in GIS 20003년 05월 10일 이 찬 영.
제4장 자연언어처리, 인공지능, 기계학습.
Hybrid INDIGO project 중간보고
데이터마이닝의 소개 Data Mining Introduction
발표제목 발표제목 둘째 줄 2000년 11월 송 홍 엽 연세대학교 전기전자공학과 송 홍 엽
선형회귀분석.
Learning Classifier using DNA Bagging
A Dining Context-Aware System with Mobile and Wearable Devices
EPS Based Motion Recognition algorithm Comparison
Word2Vec Tutorial 박 영택 숭실대학교.
자동 음성 인식 (Automatic Speech Recognition)
Accelerometer Data Collection and Preprocessing
Tel : Office : 2공학관 408호 오토마타 및 형식언어 김 현 성 Tel : Office : 2공학관 408호
Technological Forecasting & social change(2014)
양견모 The 4th International Conference on Mobile Services, Resources, and Users: Mobility 2014 양견모
A Survey of Affect Recognition Methods :
제 3 장 신경회로망 (Neural Networks)
Cluster Analysis (군집 분석)
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
for Robust Facial Landmark Localization
Computer Vision & Pattern Recognition Lab. 김 태 철 (월)
머신 러닝 2 ㈜ 퀀트랩.
GoldExperience 통신공학설계실험 Kim Hyun Tai
GoldExperience 통신공학설계실험 Kim Hyun Tai
Parallel software Lab. 박 창 규
Data Mining Final Project
Mathematical Description of Continuous-Time Signals
Progress Seminar 선석규.
정보 추출기술 (Data Mining Techniques ) : An Overview
CSI8751 인공지능특강 Hybrid Intelligent Systems: Methodologies and Applications 2007년도 제 1학기.
좋은징조 담당교수 : 조성제 김도엽 김현일 이상훈.
Statistical inference I (통계적 추론)
인공지능 소개 및 1장.
Machine Learning using Neural Networks
시스템 분석 및 설계 글로컬 IT 학과 김정기.
The normal distribution (정규분포)
Chapter Ⅱ. 연구 설계.
Extracting Schedule Information from Korean
MR 댐퍼의 동특성을 고려한 지진하중을 받는 구조물의 반능동 신경망제어
IBM Corporation {haoxing, eleve, kravets,
Definitions (정의) Statistics란?
Bug Localization Based on Code Change Histories and Bug Reports
CH557 진화연산 2003년도 제 2학기.
전환교육 (3/19) 중등특수교육과 강혜경.
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Progress Seminar 신희안.
연구 진행 상황 보고서 Insulin Pump CPF Xproject 2주전 계획 연구 결과 문제점 및 대책 목표 및 계획
Progress Seminar 선석규.
Progress Seminar 선석규.
Progress Seminar 이준녕.
Progress Seminar 선석규.
Progress Seminar 권순빈.
Presentation transcript:

한국연구재단 학제간 융합연구팀 주최 세미나 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10(금). 김성호 영남대학교 전자공학과

Outline Introduction of emotional speech recognition Related works and current status Standard emotional recognition system MFCC feature Classification by SVM Experimental results Concusions

Introduction Speech Information in speech A sequence of elementary acoustic symbols Information in speech Gender information, age, accent, speaker’s identity, health, and emotion Application of emotional speech recognition Recently, increased attention in this area 융합과제: 반한 감정에 대한 정량적 분석에 도움. Human-Robot interaction Smart call-centers Computer tutoring system

Related Works (2007-2008) [J. Sidorova, 2007] [T. Danisman, 2008] Feature: pitch, intensity, formant, harmonicity  116 dim. Classifier: MLP (neural-network) Number of emotions: 7 types (neutral, angry, disgusted, fear, joy, surprise, sad) Test DB: EMO-DB (Deutch)  80.67% [T. Danisman, 2008] Feature: MFCC, energy Classifier: SVM (Support Vector Machine) Number of emotions: 5 types (angry, happy, neutral, sad, surprise) Test DB: DES-DB (Denmark)  67.6%

Related Works (2009-2011) [M. Vondra, 2009] [M. El Ayadi, 2011] Survey Feature: F0, Intensity, MFCC Classifier: GMM (Gaussian Mixture Model) Number of emotions: 7 types Test DB: EMO-DB (Deutch)  71.63% [M. El Ayadi, 2011] Survey Feature  Best feature is unknown. Classifier HMM, GMM SVM, Neural Net, k-NN Current performance Speaker independent: around 50% Speaker dependent: over 90%

Standard Method of Emotional Speech Recognition Key algorithm Feature extractor: MFCC Classifier: SVM Testing acoustic files MFCC Recognized emotions Training acoustic files SVM or Nearest class mean classifier MFCC

Feature for Emotional Speech Recognition Mel Frequency Cepstral Coefficients (MFCC) Convey information of short time energy in frequency domain Signal Fourier transform (frequency domain) Mapping the power spectrum onto the mel scale Mel Scale Take Log of powers at each mel frequency Take discrete Cosine transform Hertz Scale Mel scale: 사람이 차이를 느끼는 주파수 간격 Final MFCC: Amplitude of resulting spectrum

Classifier: Support Vector Machine Original SVM  basically binary class classifier Multiclass SVM  use multiple SVMs and voting Feature space Learning: Finding optimal classifier Ex. y=ax+b Recognition: Performed by the learned classifier

Classifier: Nearest Class Mean Feature space Recognition: Finding nearest class Learning: Finding class means

Exp.1 on EMO Database EMO DB 7 types (happy, angry, anxious, fearful, bored, disgusted, neutral) 10 kinds of sentences 10 people (male 5, female 5) Language: Deutch anger happy boredom

Recognition using Nearest Class Mean Classifier Learning: 150 (randomly selected), test: 150 Recognition rate: 47.0%

Recognition using SVM Recognition rate: 38.0% SVM 보다 Nearest Class Mean Classifier가 우수함.

Exp2. 독일어로 학습  일본어 테스트 놀람 슬픔 기쁨  독일어와 일본어의 차이로 인해 인식이 불안정함.

Exp3. 일본어로 학습  일본어로 테스트 DB구성: 5개 감정, 57개 음성클립 (언덕 위의 구름 4화만 활용) 'neutral 'anger’ 'happy’ ‘surprise’ 'sad'

인식결과: Nearest Class Mean Classifier 이용 56.7% neutral anger happy surprise sad

인식결과: SVM 이용 86.6%  SVM 인식 기법이 더 우수함. neutral anger happy surprise sad 86.6%  SVM 인식 기법이 더 우수함.

Exp.4 확장 실험 학습: 158 음성 클립(1-4화, 2초/클립) 26,635x20dim 10회 반복(cross-validation, random sampling, 5000개 feature, 16ms/feature) 평균인식률: 92.85 neutral anger happy surprise sad

제1화 전체 음성 파일 분석 결과 세 주인공의 유년시절 나레이션 많음. 배경 음악 자주 있음. 불꽃놀이 헤어짐 영어수업 neutral anger happy surprise sad 순양함 감탄 surprise

제2화 전체 음성 파일 분석 결과 세 주인공의 학창시절 나레이션 많음. 배경 음악 자주 있음. 해군 훈련 surprise

제3화 전체 음성 파일 분석 결과 청일전쟁 직전 나레이션 많음. 배경 음악 자주 있음. 부친상, 회상, 나레이션 조선군대 파병 관련 관료 대화 surprise

제4화 전체 음성 파일 분석 결과 청일전쟁 나레이션 많음. 배경 음악 자주 있음. 나레이션 육상전쟁 해상전쟁 종군기자

제5화 전체 음성 파일 분석 결과 청일전 승리 얘기 미국 방문 나레이션 많음. 민비시해사건소개(놀람) 미국 무도회 나이아가라폭포관광(놀람)

제6화 전체 음성 파일 분석 결과

제7화 전체 음성 파일 분석 결과 해군교육 (anger) 문학인죽음 (sad) 장례식 (sad)

제8화 전체 음성 파일 분석 결과

제9화 전체 음성 파일 분석 결과 출항, 헤어짐 (sad) 전투 (anger) 전투 (anger)

결론 감성 언어 인식 기법 결론 ‘언덕위의 구름’ 전체 음성 분석 결과 MFCC 특징량 추출 및 인식기(SVM, Nearest mean class classifier) 개발 독일어 7종 감정 인식 성능은 최대 47%임. 독일어 학습  일본어 감정 인식 성능은 매우 안좋음. 일본어 5종 감정 학습  일본어 감정 인식 최대 성능은 92.85%임. ‘언덕위의 구름’ 전체 음성 분석 결과 1-9화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서 감정이 일부 상관 관계가 있었지만, 배경 음악, 나레이션 등에 의해 무의미한 부분이 많음. 반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음.