A Survey of Affect Recognition Methods : Audio, Visual, and Spontaneous Expressions 감정 인식에 대한 Survey 논문 . 2009 년도 / 내용이 많아서 핵심 키워드만 추출하였음. 기존에는 6가지 기본 감정 분류를 이용했으나, 최근에는 2차원적인 감정 분 류를 사용함 인위적인 감정 표현에 대해서는 많이 연구가 이루어졌으나, 자발적인 감정 표현 부분은 연구가 더딤. Single-modal 방법보다 Multi-modal 방법이 좋은 성과를 보이나, 연구가 많 이 필요함. (ex)어떻게 다른 종류의 데이터를 합성할 것인가) 얼굴 표정 인식은 대부분 객관적인 분석 방법인 FACS-AUs를 사용함. (그러 나 음성 데이터에서는 객관적인 분석 방법이 부족.) Zhihong Zeng, Member, IEEE Computer Society, Maja Pantic, Senior Member, IEEE, Glenn I. Roisman, and Thomas S. Huang, Fellow, IEEE
1. INTRODUCTION
“Affect Recognition” 필요성 이제는 기존의 컴퓨터 중심의 인터페이스 (마우스, 키보드)가 아닌, 인간 중심의 인터페이스가 필요 “Affect Recognition” 응용 분야 : 고객 서비스, 콜 센터, 게임-엔터테이먼트, 지능형 자동 모바일 시 스템 등에 응용 가능 관련 연구 : 심리학, 정신의학, 행동과학, 신경과학 등의 다양한 학문 발전에 도움
Happiness, Sadness, Anger, Fear, Surprise, Disgust 기본 감정 표현 6 basic emotions Happiness, Sadness, Anger, Fear, Surprise, Disgust (연구 결과 위의 6가지 감정들은 문화에 상관없이 공통적으로 표 현되는 감정이라고 알려짐)
Multi-modal > Single-modal 연구 현황 Multi-modal > Single-modal 최근 연구에서 Audiovisual fusion 접근방식이 좋은 성과를 보이고 있음 Limitation 1. 제한적인 환경에서 의도적으로 표현된 감정들에만 정확도가 높음 2. 실제 자발적인 감정 표현은 의도적인 감정 표현과 매우 다름 3. Multi-modal의 경우 시간적인 연관성에대한 연구가 더 필요함. 기존에는 싱글 모델위주. 1. 얼굴이 가려지면 안되고, 빛이나 배경도 일정해야한다. 2. 예를 들어 자발적인 웃음은 크기가 더 작고, 지속시간이 긴 특징을 갖고 있음
2. Human Affect Perception
Limitation of 6 basic emotion 감정 분류 Limitation of 6 basic emotion 사람 감정의 오직 일부분만을 다룰 뿐임. Alternative : Dimensional labeling Evaluation(Valence) : positive vs negative Activation : active vs passive activation Anger, fear Joy 2차원적으로 감정들의 범위를 배치하면 좀더 다양한 감정을 다룰 수 있다. 그러나 이 역시도 몇가지 감정들은 잘 구분되지 못한다. Ex) Fear and Anger 또한 Surprise 는 이 2차원 안에 표현되기 힘들다. 최근에는 위와 같은 접근 방법으로, 차원을 확장하여 감정을 나타내려는 연구가 있다. 그러나 공학적으로 적용되는 것은 아직 진행 중이다. evaluation Sadness Happiness
Ex) “Facial Action Coding System (FACS)” 감정 판단 Message judgment : 행동자의 내재된 의미 판단 평가자의 주관적인 판단에 기반함 Sign evaluation: 객관적인 외형표현만 판단 Ex) “Facial Action Coding System (FACS)” Message judgment 는 전통적인 접근방법으로, 표정등을 보고 어떤 감정인지 찾으려하는것. FACS는 매우 객관적이기 때문에 연구에 있어 활용도가 높다.
Action Units(AUs) FACS : Action Units(AUs)라는 얼굴의 움직임을 나타내는 단위를 이용해, high-level 의사결정에 필요한 정보 제공(27개의 기본 AUs가 있음.) (High-level mapping의 예) EMFACS : FACS기반의 기본 감정 인식 FACSAID : FACS기반의 감정 해석 데이터베이스 Audio, Visual 신호는 주로 개별적으로 연구되어 왔는데, 이 둘사이의 시간적 연관성이 있음이 밝혀짐. 그러나 더 많은 연구가 필요한 상황.
3. THE STATE OF THE ART
6 basic emotion, dimensional labeling, 자체 기준 5. Labeling 방법 요약 Summary Databases 1. 감정 표현 유도 방법 자발적, 의도적 2. 표본 집단 3. Modality Audio, Video 4. 감정 표현 종류 6 basic emotion, dimensional labeling, 자체 기준 5. Labeling 방법 FACS, self report, human judgment 6. 접근 가능성
exp, per, cues, rea, class, sub, samp, acc 요약 Summary Vision-Based Affect Recognition 1. Facial Feature Gabor wavelets, AAM 등 2. Classifier SVM, HMM 등 3. Performance exp, per, cues, rea, class, sub, samp, acc - Gabor wavelet = gabor filter / 선형 필터, 외곽선 검출. 널리 쓰임 http://thinkpiece.tistory.com/304 - active appearance model (AAM) / 얼굴 인식 알고리즘. 널리 쓰임 http://en.wikipedia.org/wiki/Active_appearance_model - Support vector machine (SVM) / 데이터를 2개의 클래스로 나누어주는 초평면을 구해준다. 오래걸리는 대신 정확함 http://blog.naver.com/minas_isil?Redirect=Log&logNo=140072165900 - Hidden markov model (HMM) / 음성인식에 가장 널리 쓰이는 모델, http://msnayana.blog.me/80102408151
prosody, linguistic, spectral, lexical 2. Classifier 요약 Summary Audio-Based Affect Recognition 1. Feature prosody, linguistic, spectral, lexical 2. Classifier Decision tree, SVM, GMM, HMM 등 3. Performance exp, per, cont, class, sub, samp, acc, other Spectral : 스펙트럼의 Lexical : 어휘적인
prosody, AAM, Gabor wavelets, motion units 2. Fusion 요약 Summary Audiovisual Affect Recognition 1. Feature prosody, AAM, Gabor wavelets, motion units 2. Fusion Feature/Decision/Model- level 2. Classifier SVN, HMM, RNN 3. Performance exp, per, cue, class, sub, samp, acc, other
4. CHALLENGES
1. Limited Data 2. Audio Data 3. Labeling Databases 자발적인 감정 행동 데이터는 실험실 환경에서 얻기 매우 힘듦 Ex) 분노, 슬픔, 공포 등 2. Audio Data 음성 데이터를 어떻게 객관적으로 표현할 것인가 3. Labeling Labeling은 사람이 수동으로 직접하기에 상당한 시간이 소모됨. -> Semisupervised active learning 을 사용할 것을 제안함 1. 대부분의 현존하는 데이터들은 인위적인 감정 행동 웃음은 얻기 쉽다고 함. - 2. 영상 데이터는 객관성을 위해 FACS를 필수적으로 사용함 3. 그럼에도 사람에의한 labeling은 시간이 많이 소모되며 높은 신뢰성을 얻기 위해 관찰자의 충분한 훈련이 필요하다. (아직 시도되지 않음) 자연적인 감정 표현 데이터가 연구에 있어 매우 중요하다. 그러나 이는 수집 하기가 매우 힘들다. 또한 수동적으로 분류하는 작업 또한 비효율적이다. 그래서 대부분의 연구는 인공적인 감정 표현 데이터를 사용한다.
Vision-Based Affect Recognition 1. Constrained condition 자발적인 얼굴 표현 인식은 아직도 제한적인 환경에서만 가능 2. Additional Information 얼굴 표정을 제외한 “머리 움직임, 시선 방향, 몸짓” 등에 대한 연구는 공 학적으로는 아직 연구가 부족함. 1. 가까이 정면에서 본 얼굴 이미지, 그리고 일정한 조명환경 등 실제 환경보 다 제약이 심하다.
Audio-Based Affect Recognition 1. Linguistic And Paralinguistic 어떻게 두 가지 요소를 분리해낼 것인가. 2. Nonlinguistic 한숨이나 하품 같은 표현에 대한 감정 인식은 아직 연구가 부족 두가지 요소를 모두 고려한 것이 이상적인 방법이다.
Audiovisual Affect Recognition Fusion : 서로 다른 두 가지 요소를 어떻게 결합시켜 해석할 것인가 Feature-level fusion audio 와 video 특징을 하나로 붙여서 인식 Decision-level fusion(Classifier fusion) 각각의 정보들을 독립적으로 인식한 다음 최종적으로 하나의 정보로 통합하는 것 Hybrid fusion, Model-level fusion 두 가지 방법의 장점을 적절히 혼합
A Few Additional Related issues 1. Context 대상 컨텐츠나 상황의 문맥을 고려한 감정 인식에 대한 연구가 많이 필요. 2. Segmentation 연속된 정보들을 어떠한 경계로 분할해서 감정을 인식할 것인가. 그리고 multimodal 에서는 어떻게 동기화 할 것인가. 3. Evaluation 각각의 기술에 대한 공통되고 일반적인 평가 방법이 필요. 이와 관련된 추가적인 이슈.
THANK YOU