서강대학교 Spoken Language Processing Lab. 박 영희

Slides:



Advertisements
Similar presentations
아직도 하루 평균 머무는 시간이 5 분인 복도 ( 계단 ) 에 광고하고 계신가요 ? 어느 곳에 광고 하시겠습니까 ? VS 5분5분 7 시간.
Advertisements

SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.
아이튠즈 계정 생성. 1. 인터넷을 통해 설치한 아이튠즈를 실행 한 후 그림의 순서대로 선택을 합니다. 1 2.
대표자명 / 연락처 / 이메일 ( 기 창업인 경우 회사 명칭 ) 지원하려는 사업 명칭 사업계획서 작성양식.
시작 mbc 9 시 뉴스 안녕하십니까 ? mbc 9 시 뉴스에 정아나 아나운서 입니다. 인천 지하철 2 호선 이 필요 하다는 쪽과 필요 없다는 쪽으로 나뉘고 있습니다.
Creativity, Challenge, Confidence 마케팅 인사이트 연구 1 본부 이정헌 부장 Tel Mobile Consumer Trends 2007 최근.
1. 메인 *예약 하기* 출발지 도착지 출발날짜 출발시간 클래스 총 인원 왕복/편도 타이틀 로그인
지원자를 위한 인턴 사원 채용 FAQ.
<<< 시스템등록정보 “하드웨어-장치관리자” 설정 >>>
요한복음 3:16.
하나님의 말씀 사람이 마음으로 자기의 길을 계획할지라도 그의 걸음을 인도하시는 이는 여호와시니라
Excel 일차 강사 : 박영민.
Hybrid INDIGO project 중간보고
Windows Server 장. 사고를 대비한 데이터 백업.
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
회원가입 클릭.
07 그룹 함수 그룹 함수의 개념 그룹 함수의 종류 데이터 그룹 생성 HAVING 절.
3강 한글 맞춤법 총칙.
분석적 사고 (Analytical Thinking)
Error Detection and Correction
iframe 사용하기 Chapter 3 Part 2
Progress Seminar 선석규.
회원가입 클릭.
602 LAB FDTD 를 이용한 Acoustic Simulation 지도: 이형원 교수님 차진형.
제 1장. 멀티미디어 시스템 개요.
하나님의 말씀 너희가 악할지라도 좋은 것을 자식에게 줄 줄 알거든 하물며 너희 하늘 아버지께서 구하는 자에게
FRF 해석 방법 문의 국민대학교 연락처 :
음운변화현상을 반영한 한국어 발음열 자동생성
7가지 방법 PowerPoint에서 공동 작업하는 다른 사용자와 함께 편집 작업 중인 사용자 보기
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
뇌를 자극하는 Windows Server 2012 R2
Clean.
3D 프린팅 프로그래밍 01 – 기본 명령어 강사: 김영준 목원대학교 겸임교수.
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
예수께서 이르시되 오히려 하나님의 말씀을 듣고 지키는 자가 복이 있느니라 하시니라 누가복음 11장 28절 말씀 -아멘-
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
밀도 (1) 부피가 같아도 질량은 달라요 ! 밀도의 측정 밀도의 특징.
국가 간 불평등 현상과 해결방안 본 연구물은 학교 수업을 위해 개발된 것으로 교육 이외의 목적으로 사용될 수 없습니다.
차량 번호판 영상인식을 이용한 주차장 출입통제 시스템
너는 나 외에는 다른 신들을 네게 두지 말라 출애굽기 20장 3절 말씀 -아멘-.
20강 패턴을 통한 객체지향 언어의 이해 - II - 난이도 있는 패턴 예제 - I Lecturer Kim Myoung-Ho
텍스트 분석 기초.
끓는점을 이용한 물질의 분리 (1) 열 받으면 누가 먼저 나올까? 증류.
Cakewalk Sonar Graphic EQ.
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
인사의 기본 자세 때와 장소에 맞는 인사말 11차시(언어예절 ½) 인사말 지도/라화자 선생님, 윤상홍 선생님
PCA 개선 서울대학교 박노열.
[알파코스] 네 번째 왜 그리고 어떻게 기도해야 하는가?.
Word2Vec.
Word Embedding.
안녕하세요!.
언어예절 교과서 124쪽~126쪽.
각각 그 마음에 정한대로 할 것이요 인색함으로나 억지로 하지 말지니 하나님은 즐겨 내는 자를 사랑하시느니라
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
하나님의 말씀 이스라엘이여 여호와의 구원을 너는 행복한 사람이로다 그는 너를 돕는 방패시요 너 같이 얻은 백성이 누구냐
7. 힘과 운동 속력이 변하지 않는 운동.
텍스트 분석 ㈜ 퀀트랩.
원기둥의 인식 룡정실험소학교 최 화.
사람에게 보이려고 그들 앞에서 너희 의를 행하지 않도록 주의하라
하나님의 말씀 찬송하리로다 오는 우리 조상 다윗의 나라여 가장 높은 곳에서 호산나 하더라 마가복음 11장 10절 말씀 -아멘-
Automatic Music Transcription
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
LG 전자 L G 전자 주식회사 발 신 : LG전자 CTO부문 조직문화파트 제 목 : LG전자 연수생 모집공고
DBMS & SQL Server Installation
플래시MX2004 디자인스쿨 Chapter 11. 플래시와 사운드.
오늘의 강의 제목을 입력하세요 소 속 : 인문대학 국어국문학과 이 름 : 홍길동 교수 1.
T로밍카드 상세페이지 기획서 하나샵 E-커머스팀 양희연.
Presentation transcript:

서강대학교 Spoken Language Processing Lab. 박 영희 대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석 Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition 서강대학교 Spoken Language Processing Lab. 박 영희

Introduction Goal : 낭독체와 얼마나 다른가? 대화 특징 대화체 연속음성의 특징 파악 음성인식 측면에서 대화현상의 분류 각 대화현상에 대한 해결방안 모색 낭독체 연속음성인식 기법을 이용한 기본 인식률 낭독체 연속음성인식 기법을 이용할 때의 문제점 및 논의사항 대화 특징 Disfluencies(DFs): filled pause, repetition, substitution, insertion, deletion, speech error 발음 변이(Pronunciation variation) Spoken Language Lab.

대화체 음성 DB 여행계획 영역 대화 현상 전사 전사 예 Simulated conversations 여행사 직원과 고객 잡음 : 입술소리, 쩝소리, … 발음 변이: 표준 발음이 아니면 표준발음전사 간투어, 수정 또는 잘못 발화, … 숫자는 각기 한 어절 전사 예   TP #1 (98년) TP #2 (99년) 발화 조 25조 시나리오 25개 시나리오 15개 시나리오 1조 발화 4개 시나리오 5개 시나리오 TOTAL 총 100대화 총 125대화 갑:예/ 안녕하십니까? h/ 월드 와이드 여행사 김철숩니다/김철수입니다. 을:ls/ 아/ 예/ 제가 시월/10월 이/2 일부터 육/6 일까지 신혼여행을 가려/ 가려고 하는데요 . 어/ h/ 항공편이나 뭐/ 호텔 예약 같은 걸 하고 싶습니다 . 갑:예/ 어/ 오후 다섯/5 시 경에 지금 어/ h/ 예약 가능한 항/ 항공편이요 어/ h/ 아시아나 항공편이 지금 두/2 편 남아 있습니다 . h/ 어/ 하나/1 가 오후 네/4 시 이십/20 분에 출발하고 h/ 하나/1 가 오후 다섯/5 시 이십/20 분에 출발합니다 . 어/ 오후 네/4 시 오십/50 분 편도 있었는데 방금 매진 됐습니다 . h/ 어/ 일/1 인당 요금이 오만/50000 구천/9000 원인데요 h/ 어떤 것으로 예약하시겠습니까 ? ls/ 을:예/ 다섯/5 시 이십/20 분에 비행기가 있다고 하셨죠? 갑:예. Spoken Language Lab.

데이터베이스의 특징 음성 DB 가공 크기 Utterance Length 1 turn = 1 file = 1 utterance 잡음 제거, 표준전사 변환 후 형태소 분석 DFs 포함 크기 Utterance Length Utterances 문 장 어 절 형태소 Uniq형태소 TP #1 6,006 9,108 62,946 103,406 1,994 TP #2 5,491 6,639 36,084 69,421 1,174 Avg 어절 Max 어절 Avg 형태소 Max 형태소 TP #1 10.5 170 17.2 320 TP #2 6.6 59 12.6 108 Spoken Language Lab.

Probability of a fluent sentence by sentence length ICSLP96, Shriberg Corpus ATIS AMEX SWBD TP#1 TP#2 b 0.9922 0.9453 0.9447 0.940 0.985 Spoken Language Lab.

대화 특성의 분류 대화현상 분포 분류 I DFs 발음변이 백분율 TP#1 7,022 (11.2%) 4,400 (7 %) 11,422 (18.2%) TP#2 1,712 (4.7%) 1,520 (4.2%) 3,232 (8.9%) 분류 예 비 고 DFs 잡음 (Noise) N/ ls/ 예 (예정입 ls/ 니까)/예정입니까 음향 모델 - noise modeling 간투어 (Filled pause) 예/ 저/ 어/ 어/ 기차가 예/ 혹시 뭐/ 예약 반복/수정 발화 (Repeat/repair) 예약/ 예약하신다구요 연회장이/ 대연회장이 맞/ 맞습니까 예약하시/ 예약하셨습니다 (호텔 아/ 에는)/호텔에는 TP#1 : 약 690회 Tp#2 : 약 170회 발음 변이 (표준전사와 틀린 발음) - 분류 II 했구여/했고요 알겠슴다/알겠습니다 그르구/그리고 어트게/어떻게 그러믄/그러면 기타 : ‘요’의 빈번한 출현 ‘과/와’보다 ‘하고’를 더 많이 사용 Spoken Language Lab.

묵음 구간 분류 I에 포함되지 않음 낭독체와 달리 한 발화 안에서 묵음 구간이 빈번히 나타나고, 길어지는 현상을 보인다. 낭독체의 음향모델 학습시 short pause로 처리되던 부분 많은 삽입오류 유발 비지도 학습 수행 낭독체 사전 구성 대화체 사전 구성 ㄴ N Q ㄴ가 N G AA Q ㄴ가요 N G AA JO Q ㄴ가요 N G AA JX Q ㄴ N Q ㄴ N sil ㄴ가 N G AA sil ㄴ가 N G AA Q 텍스트 ls/ h/ 예/ 제 사업상 회의참석을 할려고/하려고 제/ 제주도+에 가려고 하는데요. ls/ Force alignment 수행 후의 레이블 파일 sil gbm gbm je Q Z EY sil S AA AX PQ SS AA NX sil HH WE WI Q CH AA M S AX G Q WW R Q HH AA Q L L JX G OW sil Z EY sil Z EY ZH UW D OW Q EY Q K AA R JX Q G OW Q HH AA Q N WW N D EY JO sil gbm sil Spoken Language Lab.

간투어 (Filled Pause) 기존 연구 특징 비언어적인 요소로 분류되기도 했음 언어적인 경계정보 발화 위치에 따른 다음 단어의 예측 기능 음성 분할에 이용 : 문장의 시작부분에 많이 나타나는 특성 특징 대화이므로 (의미없는) 응답성의 “예”가 가장 많이 나타남 발화의 자유도에 따라 나타나는 간투어의 분포가 다르다. TP#1 : ‘어/음’과 같이 발화 도중 생각하거나 ‘아’와 같이 발화 수정을 위한 간투어들이 많은 부분을 차지 TP#2 : ‘예/네’와 같이 응답성이 대부분을 차지 분 포 TP#1 TP#2 DFs 7,022어절 (11.2%) 1,712 어절 (4.7%) 간투어 Top 10개 : DFs의 80.1% Top 10개 : DFs의 89.9% 분포 예(29.4%), 어(26.4%), 아(9.2%), 음(3.8%), 그(3.1%), 좀(2.9%), 네(2.1%) 예(61%), 네(11%), 어(7%), 아(6%) : 84.9% Spoken Language Lab.

음향모델 : 다른 PLU 사용 여부 어휘모델 : “예 어”  “예_어” 언어모델 평가 : WER 계산에 포함 시킬지 여부 “어”, “음”과 같이 발화 도중 머뭇거리거나 생각할 때 나타나는 간투어는 어절 안의 같은 음절보다 길게 발화 빈도수가 높은 “예(je)”, “어(ax)”, “아(aa)”만 다른 PLU 사용 어(ax) : 어절 안은 짧고, 간투어는 길게 발화 예(je) : 어절 안에서 잘 나타나지 않음 아(aa) : 길이 차이가 없음  “어(ax)”만 간투어 모델링 어휘모델 : “예 어”  “예_어” 언어모델 다른 단어와 구별하지 않고 똑같이 취급 평가 : WER 계산에 포함 시킬지 여부 base 70.43 아(aa) 68.35 어(ax) 71.05 예(je) 66.92 Spoken Language Lab.

반복/수정 발화 기존 연구 분포 및 특징 현상이 많이 나타나지 않음 Prediction 기능이 있음 Word fragments 반복/수정을 위해 이전 단어를 제대로 발화하지 않고 중간에 중단 예: 아시/ 아시아나, 투/ 투숙하실 모델링에서 제외 분포 및 특징 한국어에서는 대부분이 word fragment 형태소 분석시 문제 : “예약하셨”  “예약+하+셨” 형태소 분석을 어떻게 할 것인가? 언어모델에서 모두 무시할 것인가? 논문에서는 특별히 고려하지 않고 다른 단어와 같이 취급 TP#1 690회 (전체 어절의 1%) TP#2 170회 Spoken Language Lab.

발음 변이 분류 II (TP#1) TP#1만 대상 : 4400회 (전체 어절의 7%) 분 류 예 TP #1 TP #2 빈도수 백분율 양성음의 음성음 발화 ~구여, ~구요, ~고여 데여, 알구, 하구 3,164 71.8% 387 38.1% 음운축약 / 탈락 했슴다, 주십쇼, 일임다 예맬/예매를 오심/오시면 김철숩니다/김철수입니다 까집니다/까지입니다 317 7.2% 85 8.4% 패턴화된 발음변이 그르구/그리고 어트케/어떻게 그러믄/그러면 518 11.8% 277 27.3% 발화 오류 오우/오후 예양하고/예약하고 405 9.2% 266 26.2% 총 합 4,404 전체어절의 7% 1,015 전체어절의 3% Spoken Language Lab.

대화체에 적용 방안: 형태소 분석된 것을 기준으로 발음 사전에 다중 발음으로 추가 변형이 심하면: 전사 파일을 수정 → 언어모델 변화 양성음의 음성음화 자연스럽게 발화할 때 흔하게 나타나는 현상 어미 변형 : 발음 사전에 추가, 37(23) 추가 음운축약 / 탈락 전사 파일 수정 형태소가 없어질 때 : ‘이’ 탈락 (김철숩니다/김철수+이+ㅂ니다) 변형이 심하고, 표준처럼 사용될 때 : 근데/그런데, 담에/다음에, … 발음사전에 추가 : ~슴다/~습니다, ~ㅁ다/~ㅂ니다, ~십쇼/~십시요 패턴화된 대화현상 발음 사전에 추가: 24(13) 추가 그리고(그르고/그리구) , 어떻게(어트케/어뜨케/어더케), … ‘ㄹ’ 삽입(대부분) : 할려고/하려고, 걸로/거로 그러며는/그러면, 써비스/서비스, 렌터카/렌터카, 달라/달러, … Spoken Language Lab.

인식 실험 인식기 : HTK, 6 Gaussian mixtures 학습 및 테스트 DB 언어모델 Backoff bigram Low coverage, 데이터 부족 문제가 크다. Perplexity & MER(Morpheme Error Rate) Other : 7M 형태소, 방송뉴스, 신문 이질 텍스트 추가시 PP는 감소하지만, 인식 성능은 떨어짐 학습 테스트 TP #1 (약 10시간) 21조, 84 대화, 5,021 발화 4조, 16 대화, 834 발화 TP #2 (약 7.5시간) 21조, 105 대화, 4,621 발화 4조, 20 대화, 870 발화 학습 데이타 Perplexity MER(%) TP#1 TP#2 TP#1 / TP#2 262.03 98.86 34.77 20.75 ALL( + other) 93.81 54.94 41.18 23.57 Spoken Language Lab.

음향모델 낭독체와 대화체 음향모델 결합 낭독체 음향모델 → 대화체로 adaptation 대화체 특성 반영 모델 추가 SILENCE, Short pause, 잡음 모델(gbm), 간투어 모델(aa) 대화특성 반영에 따른 형태소 에러율 분 류 MER(%) 감소율 Baseline 31.65 Base + Sil 30.65 2.08 Base + Sil + GBM 29.57 Base + Sil + GBM + FP 28.84 0.73 Base + Sil + GBM + P1 28.99 0.92 Base + Sil + GBM + P2 29.33 Base + Sil + GBM + P1 + P2 28.73 Base + Sil + GBM + FP + P1 + P2 27.92 전체 감소율 (절대치) 3.73 % Sil : 묵음 모델 GBM : 잡음 FP : 간투어 P1 : 양성음의 음성음화 P2: 축약, 패턴화된 발음변이 Spoken Language Lab.

결론 및 향후 과제 결론 향후과제 대화체 연속음성 인식을 위한 베이스라인 구축 자세한 분석을 위해서는 텍스트에 세부적 annotation 필요 각각에 대한 세부적인 연구 필요 인식 대상이 되는 utterance가 너무 길다. 대화체에 적합한 음향모델에 대한 연구 필요 Noise, 간투어(예, 어_예, …), … 언어모델 텍스트 수집 방안 Noise, 간투어, fragment words 처리 방안 대화체에 적합한 언어모델 연구 발음사전 평가 방법 검증 Spoken Language Lab.