Presentation is loading. Please wait.

Presentation is loading. Please wait.

서강대학교 Spoken Language Processing Lab. 박 영희

Similar presentations


Presentation on theme: "서강대학교 Spoken Language Processing Lab. 박 영희"— Presentation transcript:

1 서강대학교 Spoken Language Processing Lab. 박 영희
대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석 Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition 서강대학교 Spoken Language Processing Lab. 박 영희

2 Introduction Goal : 낭독체와 얼마나 다른가? 대화 특징 대화체 연속음성의 특징 파악
음성인식 측면에서 대화현상의 분류 각 대화현상에 대한 해결방안 모색 낭독체 연속음성인식 기법을 이용한 기본 인식률 낭독체 연속음성인식 기법을 이용할 때의 문제점 및 논의사항 대화 특징 Disfluencies(DFs): filled pause, repetition, substitution, insertion, deletion, speech error 발음 변이(Pronunciation variation) Spoken Language Lab.

3 대화체 음성 DB 여행계획 영역 대화 현상 전사 전사 예 Simulated conversations 여행사 직원과 고객
잡음 : 입술소리, 쩝소리, … 발음 변이: 표준 발음이 아니면 표준발음전사 간투어, 수정 또는 잘못 발화, … 숫자는 각기 한 어절 전사 예 TP #1 (98년) TP #2 (99년) 발화 조 25조 시나리오 25개 시나리오 15개 시나리오 1조 발화 4개 시나리오 5개 시나리오 TOTAL 총 100대화 총 125대화 갑:예/ 안녕하십니까? h/ 월드 와이드 여행사 김철숩니다/김철수입니다. 을:ls/ 아/ 예/ 제가 시월/10월 이/2 일부터 육/6 일까지 신혼여행을 가려/ 가려고 하는데요 . 어/ h/ 항공편이나 뭐/ 호텔 예약 같은 걸 하고 싶습니다 . 갑:예/ 어/ 오후 다섯/5 시 경에 지금 어/ h/ 예약 가능한 항/ 항공편이요 어/ h/ 아시아나 항공편이 지금 두/2 편 남아 있습니다 . h/ 어/ 하나/1 가 오후 네/4 시 이십/20 분에 출발하고 h/ 하나/1 가 오후 다섯/5 시 이십/20 분에 출발합니다 . 어/ 오후 네/4 시 오십/50 분 편도 있었는데 방금 매진 됐습니다 . h/ 어/ 일/1 인당 요금이 오만/50000 구천/9000 원인데요 h/ 어떤 것으로 예약하시겠습니까 ? ls/ 을:예/ 다섯/5 시 이십/20 분에 비행기가 있다고 하셨죠? 갑:예. Spoken Language Lab.

4 데이터베이스의 특징 음성 DB 가공 크기 Utterance Length 1 turn = 1 file = 1 utterance
잡음 제거, 표준전사 변환 후 형태소 분석 DFs 포함 크기 Utterance Length Utterances 문 장 어 절 형태소 Uniq형태소 TP #1 6,006 9,108 62,946 103,406 1,994 TP #2 5,491 6,639 36,084 69,421 1,174 Avg 어절 Max 어절 Avg 형태소 Max 형태소 TP #1 10.5 170 17.2 320 TP #2 6.6 59 12.6 108 Spoken Language Lab.

5 Probability of a fluent sentence by sentence length
ICSLP96, Shriberg Corpus ATIS AMEX SWBD TP#1 TP#2 b 0.9922 0.9453 0.9447 0.940 0.985 Spoken Language Lab.

6 대화 특성의 분류 대화현상 분포 분류 I DFs 발음변이 백분율 TP#1 7,022 (11.2%) 4,400 (7 %)
11,422 (18.2%) TP#2 1,712 (4.7%) 1,520 (4.2%) 3,232 (8.9%) 분류 비 고 DFs 잡음 (Noise) N/ ls/ 예 (예정입 ls/ 니까)/예정입니까 음향 모델 - noise modeling 간투어 (Filled pause) 예/ 저/ 어/ 어/ 기차가 예/ 혹시 뭐/ 예약 반복/수정 발화 (Repeat/repair) 예약/ 예약하신다구요 연회장이/ 대연회장이 맞/ 맞습니까 예약하시/ 예약하셨습니다 (호텔 아/ 에는)/호텔에는 TP#1 : 약 690회 Tp#2 : 약 170회 발음 변이 (표준전사와 틀린 발음) - 분류 II 했구여/했고요 알겠슴다/알겠습니다 그르구/그리고 어트게/어떻게 그러믄/그러면 기타 : ‘요’의 빈번한 출현 ‘과/와’보다 ‘하고’를 더 많이 사용 Spoken Language Lab.

7 묵음 구간 분류 I에 포함되지 않음 낭독체와 달리 한 발화 안에서 묵음 구간이 빈번히 나타나고, 길어지는 현상을 보인다.
낭독체의 음향모델 학습시 short pause로 처리되던 부분 많은 삽입오류 유발 비지도 학습 수행 낭독체 사전 구성 대화체 사전 구성 ㄴ N Q ㄴ가 N G AA Q ㄴ가요 N G AA JO Q ㄴ가요 N G AA JX Q ㄴ N Q ㄴ N sil ㄴ가 N G AA sil ㄴ가 N G AA Q 텍스트 ls/ h/ 예/ 제 사업상 회의참석을 할려고/하려고 제/ 제주도+에 가려고 하는데요. ls/ Force alignment 수행 후의 레이블 파일 sil gbm gbm je Q Z EY sil S AA AX PQ SS AA NX sil HH WE WI Q CH AA M S AX G Q WW R Q HH AA Q L L JX G OW sil Z EY sil Z EY ZH UW D OW Q EY Q K AA R JX Q G OW Q HH AA Q N WW N D EY JO sil gbm sil Spoken Language Lab.

8 간투어 (Filled Pause) 기존 연구 특징 비언어적인 요소로 분류되기도 했음 언어적인 경계정보
발화 위치에 따른 다음 단어의 예측 기능 음성 분할에 이용 : 문장의 시작부분에 많이 나타나는 특성 특징 대화이므로 (의미없는) 응답성의 “예”가 가장 많이 나타남 발화의 자유도에 따라 나타나는 간투어의 분포가 다르다. TP#1 : ‘어/음’과 같이 발화 도중 생각하거나 ‘아’와 같이 발화 수정을 위한 간투어들이 많은 부분을 차지 TP#2 : ‘예/네’와 같이 응답성이 대부분을 차지 분 포 TP#1 TP#2 DFs 7,022어절 (11.2%) 1,712 어절 (4.7%) 간투어 Top 10개 : DFs의 80.1% Top 10개 : DFs의 89.9% 분포 예(29.4%), 어(26.4%), 아(9.2%), 음(3.8%), 그(3.1%), 좀(2.9%), 네(2.1%) 예(61%), 네(11%), 어(7%), 아(6%) : 84.9% Spoken Language Lab.

9 음향모델 : 다른 PLU 사용 여부 어휘모델 : “예 어”  “예_어” 언어모델 평가 : WER 계산에 포함 시킬지 여부
“어”, “음”과 같이 발화 도중 머뭇거리거나 생각할 때 나타나는 간투어는 어절 안의 같은 음절보다 길게 발화 빈도수가 높은 “예(je)”, “어(ax)”, “아(aa)”만 다른 PLU 사용 어(ax) : 어절 안은 짧고, 간투어는 길게 발화 예(je) : 어절 안에서 잘 나타나지 않음 아(aa) : 길이 차이가 없음  “어(ax)”만 간투어 모델링 어휘모델 : “예 어”  “예_어” 언어모델 다른 단어와 구별하지 않고 똑같이 취급 평가 : WER 계산에 포함 시킬지 여부 base 70.43 아(aa) 68.35 어(ax) 71.05 예(je) 66.92 Spoken Language Lab.

10 반복/수정 발화 기존 연구 분포 및 특징 현상이 많이 나타나지 않음 Prediction 기능이 있음 Word fragments
반복/수정을 위해 이전 단어를 제대로 발화하지 않고 중간에 중단 예: 아시/ 아시아나, 투/ 투숙하실 모델링에서 제외 분포 및 특징 한국어에서는 대부분이 word fragment 형태소 분석시 문제 : “예약하셨”  “예약+하+셨” 형태소 분석을 어떻게 할 것인가? 언어모델에서 모두 무시할 것인가? 논문에서는 특별히 고려하지 않고 다른 단어와 같이 취급 TP#1 690회 (전체 어절의 1%) TP#2 170회 Spoken Language Lab.

11 발음 변이 분류 II (TP#1) TP#1만 대상 : 4400회 (전체 어절의 7%) 분 류 예 TP #1 TP #2 빈도수
백분율 양성음의 음성음 발화 ~구여, ~구요, ~고여 데여, 알구, 하구 3,164 71.8% 387 38.1% 음운축약 / 탈락 했슴다, 주십쇼, 일임다 예맬/예매를 오심/오시면 김철숩니다/김철수입니다 까집니다/까지입니다 317 7.2% 85 8.4% 패턴화된 발음변이 그르구/그리고 어트케/어떻게 그러믄/그러면 518 11.8% 277 27.3% 발화 오류 오우/오후 예양하고/예약하고 405 9.2% 266 26.2% 총 합 4,404 전체어절의 7% 1,015 전체어절의 3% Spoken Language Lab.

12 대화체에 적용 방안: 형태소 분석된 것을 기준으로
발음 사전에 다중 발음으로 추가 변형이 심하면: 전사 파일을 수정 → 언어모델 변화 양성음의 음성음화 자연스럽게 발화할 때 흔하게 나타나는 현상 어미 변형 : 발음 사전에 추가, 37(23) 추가 음운축약 / 탈락 전사 파일 수정 형태소가 없어질 때 : ‘이’ 탈락 (김철숩니다/김철수+이+ㅂ니다) 변형이 심하고, 표준처럼 사용될 때 : 근데/그런데, 담에/다음에, … 발음사전에 추가 : ~슴다/~습니다, ~ㅁ다/~ㅂ니다, ~십쇼/~십시요 패턴화된 대화현상 발음 사전에 추가: 24(13) 추가 그리고(그르고/그리구) , 어떻게(어트케/어뜨케/어더케), … ‘ㄹ’ 삽입(대부분) : 할려고/하려고, 걸로/거로 그러며는/그러면, 써비스/서비스, 렌터카/렌터카, 달라/달러, … Spoken Language Lab.

13 인식 실험 인식기 : HTK, 6 Gaussian mixtures 학습 및 테스트 DB 언어모델 Backoff bigram
Low coverage, 데이터 부족 문제가 크다. Perplexity & MER(Morpheme Error Rate) Other : 7M 형태소, 방송뉴스, 신문 이질 텍스트 추가시 PP는 감소하지만, 인식 성능은 떨어짐 학습 테스트 TP #1 (약 10시간) 21조, 84 대화, 5,021 발화 4조, 16 대화, 834 발화 TP #2 (약 7.5시간) 21조, 105 대화, 4,621 발화 4조, 20 대화, 870 발화 학습 데이타 Perplexity MER(%) TP#1 TP#2 TP#1 / TP#2 262.03 98.86 34.77 20.75 ALL( + other) 93.81 54.94 41.18 23.57 Spoken Language Lab.

14 음향모델 낭독체와 대화체 음향모델 결합 낭독체 음향모델 → 대화체로 adaptation 대화체 특성 반영 모델 추가
SILENCE, Short pause, 잡음 모델(gbm), 간투어 모델(aa) 대화특성 반영에 따른 형태소 에러율 분 류 MER(%) 감소율 Baseline 31.65 Base + Sil 30.65 2.08 Base + Sil + GBM 29.57 Base + Sil + GBM + FP 28.84 0.73 Base + Sil + GBM + P1 28.99 0.92 Base + Sil + GBM + P2 29.33 Base + Sil + GBM + P1 + P2 28.73 Base + Sil + GBM + FP + P1 + P2 27.92 전체 감소율 (절대치) 3.73 % Sil : 묵음 모델 GBM : 잡음 FP : 간투어 P1 : 양성음의 음성음화 P2: 축약, 패턴화된 발음변이 Spoken Language Lab.

15 결론 및 향후 과제 결론 향후과제 대화체 연속음성 인식을 위한 베이스라인 구축
자세한 분석을 위해서는 텍스트에 세부적 annotation 필요 각각에 대한 세부적인 연구 필요 인식 대상이 되는 utterance가 너무 길다. 대화체에 적합한 음향모델에 대한 연구 필요 Noise, 간투어(예, 어_예, …), … 언어모델 텍스트 수집 방안 Noise, 간투어, fragment words 처리 방안 대화체에 적합한 언어모델 연구 발음사전 평가 방법 검증 Spoken Language Lab.


Download ppt "서강대학교 Spoken Language Processing Lab. 박 영희"

Similar presentations


Ads by Google