음운변화현상을 반영한 한국어 발음열 자동생성 2002. 2. 19 서강대 컴퓨터학과 이경님
차례 서론 한국어의 발음 변화 관련연구 한국어 음운변화 현상 분석 발음열 자동 생성 시스템 결론 및 향후 과제 형태음운론적 분석에 기반한 문자열-발음열 자동변환 결론 및 향후 과제
한국어의 발음 변화 발음 변화 예제 학생 [학쌩], 학문 [항문], 법학 [버팍] 신라 [실라], 음운론 [음운논] 감기 (명사) [감기], 감기 (어간 + 어미) [감끼] 겨울나그네 [겨울라그네] 너는 산을, 나는 바다를 [너는 사늘, 나는 바다를] 사적 (史蹟) [사적], 사적 (史的) [사쩍] 감기 (음소 문맥:ㅁ+ㄱ) 감끼 (형태소:명사) (형태소:어간+어미) 솜이불 (음소 문맥:ㅁ+ㅇ) 솜니불 소미 (형태소:복합명사) (형태소:명사+조사) 솜이 문자열 발음열
발음열 자동 생성의 필요성 음성 인식기 학습용 말뭉치 생성 인식용 발음 사전 생성 음성 합성기 입력 문장에 대해 발음열로 자동 변환 필요 수작업으로 인한 소비 시간의 절약 시스템 확장시 일관성 유지
관련 연구 서강대 (규칙 기반 발음열 생성) 전재훈, 위선희, 정민화, “Generating Pronunciation Dictionary by Analyzing Phonological Variations Frequently Found in Spoken Korean”, International Conference on Speech Processing, 1997. 전재훈, 차선화, 정민화, 박준, 황규웅, “Generating Korean Pronunciation Variants by Multistage Applications of Phonological Rules”, International Conference on Spoken Language Processing, 1998. 차선화, 정민화, “TTS 시스템을 위한 한국어 발음열 자동 생성”, 음성통신 및 신호처리 워크샵 , 1998. 이경님, 전재훈, 정민화, “한국어 연속음성 인식을 위한 발음열 자동 생성”, 한국 음향학회지, 2001.
독일어 영역 M.-B. Wesenick , “Automatic Generation of German Pronunciation Variants”, International Conference on Spoken Language Processing, 1996. 독일어에서 약 1500 개의 변이음 규칙을 이용하여 문자열을 발음열로 변환 한국어 영역 김병창, 이원일, 이근배, 이종혁, “한국어 TTS를 위한 무제한 단어 자소열-음소열 변환”, HCI’98 학술대회, 1998. 형태소-음소열 말뭉치 CCV 음운변화 규칙 형태소 내부의 발음열 생성 형태소-음소열 메타사전 형태소 경계의 발음열 생성 영역 전환시, 새로운 영역의 형태소-음소열 말뭉치 필요
한국어의 음운 변화 과정
음운 변화 규칙 음소 변동 규칙 필수 음소 변동 규칙 수의적 음소 변동 규칙 변이음 규칙 반드시 적용되어야 하는 음운 변화 규칙 형태소 내부/복합어 경계/어절 내부/형태소간/동사 어간 어미 경계/어절 경계에 적용되는 음소 변동 규칙 틀 수의적 음소 변동 규칙 발화의 형태에 따라 선택적으로 적용되는 규칙 변이음 규칙 음소가 발화되는 위치에 따른 변이음 실현 음소 문맥에 따른 규칙 적용 음절경계에서 규칙이 적용될 앞 음절 초성과 뒷 음절 종성의 음소 쌍을 음소 문맥으로 정의
음소 변동 규칙 규칙의 종류 예제 규칙 번호 세부 규칙수 음절말 중화 자음군 단순화 격음화(기식음화) 연음규칙 유음화 1 음절말 중화 앞압 (ㅍㅂ) 179 2 자음군 단순화 흙흑 (ㄺㄱ) 256 3 격음화(기식음화) 좋던조턴 (ㅎ+ㄷd+ㅂ) 21 4 연음규칙 밥이바비 (ㅂ+ㅇd+ㅂ) 42 5 유음화 난로날로 (ㄴ+ㄹㄹ+ㄹ) 10 6 장애음의 비음화 국물궁물 (ㄱ+ㅁㅇ+ㅁ) 34 7 유음의 비음화 담력담녁 (ㅁ+ㄹㅁ+ㄴ) 19 8 구개음화 굳이구지 (ㄷ+ㅇd+ㅈ) 9 경음화 국밥국빱 (ㄱ+ㅂㄱ+ㅃ) 136 종성 ㅎ-탈락 좋은조은 (ㅎ+ㅇd+ㅇ) 11 ㄴ-첨가 솜이불솜니불 (ㅁ+ㅇ ㅁ+ㄴ) 30 12 동일 조음위치 자음탈락 주먹코주머코 (ㄱ+ㅋd+ㅋ) 13 중복 자음화 재빨리잽빨리 (Φ+ㅃㅂ+ㅃ) 14 변자음화 감기강기 (ㅁ+ㄱㅇ+ㄱ) 17 15 초성 ㅎ-탈락 시험시엄 (Φ+ㅎ Φ+d) 16 자음 첫소리 ‘의’ 모음화 희망히망 (ㅢㅣ) 18 용언의 활용형 ‘져,쪄,쳐’의 모음화 가져가저 (ㅕㅓ) • 필수음운변동 규칙 - 1~11번 규칙 - 16~17번 규칙 • 수의적 음운변동 규칙 - 12~15번 규칙 상태전이 형태 규칙틀 사용
세부 음소 변동 규칙 표현 예: 장애음의 비음화 규칙 일부 (총 34 중 3개 ) 형태소 내부 음소 변동 규칙 틀의 일부 예제 19개의 가능한 초성 27 개의 가능한 종성 적용 플래그 적용 규칙 번호
(Phonetic Transcription) 발음열 자동 생성 알고리즘 필수음소 변동규칙 조합형 예외사전 텍스트 분석 및 전처리 예외사전 검색 형태소 태그? 명사 (default) 프로세서 복합어 조사 어간 어미 1차 변형된 음소열 수의적 음소변동 적용 변이음 규칙 적용 텍스트 입력 최종 결과 출력 (Phonetic Transcription) 형태음운론적 분석에 기반한 문자열-발음열 자동변환 (형태소 분석 결과 이용) • 음소 문맥별 세부 규칙수 총 787개 (필수 752 + 수의 35) • 다중 발음열 생성 • 적용된 변이음 규칙 - 유성음화, 무파화, 구개음화
음소 변동 규칙 적용 과정 입력 : 신발을 신고 걸어 간다
입출력 예제 단위 입력형태 출력형태 (디코딩 & 사전표제어 단위) 단어 어절 태깅된 문장 하한가 에 백칠십 주 를 매수 하 겠습니다 [하한까] HH AA HI AA N KK AA [에] EY [백칠씹] P EH KQ CH IY L SS IY PQ [주] Z UW [를] R WW L [매수] M EH S UW [하] HH AA [겓씀니다] K EY TQ SS WW M N IY D AA 어절 하한가에 백칠십주를 매수하겠습니다 [하한까에] HH AA HI AA N KK AA EY [백칠씹쭈를] P EH KQ CH IY PQ ZZ UW [매수하겓씀니다] M EH S UW HI G EY TQ SS WW M N IY D AA 태깅된 하한가/ncn+에/jca 170/nnn+주/nbu+를/jco 매수/ncpa+하/xsv+겠/ep습니다/ef 전처리기 동작후 입력 백/nnc+칠십/nnc+주/nbu+를/jco 매수/ncpa+하/xsv+겠습니다/ef [하한까] HH AA HI AA N KK AA [에] EY [백] P EH KQ CH IY [칠씹] CH IY L SH IY PQ [쭈] ZZ UW [를] R WW L [매수] M EH S UW [하] HI AA [겓씀니다] G EY TQ SS WW M N IY D AA 문장 하한가에 백칠십주를 매수하겠습니다 [하한가에] HH AA HI AA N KK AA EH [백칠씹쭈를] B EH KQ CH IY L SS IY PQ ZZ UW R WW L [매수하겓씀니다] M EH S UW HI G EY TQ SS WW M N IY D AA
결론 발음열 생성 시스템의 장점 요약 어절, 언절, 문장 등 다양한 입력에 대해 발음열로 변환 형태소 경계 및 어절 경계에서의 음운 변화 현상 반영 음성 인식 및 합성에 유용 요약 형태음운론을 반영한 발음열 자동 생성 형태소 분석기 통합을 통한 사용자 편의성 도모 불규칙 처리를 통한 오류 감소 실험을 통한 예외 사전 축소, 규칙 안정화 최적의 발음 사전 구축
결론 향후 과제 생략과 축약이 빈번한 대화체의 음운 변이를 위한 형태소 분석 필요 발음열 학습을 통한 최적 발음열 생성 발음열 변환기를 통한 표준 발음열 생성 음성 데이터 전사 수작업을 통한 실제 발화 발음열 획득 표준 발음열과 실제 발화 발음열을 사용한 학습 학습 결과를 음성 사전에 반영