음운변화현상을 반영한 한국어 발음열 자동생성

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
진우석 오준민 정무여 김상구 황현서 5조5조.
4 장 : 언어음 ( 음성학 ). 지난 시간 Last Class – We talked about..  1. 음성학  음이 어떻게 물리적으로 만들어지는가 ?  2. 조음위치  어느 위치에서 소리가 만들어 지는가 ?  3. 조음방법  어떻게 소리가 만들어 지는가.
7 장 언어의 형식적 특성 지적장애 언어재활 구미대학교 언어재활과.  형식 (Form): 구문론, 형태론, 음운론  내용 (content): 의미론 - 어휘에 대한 지식 및 사물과 사건에 대한 지식  기능 (use): 화용론 - 대화를 수행하기 위한 규칙 언어의.
제 5 장 구문 정의  프로그래밍 언어의 기본 문자 집합  Alphabet 문자 (A-Z) 26 개 + 아라비아 숫자 (0 - 9) 10 개  예 ) Fortran : 기본 문자 집합 + 13 개의 특수문자 (=+ - * / ( ),. $ ‘ : 공백 ) Algol60.
Clostridium difficile 정량 배양과 반정량 배양의 비교 진단검사의학과 미생물계 박상준.
형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)
(1) 말소리와 발음 갈래 : 설명문 성격 : 체계적, 해설적, 객관적 제재 : 우리말의 음운
4. 알고 싶은 것, 묻고 싶은 것 ⑴ 국어의 음운 체계와 변동 이해하기.
음운의 변동 선양한국국제학교 8학년 Sweetpapo
서강대학교 Spoken Language Processing Lab. 박 영희
컴퓨터와 인터넷.
언어 발달 Daegu University.
Chapter 16 : Struts 프레임워크 2. chapter 16 : Struts 프레임워크 2.
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
신호처리 실험 (Signal Processing Lab)
10장 랜덤 디지털 신호처리 1.
Hybrid INDIGO project 중간보고
데이터 파일 C 데이터 파일과 스트림(Stream) 텍스트 파일 처리
이 사이트는 국제 영어교육학회(TESOL)의 말, 발음 및 듣기 분과(SPLIS)의 공식 사이트이다. 분과에 대한 정보 이외에, 이 사이트는 발음 문제에 대한 논의와 발음지도에 대한 정보를 포함한다. 참고도서,
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
컴퓨터 프로그래밍 기초 #02 : printf(), scanf()
CAS (Computer Algebra System) 소개
Part-of-Speech Tagging Markov Model Tagger를 중심으로
차세대통신시스템 2. 신호와 시스템 (2) March 14 – 15, 2011 Yongwon Lee
Central Gas Monitoring System 2005
11장. 1차원 배열.
제 1장. 멀티미디어 시스템 개요.
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
26강_CSS3 규칙 CSS파일 규칙 Lecturer Kim Myoung-Ho
5. Context-free 문법 5-1. 서 론 5-2. 유도와 유도 트리 5-3. CFG표기법.
자연어 처리 (Natural Language Processing) (Lecture Note #27)
27장. 모듈화 프로그래밍.
컴퓨터소프트웨어설계및실험 년 1학기 실험계획 -.
Visual Basic 실습 Project Portfolio 한문 모의고사 생성기
프로그래밍 언어론 - 소개 순천향대학교 컴퓨터공학과 하 상 호.
Excel 일차 강사 : 박영민.
시뮬레이션 기반 가상 보조기구 알고리즘 최적화
Mobile braille system for the blind
USN(Ubiquitous Sensor Network)
2019년도 전자정보공학과 이수체계도 1학년(트랙) 2학년(트랙) 3학년(트랙) 4학년 1학기 2학기 1학기 2학기 1학기
AUTODESK AUTOCAD ELECTRICAL 전기제어 2D 설계 소프트웨어 표준기반 설계 생산성 도구 구조도 설계
졸업 요건 충족을 위한 추가 이수 학점에 대해서는 ‘졸업요건‘ 규정 확인 바람
한국어 발음의 이해 Sang Yee Cheon (전상이)
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
자바 5.0 프로그래밍.
한국어의 자음들 - 평음, 경음, 격음을 중심으로 중국해양대학교 한국연구소 특강 서울대학교 국어국문학과
문자열 컴퓨터시뮬레이션학과 2015년 봄학기 담당교수 : 이형원 E304호,
텍스트 분석 기초.
VHDL를 이용한 DES 설계 정보통신컴퓨터공학부 5조 김인옥, 백미숙
CAS (Computer Algebra System) 소개
접어의 정의 및 특징 박진현.
1. 학교생활기록부 반영 비중 확대 (1) 학생부 신뢰도 현황과 제고 노력
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
(2) 국어의 음운 단모음과 이중모음 단모음 체계 자음 체계.
단어 허인영 한국어 형태론 발제
TEXT 콘텐츠의 학습적 활용을 위한 Moodle의 사용자 중심 기능 개선 제안
..재외동포 대상 한국어 교육 방안 (학습자 연령에 따른 한국어 교육)
System Security Operating System.
마이크로프로세서 수업진행 안 한밭대학교 컴퓨터공학과 송 명 규.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
실습과제 (변수와 자료형, ) 1. 다음 작업 (가), (나), (다)를 수행하는 프로그램 작성
Automatic Music Transcription
자연언어 처리 인지과학 입문.
아날로그 신호를 디지털 신호로 변환하는 A/D 변환기 A/D 변환 시 고려하여 할 샘플링 주파수 D/A 변환기
6 객체.
소리가 작으면 이어폰 사용 권장!.
Presentation transcript:

음운변화현상을 반영한 한국어 발음열 자동생성 2002. 2. 19 서강대 컴퓨터학과 이경님

차례 서론 한국어의 발음 변화 관련연구 한국어 음운변화 현상 분석 발음열 자동 생성 시스템 결론 및 향후 과제 형태음운론적 분석에 기반한 문자열-발음열 자동변환 결론 및 향후 과제

한국어의 발음 변화 발음 변화 예제 학생 [학쌩], 학문 [항문], 법학 [버팍] 신라 [실라], 음운론 [음운논] 감기 (명사) [감기], 감기 (어간 + 어미) [감끼] 겨울나그네 [겨울라그네] 너는 산을, 나는 바다를 [너는 사늘, 나는 바다를] 사적 (史蹟) [사적], 사적 (史的) [사쩍] 감기 (음소 문맥:ㅁ+ㄱ) 감끼 (형태소:명사) (형태소:어간+어미) 솜이불 (음소 문맥:ㅁ+ㅇ) 솜니불 소미 (형태소:복합명사) (형태소:명사+조사) 솜이 문자열 발음열

발음열 자동 생성의 필요성 음성 인식기 학습용 말뭉치 생성 인식용 발음 사전 생성 음성 합성기 입력 문장에 대해 발음열로 자동 변환 필요 수작업으로 인한 소비 시간의 절약 시스템 확장시 일관성 유지

관련 연구 서강대 (규칙 기반 발음열 생성) 전재훈, 위선희, 정민화, “Generating Pronunciation Dictionary by Analyzing Phonological Variations Frequently Found in Spoken Korean”, International Conference on Speech Processing, 1997. 전재훈, 차선화, 정민화, 박준, 황규웅, “Generating Korean Pronunciation Variants by Multistage Applications of Phonological Rules”, International Conference on Spoken Language Processing, 1998. 차선화, 정민화, “TTS 시스템을 위한 한국어 발음열 자동 생성”, 음성통신 및 신호처리 워크샵 , 1998. 이경님, 전재훈, 정민화, “한국어 연속음성 인식을 위한 발음열 자동 생성”, 한국 음향학회지, 2001.

독일어 영역 M.-B. Wesenick , “Automatic Generation of German Pronunciation Variants”, International Conference on Spoken Language Processing, 1996. 독일어에서 약 1500 개의 변이음 규칙을 이용하여 문자열을 발음열로 변환 한국어 영역 김병창, 이원일, 이근배, 이종혁, “한국어 TTS를 위한 무제한 단어 자소열-음소열 변환”, HCI’98 학술대회, 1998. 형태소-음소열 말뭉치  CCV 음운변화 규칙  형태소 내부의 발음열 생성 형태소-음소열 메타사전  형태소 경계의 발음열 생성 영역 전환시, 새로운 영역의 형태소-음소열 말뭉치 필요

한국어의 음운 변화 과정

음운 변화 규칙 음소 변동 규칙 필수 음소 변동 규칙 수의적 음소 변동 규칙 변이음 규칙 반드시 적용되어야 하는 음운 변화 규칙 형태소 내부/복합어 경계/어절 내부/형태소간/동사 어간 어미 경계/어절 경계에 적용되는 음소 변동 규칙 틀 수의적 음소 변동 규칙 발화의 형태에 따라 선택적으로 적용되는 규칙 변이음 규칙 음소가 발화되는 위치에 따른 변이음 실현 음소 문맥에 따른 규칙 적용 음절경계에서 규칙이 적용될 앞 음절 초성과 뒷 음절 종성의 음소 쌍을 음소 문맥으로 정의

음소 변동 규칙 규칙의 종류 예제 규칙 번호 세부 규칙수 음절말 중화 자음군 단순화 격음화(기식음화) 연음규칙 유음화 1 음절말 중화 앞압 (ㅍㅂ) 179 2 자음군 단순화 흙흑 (ㄺㄱ) 256 3 격음화(기식음화) 좋던조턴 (ㅎ+ㄷd+ㅂ) 21 4 연음규칙 밥이바비 (ㅂ+ㅇd+ㅂ) 42 5 유음화 난로날로 (ㄴ+ㄹㄹ+ㄹ) 10 6 장애음의 비음화 국물궁물 (ㄱ+ㅁㅇ+ㅁ) 34 7 유음의 비음화 담력담녁 (ㅁ+ㄹㅁ+ㄴ) 19 8 구개음화 굳이구지 (ㄷ+ㅇd+ㅈ) 9 경음화 국밥국빱 (ㄱ+ㅂㄱ+ㅃ) 136 종성 ㅎ-탈락 좋은조은 (ㅎ+ㅇd+ㅇ) 11 ㄴ-첨가 솜이불솜니불 (ㅁ+ㅇ ㅁ+ㄴ) 30 12 동일 조음위치 자음탈락 주먹코주머코 (ㄱ+ㅋd+ㅋ) 13 중복 자음화 재빨리잽빨리 (Φ+ㅃㅂ+ㅃ) 14 변자음화 감기강기 (ㅁ+ㄱㅇ+ㄱ) 17 15 초성 ㅎ-탈락 시험시엄 (Φ+ㅎ Φ+d) 16 자음 첫소리 ‘의’ 모음화 희망히망 (ㅢㅣ) 18 용언의 활용형 ‘져,쪄,쳐’의 모음화 가져가저 (ㅕㅓ) • 필수음운변동 규칙 - 1~11번 규칙 - 16~17번 규칙 • 수의적 음운변동 규칙 - 12~15번 규칙 상태전이 형태 규칙틀 사용

세부 음소 변동 규칙 표현 예: 장애음의 비음화 규칙 일부 (총 34 중 3개 ) 형태소 내부 음소 변동 규칙 틀의 일부 예제 19개의 가능한 초성 27 개의 가능한 종성 적용 플래그 적용 규칙 번호

(Phonetic Transcription) 발음열 자동 생성 알고리즘 필수음소 변동규칙 조합형 예외사전 텍스트 분석 및 전처리 예외사전 검색 형태소 태그? 명사 (default) 프로세서 복합어 조사 어간 어미 1차 변형된 음소열 수의적 음소변동 적용 변이음 규칙 적용 텍스트 입력 최종 결과 출력 (Phonetic Transcription) 형태음운론적 분석에 기반한 문자열-발음열 자동변환 (형태소 분석 결과 이용) • 음소 문맥별 세부 규칙수 총 787개 (필수 752 + 수의 35) • 다중 발음열 생성 • 적용된 변이음 규칙 - 유성음화, 무파화, 구개음화

음소 변동 규칙 적용 과정 입력 : 신발을 신고 걸어 간다

입출력 예제 단위 입력형태 출력형태 (디코딩 & 사전표제어 단위) 단어 어절 태깅된 문장 하한가 에 백칠십 주 를 매수 하 겠습니다 [하한까] HH AA HI AA N KK AA [에] EY [백칠씹] P EH KQ CH IY L SS IY PQ [주] Z UW [를] R WW L [매수] M EH S UW [하] HH AA [겓씀니다] K EY TQ SS WW M N IY D AA 어절 하한가에 백칠십주를 매수하겠습니다 [하한까에] HH AA HI AA N KK AA EY [백칠씹쭈를] P EH KQ CH IY PQ ZZ UW [매수하겓씀니다] M EH S UW HI G EY TQ SS WW M N IY D AA 태깅된 하한가/ncn+에/jca 170/nnn+주/nbu+를/jco 매수/ncpa+하/xsv+겠/ep습니다/ef 전처리기 동작후 입력 백/nnc+칠십/nnc+주/nbu+를/jco 매수/ncpa+하/xsv+겠습니다/ef [하한까] HH AA HI AA N KK AA [에] EY [백] P EH KQ CH IY [칠씹] CH IY L SH IY PQ [쭈] ZZ UW [를] R WW L [매수] M EH S UW [하] HI AA [겓씀니다] G EY TQ SS WW M N IY D AA 문장 하한가에 백칠십주를 매수하겠습니다 [하한가에] HH AA HI AA N KK AA EH [백칠씹쭈를] B EH KQ CH IY L SS IY PQ ZZ UW R WW L [매수하겓씀니다] M EH S UW HI G EY TQ SS WW M N IY D AA

결론 발음열 생성 시스템의 장점 요약 어절, 언절, 문장 등 다양한 입력에 대해 발음열로 변환 형태소 경계 및 어절 경계에서의 음운 변화 현상 반영 음성 인식 및 합성에 유용 요약 형태음운론을 반영한 발음열 자동 생성 형태소 분석기 통합을 통한 사용자 편의성 도모 불규칙 처리를 통한 오류 감소 실험을 통한 예외 사전 축소, 규칙 안정화 최적의 발음 사전 구축

결론 향후 과제 생략과 축약이 빈번한 대화체의 음운 변이를 위한 형태소 분석 필요 발음열 학습을 통한 최적 발음열 생성 발음열 변환기를 통한 표준 발음열 생성 음성 데이터 전사 수작업을 통한 실제 발화 발음열 획득 표준 발음열과 실제 발화 발음열을 사용한 학습 학습 결과를 음성 사전에 반영