Download presentation
Presentation is loading. Please wait.
1
Automatic Music Transcription
A.I.Lab 형아영
2
Syllable Segmentation
기존의 산토끼 악보 WaveForm(산토끼_Male) Mel-filterbank Coefficient
3
Syllable Segmentation
Preprocessing 끝점 검출(End-Point Detection) : STE, ZCR Syllable Segmentation 음절에는 하나의 모음이 반드시 들어있고, 모음은 큰 에너지를 유지 에너지 곡선 : 음절의 수(단어)에 따른 에너지 펄스를 나타냄 모음 (formant) 부분 검출 : 지속시간이 60msec를 넘지않으면 잡음 (예: 에너지의 값이 40dB를 넘는 점이 생기면 모음부분의 시작으로 여기고 다시 40dB를 내려가는 점이 나오면 음절의 모음부분 찾게 됨) - 모음의 시작과 끝 부분에 150msec 의 구간을 자음위치로 추정
4
Syllable Segmentation
Fixed frame : 에너지 윤곽선 추출 → smoothing Pitch간격에서 최대값을 이용 : 음성의 최대값을 연결하여, deep을 경계로 예측
5
Pitch Detection 12음계의 어떤 음에 해당하는가? (옥타브)
6
Pitch Detection Pitch Detection
Peak spectrum : 피크 성분 추출(audio spectrum – smoothed spectrum) Pitch candidate selection : peak index 생성 → 해당 오디오 프레임 후보 피치 Comb filtering : 후보 피치 들 중에서 대표 피치 값 결정(주파수 영역) 주파수 인덱스 : 12음계 단위(한 옥타브에 12개의 음을 배치) 인접한 두 개의 음은 일정한 비율의 주파수를 나타냄 α12 = 2, α=10log2/12 =
7
Pitch_SIDE Autocorrelation function 이용한 Pitch Detection
8
Pitch_SIDE SIDE 알고리즘 이용(iteration = 200)
9
Musical Note Duration
10
Musical Note Scale 미 솔 파 높은 도 도 레
11
Musical Note Scale 옥타브의 주파수와 음높이
실험 데이터 : 134~160(도), 142~151(레), 160~169(미), 174(파) 184~207(솔), 251~60(높은 도)
12
Node detection_Intensity
0.01 초 마다 데이터 추출(dB단위)
13
Node detection_Intensity
프로그램 수행 결과(30dB, 0.3초) 2 1
14
Node detection_Intensity
애국가 악보
15
Node detection_Intensity
프로그램 수행 결과(60dB, 0.3초) 4 3 5 1 7 2 6
16
Node detection_Pitch Data
↓ ④ ③ ↓ ⑤ ① ↓ ⑦ ② ↓ ⑥
17
Node detection_Pitch Data
② ⑤ ③ ④ ①
18
Node detection_Pitch Data
↓ ↓ ③ ② ① ④
19
Node detection_Pitch Data
④ ③ ① ↓ ↓ ②
20
Music Scale Recognition
절대음정 1옥타브 : 반음은 두 음 사이의 주파수라 가정(단위 Hz) SIDE 적용 후 주파수 표(남녀 각 1명) 성별 도 레 미 파 솔 라 시 남 126 143 161 173 195 216 244 264 여 260 299 333 350 393 439 494 523
21
Music Scale Recognition
절대음정 근사(approximation) 남성의 음정 모델을 이용 산토끼 인식률(반음을 고려치 않음) 25음절 중 5개 오류(80% 인식) 여성의 음정 모델을 이용 꼬마눈사람 인식률(반음을 고려치 않음) 42음절 중 8개 오류(80% 인식)
22
Music Scale Recognition
상대음정 앞 음과의 상대적인 변화를 측정하여 변화정도로 음정을 결정함 음역이 다름으로 인해 생기는 개인차를 고려하지 않음 첫 음의 음정을 알고 있어야 함 제안 : 표준음표 혹은 남성 모델에서 첫 음을 결정
23
Music Scale Recognition
상대음정 근사(approximation) 남성의 음정 모델을 절대값으로 이용 첫 음(기준음)이 “ 솔 ” , 200Hz 산토끼 인식률(반음을 고려치 않음) 25음절 중 5개 오류(80% 인식) 음정 도 레 미 파 솔 라 시 주파수 133 149 167 177 200 211 251 266 비율 1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000
24
Music Scale Recognition
상대음정 근사(approximation) 꼬마눈사람 여성의 음정 모델을 이용(기준음 389Hz, “솔”) 42음절 중 13개 오류(70% 인식) B여성의 음정 모델을 이용(기준음 345Hz, “솔”) 42음절 중 3개 오류(92.86% 인식) 음정 도 레 미 파 솔 라 시 주파수 259 290 326 345 389 435 488 518 비율 1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000 음정 도 레 미 파 솔 라 시 주파수 230 258 289 307 345 386 434 460 비율 1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000
25
Node detection 휴지기 정보를 이용 마디를 기준으로 근접한 점을 찾아냄 ↑ 0.25 0.5 0.75 1.25 1.5
1.75
26
Node detection 산토끼 마디 정보 ↑ ↑ ↑ ↑ ↑ ↑ ↑ 31 4.110812 14 1.120812
↑ 기준 ↑ ↑ ↑ ↑ ↑ ↑
27
Node detection 애국가 ↑ ↑ 마디 정보 ↑ ↑ ↑ ↑ ↑ 71 23.993334 47 6.083333
↑ ↑ 기준 ↑ ↑ ↑
28
Node detection 애국가 마디 정보 ↑ ↑ ↑ ↑ ↑ 53 9.233083 11 2.333083 48 4.583083
↑ ↑ ↑ ↑ 기준 ↑
29
Node detection 애국가 마디 정보 ↑ ↑ ↑ ↑ ↑ ↑ ↑ 43 5.313390 11 1.373390
↑ ↑ ↑ ↑ 기준 ↑ ↑ ↑
30
Accent Measure 눈꽃송이(4분의3박자)
마디 1 : 91(약)/107(강)/5(약)/17(강)/10(약)/86(강)/8(약) 마디 2 : 42(강)/7(약)/35(강)/13(약)/124(강)/56(약) ↑ ↑
31
Accent Measure 반달(8분의 6박자) 마디 1: 44(약)/362(강)/138(약)
마디 2: 72(강)/9(약)/26(강)/19(약) 62(강)/17(약)/228(강)/67(약) ↑ ↑
Similar presentations