Automatic Music Transcription

Automatic Music Transcription
A.I.Lab 형아영

Syllable Segmentation
기존의 산토끼 악보 WaveForm(산토끼_Male) Mel-filterbank Coefficient

Preprocessing 끝점 검출(End-Point Detection) : STE, ZCR Syllable Segmentation 음절에는 하나의 모음이 반드시 들어있고, 모음은 큰 에너지를 유지 에너지 곡선 : 음절의 수(단어)에 따른 에너지 펄스를 나타냄 모음 (formant) 부분 검출 : 지속시간이 60msec를 넘지않으면 잡음 (예: 에너지의 값이 40dB를 넘는 점이 생기면 모음부분의 시작으로 여기고 다시 40dB를 내려가는 점이 나오면 음절의 모음부분 찾게 됨) - 모음의 시작과 끝 부분에 150msec 의 구간을 자음위치로 추정

Fixed frame : 에너지 윤곽선 추출 → smoothing Pitch간격에서 최대값을 이용 : 음성의 최대값을 연결하여, deep을 경계로 예측

Pitch Detection 12음계의 어떤 음에 해당하는가? (옥타브)

Pitch Detection Pitch Detection
Peak spectrum : 피크 성분 추출(audio spectrum – smoothed spectrum) Pitch candidate selection : peak index 생성 → 해당 오디오 프레임 후보 피치 Comb filtering : 후보 피치 들 중에서 대표 피치 값 결정(주파수 영역) 주파수 인덱스 : 12음계 단위(한 옥타브에 12개의 음을 배치) 인접한 두 개의 음은 일정한 비율의 주파수를 나타냄 α12 = 2, α=10log2/12 =

Pitch_SIDE Autocorrelation function 이용한 Pitch Detection

Pitch_SIDE SIDE 알고리즘 이용(iteration = 200)

Musical Note Duration

Musical Note Scale 미 솔 파 높은 도 도 레

Musical Note Scale 옥타브의 주파수와 음높이
실험 데이터 : 134~160(도), 142~151(레), 160~169(미), 174(파) 184~207(솔), 251~60(높은 도)

Node detection_Intensity
0.01 초 마다 데이터 추출(dB단위)

프로그램 수행 결과(30dB, 0.3초) 2 1

애국가 악보

프로그램 수행 결과(60dB, 0.3초) 4 3 5 1 7 2 6

Node detection_Pitch Data
↓ ④ ③ ↓ ⑤ ① ↓ ⑦ ② ↓ ⑥

② ⑤ ③ ④ ①

↓ ↓ ③ ② ① ④

④ ③ ① ↓ ↓ ②

Music Scale Recognition
절대음정 1옥타브 : 반음은 두 음 사이의 주파수라 가정(단위 Hz) SIDE 적용 후 주파수 표(남녀 각 1명) 성별 도 레 미 파 솔 라 시 남 126 143 161 173 195 216 244 264 여 260 299 333 350 393 439 494 523

절대음정 근사(approximation) 남성의 음정 모델을 이용 산토끼 인식률(반음을 고려치 않음) 25음절 중 5개 오류(80% 인식) 여성의 음정 모델을 이용 꼬마눈사람 인식률(반음을 고려치 않음) 42음절 중 8개 오류(80% 인식)

상대음정 앞 음과의 상대적인 변화를 측정하여 변화정도로 음정을 결정함 음역이 다름으로 인해 생기는 개인차를 고려하지 않음 첫 음의 음정을 알고 있어야 함 제안 : 표준음표 혹은 남성 모델에서 첫 음을 결정

상대음정 근사(approximation) 남성의 음정 모델을 절대값으로 이용 첫 음(기준음)이 “ 솔 ” , 200Hz 산토끼 인식률(반음을 고려치 않음) 25음절 중 5개 오류(80% 인식) 음정 도 레 미 파 솔 라 시 주파수 133 149 167 177 200 211 251 266 비율 1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000

상대음정 근사(approximation) 꼬마눈사람 여성의 음정 모델을 이용(기준음 389Hz, “솔”) 42음절 중 13개 오류(70% 인식) B여성의 음정 모델을 이용(기준음 345Hz, “솔”) 42음절 중 3개 오류(92.86% 인식) 음정 도 레 미 파 솔 라 시 주파수 259 290 326 345 389 435 488 518 비율 1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000 음정 도 레 미 파 솔 라 시 주파수 230 258 289 307 345 386 434 460 비율 1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000

Node detection 휴지기 정보를 이용 마디를 기준으로 근접한 점을 찾아냄 ↑ 0.25 0.5 0.75 1.25 1.5
1.75

Node detection 산토끼 마디 정보 ↑ ↑ ↑ ↑ ↑ ↑ ↑ 31 4.110812 14 1.120812
↑ 기준 ↑ ↑ ↑ ↑ ↑ ↑

Node detection 애국가 ↑ ↑ 마디 정보 ↑ ↑ ↑ ↑ ↑ 71 23.993334 47 6.083333
↑ ↑ 기준 ↑ ↑ ↑

Node detection 애국가 마디 정보 ↑ ↑ ↑ ↑ ↑ 53 9.233083 11 2.333083 48 4.583083
↑ ↑ ↑ ↑ 기준 ↑

Node detection 애국가 마디 정보 ↑ ↑ ↑ ↑ ↑ ↑ ↑ 43 5.313390 11 1.373390
↑ ↑ ↑ ↑ 기준 ↑ ↑ ↑

Accent Measure 눈꽃송이(4분의3박자)
마디 1 : 91(약)/107(강)/5(약)/17(강)/10(약)/86(강)/8(약) 마디 2 : 42(강)/7(약)/35(강)/13(약)/124(강)/56(약) ↑ ↑

Accent Measure 반달(8분의 6박자) 마디 1: 44(약)/362(강)/138(약)
마디 2: 72(강)/9(약)/26(강)/19(약) 62(강)/17(약)/228(강)/67(약) ↑ ↑

Automatic Music Transcription

Similar presentations

Presentation on theme: "Automatic Music Transcription"— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

Automatic Music Transcription

Similar presentations

Presentation on theme: "Automatic Music Transcription"— Presentation transcript:

Similar presentations

About project

지원