2장 사운드
2.1 사운드의 개요 2.1.1 개요 사운드는 크게 음악, 음성, 음향 효과의 세 분야로 나눌 수 있다. 음악과 음성처럼 독자적으로 사용하기도 하지만, 영화나 에니메이션과 같은 멀티미디어 환경에서는 같이 혼재되어 사용함 2.1.1 개요 사람이 가지고 있는 오감(시각, 청각, 촉각, 미각, 후각) 중 주로 사용되는 정보 전달의 수단은 시각과 청각이다. 2
2.1.2 사운드의 종류 정보 전달 시 사운드를 이용함으로 써 얻는 장점 청각, 시각, 청각+시각 정보 전달의 비교 미디어의 상승 효과 : 여러 미디어를 같이 사용할 수록 정보 전달 효과가 커짐 동기 유발 : 여러 미디어를 혼합함으로써 피 정보 전달자의 동기나 흥미 유발 청각, 시각, 청각+시각 정보 전달의 비교 정보 전달의 필요한 정보를 전달할 때 청각 정보를 사용하면 정보의 전달 효과가 커지게 된다 2.1.2 사운드의 종류 일반적으로 사운드는 음성, 음악 , 음향 효과의 세가지로 분류하고, 컴퓨터에서 처리하는 방법에 따라서는 디지털 오디오(digital audio)와 미디(MIDI)로 분류 3
일반적인 분류 4
컴퓨터에서 사운드를 처리하는 방법에 따른 분류 5
2.2 사운드의 기본 개념 사운드는 음원에서 물체가 진동하여 공기라는 매체의 압력을 변화시킴으로써 생성되고 , 이 변화는 파형(waveform)의 형태로 우리 귀에 전달 사운드를 처리하는 것은 이러한 파형을 가공, 편집하는 것을 의미 소리가 전달 되는 과정 8
2.2.1 사운드의 기본 요소 사이클(cycle) : 일정한 시간 간격마다 반복되는 동일한 모양 주기(period) : 한 사이클이 걸리는 시간 어느 정도의 주기를 갖고 있는 사운드가 그렇지 않은 사운드보다 음악적으로 들림 사운드를 구성하는 3 요소 주파수(frenquency) : 음의 높낮이와 관련 진폭(amplitude) : 음의 크기와 관련 음색(tone color) : 음의 특성 9
주파수와 진폭 10
소리의 높낮이를 결정 (주파수가 높으면 고음, 낮으면 저음) 사람이 낼 수 있는 주파수 대는 약 100Hz ~ 6KHz (1) 주파수 소리의 높낮이를 결정 (주파수가 높으면 고음, 낮으면 저음) 사람이 낼 수 있는 주파수 대는 약 100Hz ~ 6KHz 사람의 가청 주파수 대는 약 20Hz ~ 20KHz 사람의 청각은 1KHz ~ 6 KHz 에 가장 민감 사람의 가청 주파수대를 오디오(Audio)라고 구분하여, 사운드를 처리하는 것이 오디오를 처리하는 것과 같다고 보는 생각도 있음 11
파형의 기준선에서 최고점까지의 거리를 의미하며 소리의 크기와 관련(진폭이 크면 큰소리, 작으면 작은 소리) (2) 진폭 파형의 기준선에서 최고점까지의 거리를 의미하며 소리의 크기와 관련(진폭이 크면 큰소리, 작으면 작은 소리) 소리의 크기는 음압 변화의 비율로 표현 사람의 귀는 소리의 크기의 변화보다 변화의 비율(logarithm)에 영향을 받음 소리의 크리를 표현 할 때에는 소리의 크기에 로그 값을 취한 bel로 표현하고, 사용 시에는 bel값을 10배한 decibel을 사용 기준 음압을 P0 음압을 P라하면 음압레벨 (dB) = 10 x 2 log (P/P0) 인간이 가장 편하게 들을 수 있는 소리의 범위는 0db ~ 90db 12
음의 높이와 크기가 같아도 악기마다 고유한 특징이 있는데 이를 음색이라고 함 음의 크기와 소리의 예 (3) 음색 음의 높이와 크기가 같아도 악기마다 고유한 특징이 있는데 이를 음색이라고 함 13
파형- 여러 개의 다양한 주파수와 진폭을 갖는 스펙트럼인자로 분해 표현 - 푸리에 분석 푸리에 역함수: 한 스펙트럼은 sine 함수 스펙트럼 인자들의 분포형태가 소리 식별을 가능하게 함. 14
포만트 - 스펙트럼 인자중 주변의 다른 주파수에 비하여 진폭값이 크게 증가되어 있는 주파수 성분을 말한다. 음성의 음향학적 특성 포만트 - 스펙트럼 인자중 주변의 다른 주파수에 비하여 진폭값이 크게 증가되어 있는 주파수 성분을 말한다. 피치(Pitch) - 성대의 기본 주파수 일반적으로 사람마다 다르다 발성되는 음성의 높낮이에 영향을 미침 남자는 100-150Hz 여자는 200-300Hz 사이에서 피치값을 가짐. 15
소리사용의 장점 현실감 부여 풍부와 자원과 환경 제공 컴퓨터 운용도구 음성인식 - 키보드 대신의 보다 편리한 도구 화자인식 - 컴퓨터 보안의 한 솔루션 제공 음성합성 16
2.2.2 디지털 사운드로의 변환 파동(wave)은 원래 아날로그 형태인테 컴퓨터에서 처리하기 위해서는 디지털 형태로 변환되어야 함 컴퓨터에서 처리하기 위해 사운드 입력 부분에서 ADC(Analog-to-Digital Converter)를 이용하고, 실세계에서 듣기 위해서 사운드 출력 부분에서 DAC(Digital-to-Analog Converter)를 이용 아날로그 신호와 디지털 신호 간의 변환 과정 17
디지털로 변환 과정은 표본화(Sampling), 양자화(Quantizing), 부호화(Coding) 과정을 거치게 됨 아날로그 파형을 디지털 형태로 변환하기 위해 표본을 취하는 것을 의미 표본화율(Sampling Rate) : 1초 동안에 취한 표본수(디지털화하는 횟수)를 말하며, 단위는 주파수와 같은 Hz를 사용 18
(a) 아날로그 파형 (b) 표본화된 파형 아날로그 사운드의 표본화 19
표본화율이 높을수록 원음에 가까운 음으로 디지털화 되지만 데이터 양이 증가 표본화 율의 차이 20
표본화를 많이 할 수록 원음을 잘 표현할 수 있으나 데이터 저장을 위한 공간 증가 주파수에서의 Hz는 1초에 주기가 몇 번 있는 가를 의미하고, 표본화에서의 Hz는 1초에 몇 번 표본화 되는가를 의미 나이키스트 정리(Nyquist theorem) 표본화 시 원음을 그대로 반영하기 위해서는 원음이 가지는 최고 주파수의 2배 이상으로 표본화 해야 한다. 음악 CD인 경우 표본화 율이 44.1KHz이고 여기서 재생할 수 있는 최고 주파수는 22.05KHz임(사람의 귀는 20KHz 이상의 사운드는 감지할 수 없음) sampling and reconstruction 21
(2) 양자화 디지털 형태로 표현할 때 어느 정도의 정밀도를 가지고 표현할 것인지를 의미. 즉 표본화된 각 점에서 값을 표현하기 위해 사용되는 비트 수 음의 해상도 : 값을 표현하는 정밀도 (Sampling Resolution, Sampling Size) 8 bit로 양자화를 하면 값을 256(28) 단계로 표현할 수 있지만, 16bit로 양자화를 하면 좀 더 세밀한 65536(216) 단계로 값을 표현할 수 있음 22
음악 CD인 경우는 16bit로 값을 표현하는데 이는 음을 65,536 단계로 표현하고 있다는 것을 의미 (a) 2 bit 양자화 (4단계) (b) 3 bit 양자화 (8단계) (c) 4 bit 양자화 ( 16단계) 아날로그 파형의 양자화 음악 CD인 경우는 16bit로 값을 표현하는데 이는 음을 65,536 단계로 표현하고 있다는 것을 의미 23
아날로그 신호에 포함되는 잡음(noise)의 성분보다 높은 정밀도를 사용하게 되면 잡음도 원음으로 간주하여 양자화를 함 아날로그 신호에 포함되는 잡음(noise)의 성분보다 높은 정밀도를 사용하게 되면 잡음도 원음으로 간주하여 양자화를 함. 따라서 양자화 과정에 사용되는 비트 수는 신호대 잡음의 비율인 S/N(Signal to Noise)비와 진폭의 최고점과 최저점 사이의 범위(Dynamic Range)를 고려하여 결정 (a) 원래의 파형 (b) 낮은 표본화와 양자화 (c) 높은 표본화와 양자화 표본화 및 양자화 정도에 따른 비교 24
표본화와 양자화를 거친 디지털 정보를 표현하는 과정 (3) 부호화 표본화와 양자화를 거친 디지털 정보를 표현하는 과정 사운드 화일은 크기가 크기 때문에 부호화한 과정에서 일반적으로 압축하여 저장 25
2.3 사운드의 저장과 고품질화 2.3.1 디지털 파형의 저장 방식 아날로그 사운드를 부호화 하는 방식으로는 PCM 방식이 있는데 이 방식은 파일의 크기가 커서 ADPCM 방식을 주로 사용 (1) PCM 방법(Pulse Coded Modulation) 입력된 값 그대로를 기록하는 방법 압축을 하지 않기 때문에 용량이 큼 CD나 DAT(Digital Audio Tape) 등에서 사용 26
(2) ADPCM 방법(Adaptive Differential Pulse Coded Modulation) (a) PCM 방식 (b) ADPCM 방식 디지털 파형의 저장 방식 (2) ADPCM 방법(Adaptive Differential Pulse Coded Modulation) 국제 멀티미디어 협회(IMA;International Multimedia Association)에서 제안한 방식 27
그림 [ADPCM]에서와 같이 표본화 된 신호의 차이를 저장하는 방식 차이만을 저장하는 방식은 DPCM(Differential Pulse Coded Modulation)이라고 함 DPCM은 인접한 값과의 차이가 크면 비효율적이 됨 ADPCM : DPCM에서 인접한 값과의 차이가 크면 진폭을 나누는 단계를 크게 하고, 차이가 작으면 진폭을 나누는 단계를 작게하여 가변적으로 차이를 정밀하게 저장 기본적으로 PCM 방법으로 기록한 것과 내용이 같으나 데이터 압축에 의한 값을 기록하므로 최대 4:1 까지 압축이 가능 멀티미디어 협회에서 기본적인 알고리즘을 정의하였으나, 업체마다 다르게 구현하여 상호 호환성이 없음 28
[시연] 표본화, 양자화 및 모드에 따른 음질의 비교 2.3.2 디지털 사운드 파일의 크기 [시연] 표본화, 양자화 및 모드에 따른 음질의 비교 29
파일의 크기 파일의 크기 = 표본화율 x 해상도 x 모드(mono=1, stereo=2) x 시간(초) 1분 길이의 음악 CD = 44100 (Hz) x 16 (bit) x 2 (stereo) x 60 (초) = 84,672,000 bit = 10,584,000 byte = 10.6 MB CD 한 장의 용량이 650MB이므로 그 안에는 약 10곡에서 15곡의 음악이 저장 가능 30
2.3.3 고품질 사운드의 획득 사운드를 어디에 사용할 것인지를 고려하여 표본화율과 해상도를 결정 아날로그 신호가 들어 오면 먼저 표본화율(Sampling Rate)보다 높은 고주파 성분을 제거 전처리 필터(Prefilter: Low-pass filter)를 통하여 표본화율의 1/2보다 높은 고주파 성분을 제거 ADC(Analog-Digital-Converter)에 의해 표본화, 양자화 과정을 거쳐 디지털 신호로 변환, 부호화 부호화된 디지털(bit stream) 정보를 DSP(Digital Signal Processor)에서 원하는 목적에 맞게 편집, 가공, 저장 31
5. 출력시에 DAC(Digital-Analog-Converter)를 거쳐서 아날로그 파형으로 변환 고주파 성분을 제거 시키기 위해 후처리 필터(Postfilter: Low-pass filter)를 통과시켜 최종적인 아날로그 신호로 변환 아날로그 파형의 디지털 과정 32
앤티앨리어싱(Antialiasing) 아날로그 파형을 디지털로 변환하는 과정 중 여러 부분에서 잡음이 발생할 수 있는데, 여기서는 크게 표본화 과정과 양자화 과정 그리고 기타 부분으로 나누어 살펴본다 (1) 표본화 과정 앤티앨리어싱(Antialiasing) 표본화할 때 표본화 주파수의 1/2보다 큰 주파수가 있을 경우에 그대로 디지털화 하면 표본화 주파수의 1/2보다 큰 주파수가 표본화 되는 주파수 영역으로 들어와 잡음으로 존재 : 앨리어싱(aliasing) 사운드에 원래 고주파 성분이었던 울림이 없어지고 저주파수의 방해음이 발생 절환 오차 33
(2) 양자화 과정 양자화 오차 디더링(Dithering) (3) 기타 고려사항 클리핑(Clipping) 아날로그 파형을 양자화 비트로 표현하면서 발생하는 값의 차이 이를 최소화하기 위해서는 양자화 비트 수를 늘려주어야 함 디더링(Dithering) 아날로그 파장을 디지털 형태로 바꾸는 과정에서 미소한 잡음(White Noise 또는 Dither Noise) 성분을 인위적으로 첨가하여 양자화 잡음과 음의 왜곡을 줄이는 방법 (3) 기타 고려사항 클리핑(Clipping) 원음의 진폭이 기계가 수용하는 진폭보다 크거나, 양자화 하여 나타낼 수 있는 진폭보다 큰 경우에 발생 34
(a)원래의 파형 (b) 클리핑 후의 파형 (c) 정규화된 파형 클리핑 지터(Jitter) 에러 디지털 신호의 전달 과정에서 일어나는 시간 축상의 오차, 즉 신호가 지연되어 전달되거나 기기 간의 저항(impedance)이 제대로 매칭(matching)되지 못해 발생하는 신호의 왜곡 지터 에러가 심하면 음이 '찌직'거리거나 '따닥 따닥'하는 정전기성 잡음이 들림 35