Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter 6 디지털 오디오의 기초 6.1 사운드의 디지털화 6.2 미디 : 악기 디지털 인터페이스

Similar presentations


Presentation on theme: "Chapter 6 디지털 오디오의 기초 6.1 사운드의 디지털화 6.2 미디 : 악기 디지털 인터페이스"— Presentation transcript:

1 Chapter 6 디지털 오디오의 기초 6.1 사운드의 디지털화 6.2 미디 : 악기 디지털 인터페이스
6.3 오디오 양자화와 전송 2009-2학기 멀티미디어시스템

2 6.1 사운드의 디지털화 사운드란 무엇인가? 사운드는 불빛과 같은 파동현상이기는 하지만, 거시적이며 어떤 물리적인 장치의 동작에 의해 공기가 압축되고 팽창하는 분자운동과 관련된다. 예를 들어, 오디오 시스템의 스피커는 앞뒤로 진동하며, 우리가 사운드로 인지하는 종파를 생성한다. 사운드는 압력에 의한 파동이므로, 연속적인 값을 가지고, 이것은 유한한 범위의 값을 가지는 디지털화된 값과는 대조적인 것이다. (c) 이러한 압력에 의한 파동이 종파이지만, 이것은 여전히 반사, 굴절, 회절과 같은 일반적인 파동의 특성을 가지고 있다. (d) 사운드 파동을 디지털화된 형태로서 사용하고자 한다면, 오디오 정보에 대한 디지털화된 표현을 찾아야 할 것이다. 2009-2학기 멀티미디어시스템

3 디지털화 디지털화는 일련의 수로 변환한다는 의미이고, 이 일련의 수는 효율성을 위해 주로 정수를 사용한다.
그림 6.1에 1차원 특성의 사운드를 보이고 있다. : 진폭은 1차원 변수, 즉 시간에 의존적이다. (영상의 경우에는 2차원 변수, 즉 x, y에 의존적이다.) 2009-2학기 멀티미디어시스템

4 그림 6.1 2009-2학기 멀티미디어시스템

5 (a) 샘플링이란 주로 균일한 간격으로 값들을 측정한다는 의미이다.
그림 6.1의 그래프는 시간과 진폭에서 디지털화가 이뤄져야 한다. 디지털화를 위해서는 신호가 시간과 진폭 양 차원에서 모두 샘플링이 수행되어야 한다. (a) 샘플링이란 주로 균일한 간격으로 값들을 측정한다는 의미이다. (b) 일반적으로 균일한 시간격으로 값을 측정하는 방법을 샘플링이라고 부른다. 이러한 시간격을 샘플링 주파수라고 한다. (그림 6.2(a)) (c) 오디오에서 전형적인 샘플링 주파수는 8kHz 에서 48kHz를 사용한다. 이것은 Nyquist 이론에 의해 정해진다. (d) 진폭이나 전압의 샘플링을 양자화라고 한다. 그림 6.2(b)에 샘플링의 종류를 보이고 있다. 2009-2학기 멀티미디어시스템

6 그림 6.2 시간 축에서의 아날로그 신호의 샘플링 진폭 축에서의 아날로그 신호의 샘플링 2009-2학기 멀티미디어시스템

7 오디오 데이터를 어떻게 디지털화할 것인지를 결정하기 위해서는 다음과 같은 결정을 내려야 한다.
(a) 샘플링율을 얼마로 할 것인가? (b) 얼마나 세밀하게 데이터를 양자화할 것인가? 균일하게 양자화할 것인가? (c) 오디오 데이터는 어떤 형태인가(즉, 파일의 형태가 무엇인가)? 오디오의 전형적인 샘플링율은 8 kHz(초당 8000샘플)에서 48kHz 인간의 귀는 약 20Hz 에서 20kHz 사이를 들을 수 있다 인간의 음성은 대략 4kHz에 이를 수 있으므로, 샘플링율은 적어도 이의 두 배 주파수 이상이어야 한다 (Nyquist 샘플링률에 따라). 2009-2학기 멀티미디어시스템

8 Nyquist 이론 신호는 구형파들의 합으로 표현될 수 있다.
그림 6.3에는 매우 복잡한 신호가 구형파들의 가중치 합으로 표현되는 것을 보이고 있다. 2009-2학기 멀티미디어시스템

9 그림 6.3 2009-2학기 멀티미디어시스템

10 주파수가 절대적인 수치라면, 피치는 사운드에 대한 주관적인 인지이다.
(a) 피치와 주파수는 음표 A를 중간 C위로 정확히 440 Hz에 놓은 관계이다. (b) 따라서 피아노의 중간 A("A4"나 “A440")이 440 Hz에 놓이고 다음 A는 880 Hz로 한 옥타브 위에 놓인다. (c) 여기서 화음이란 것이 기본음의 주파수의 정수배의 주파수들로 이뤄진 일련의 음들이라고 정의된다. 그림 6.3에 이러한 화음을 표현하고 있다. (d) 만약 기본 주파수의 비정수배를 생각해보면, A가 아닌 음이 되고 복잡한 사운드가 생겨난다. 2009-2학기 멀티미디어시스템

11 Nyquist 이론은 원음을 복원하려면 얼마나 자주 샘플링을 수행해야 하는가에 관한 것이다.
(a) 그림 6.4(a)는 하나의 구형파를 보이고 있다. : 이것은 단 하나의 순수한 주파수이다. (이렇게 단조로운 사운드는 전자 장치에 의해서만이 생성될 수 있다.) (b) 만약 샘플링율이 실제 주파수와 일치하면, 그림 6.4(b)와 같이 잘못된 신호를 찾게 됨을 보이고 있다. : 이것은 단순히 주파수 0을 가지는 상수이다. (c) 한편, 주파수의 1.5 배로 샘플링을 수행하면, 그림 6.4(c)와 같이 실제 주파수보다 낮은, 잘못된 주파수(엘리어스)를 얻게 됨을 보이고 있다. - 이것은 원래 주파수의 절반이다. (d) 이처럼 정확한 샘플링을 위해서는 신호의 최대 주파수성분의 적어도 두 배로 샘플링이 이뤄져야 한다. 이것이 나이퀴스트 율이다. 2009-2학기 멀티미디어시스템

12 그림 6.4 (a) (b) 2009-2학기 멀티미디어시스템

13 그림 6.4 (c) 2009-2학기 멀티미디어시스템

14 나이퀴스트 주파수 : 나이퀴스트 율의 절반을 말한다.
Nyquist 이론 : 만약 신호가 대역 제한 되어 있다면, 즉 신호의 주파수 성분이 하한 f1 과 상한 f2 로 한정된 구간에서만 존재한다면, 샘플링율은 적어도 2(f2 – f1) 이상이어야 한다. 나이퀴스트 주파수 : 나이퀴스트 율의 절반을 말한다. - 어떠한 경우에서도 샘플링율의 절반보다 높은 주파수를 복원하는 것은 불가능하기 때문에, 대부분의 시스템은 샘플링 대상 신호의 주파수 성분을 샘플링 주파수 절반 이하로 제한시키기 위해 비주파수 겹침 필터를 가지게 된다. 실제 주파수와 엘리어싱 주파수는 다음과 같은 관계를 가진다. 2009-2학기 멀티미디어시스템

15 일반적으로, 구형파의 명확한 주파수는 입력 구형파와 정확히 동일한 샘플들을 가지는 구형파의 가장 낮은 주파수이다. 그림 6
일반적으로, 구형파의 명확한 주파수는 입력 구형파와 정확히 동일한 샘플들을 가지는 구형파의 가장 낮은 주파수이다. 그림 6.5에는 입력(실제) 주파수와 명확한 주파수간의 관계를 보이고 있다. 그림 6.5 2009-2학기 멀티미디어시스템

16 신호 대 잡음 비(SNR) 정확한 신호와 잡음의 비율을 신호 대 잡음비(SNR)이라고 부른다. 그러므로 SNR은 신호의 질에 대한 측정인 셈이다. SNR은 주로 데시벨(dB)로 측정되며, 1 dB는 벨의 10분의 1이다. SNR 값은 dB를 단위로 하고 전압의 제곱에 대한 상용로그 값으로 정의된다. 2009-2학기 멀티미디어시스템

17 신호의 평균 에너지는 전압의 제곱에 비례한다. 예를 들어, 신호의 전압 이 잡음의 10배라면, SNR은 20 dB이다.
명심할 것은 파워에는 10을 신호 전압에는 20을 사용한다는 점이다. 2009-2학기 멀티미디어시스템

18 우리가 주변에서 듣는 사운드의 크기는 우리가 들을 수 있는 가장 큰 사운드에 대한 비율로서 정의된 데시벨로 표현된다. 표 6
우리가 주변에서 듣는 사운드의 크기는 우리가 들을 수 있는 가장 큰 사운드에 대한 비율로서 정의된 데시벨로 표현된다. 표 6.1에 이러한 사운드에 대한 대략의 예들이 나와 있다. 표 6.1 2009-2학기 멀티미디어시스템

19 신호 대 양자화 잡음 비(SQNR) 디지털 오디오 신호는 각 샘플의 정밀도가 전형적으로 8 또는 16인 샘플당 비트수로 결정된다. 원래 아날로그 신호에 존재할 수 있는 다른 잡음을 제외하고 추가적인 오차는 양자화에 의한 것이다. (a) 즉, 전압이 0과 1사이에서 존재하고 값들을 저장하기 위한 비트가 단지 8비트라면, 우리는 모든 연속적인 전압의 값들을 단지 256개의 값으로 만들어야 한다. (b) 이러한 과정은 반올림 오차를 불러올 수밖에 없다. 이것은 실제로 “잡음”은 아니지만, 양자화 잡음(또는 양자화 오차)라고 부른다. 2009-2학기 멀티미디어시스템

20 양자화의 질은 신호 대 양자화 잡음비(SQNR)로 측정된다.
(a) 양자화 잡음은 특정 샘플링 시간에서 아날로그 신호의 값과 그 값과 가장 가까운 양자화 구간값과의 차이로 정의된다. (b) 이 오차는 많아야 구간 절반의 크기를 가진다. 2009-2학기 멀티미디어시스템

21 (c) 샘플당 N 비트에 대한 양자화 정확도에 대해 SQNR은 단순히 다음과 같이 표현될 수 있다.
정 리 : (a) 디지털 신호의 범위는 에서 이 된다. (b) 식 (6.3) 은 피크 신호 대 잡음 비, 즉 PSQNR 을 나타내고 있다. 2009-2학기 멀티미디어시스템

22 6.02N 은 최악의 경우로 입력 신호가 구형파라면, 양자화 오차는 통계적으로 독립적이며, 크기는 0에서 구간의 절반까지 균일하게 분포한다. SQNR은 다음과 같다.
2009-2학기 멀티미디어시스템

23 선형과 비선형 양자화 선형 형태 : 샘플들이 전형적으로 균일 양자화된 값으로 저장된다.
비선형 양자화 : 사람의 귀가 최대의 정확도를 가진 때를 고려하여 더 세밀한 간격을 가진다. - Wever의 법칙에 따르면, 동일하게 인지된 차이는 절대값에 비례하는 값을 가진다. - 비례 상수 k를 삽입하여, 다음과 같은 미분식을 얻는다. 여기서, r은 응답, s는 자극을 뜻한다.` 2009-2학기 멀티미디어시스템

24 여기서 C는 적분 상수이며, 달리 표현하면 다음과 같다.
- 적분하면 다음의 답을 얻게 된다. 여기서 C는 적분 상수이며, 달리 표현하면 다음과 같다. 여기서 s0는 응답(s=s0일 때 r=0)을 일으키는 최소의 자극을 말한다. 비균일 양자화는 우선 원래 s 공간에서 이론적인 r 공간으로 아날로그 신호를 변환하고, 결과값들을 균일하게 양자화하는 것으로 이뤄진다. 오디오에 대한 이러한 법칙을 μ-법칙 부호화, 또는 u-법칙이라고 한다. 비슷한 법칙으로 A-법칙이 있는데 이것은 유럽 통화법에서 사용된다. 이러한 유사한 부호화들의 수식은 다음과 같다. 2009-2학기 멀티미디어시스템

25 μ-법칙 A-법칙 그림 6.6 은 이러한 곡선을 그리고 있다. μ-법칙 부호기의 매개변수는 보통 μ=100 또는 μ=255이고, A-법칙 부호기의 매개변수로 A=87.6이다. 2009-2학기 멀티미디어시스템

26 오디오에서 μ-법칙은 사운드의 비균일 양자화에 사용된다.
그림 6.6 오디오에서 μ-법칙은 사운드의 비균일 양자화에 사용된다. 2009-2학기 멀티미디어시스템

27 오디오 필터링 오디오 신호는 보통 샘플링과 AD 변환을 하기 전에 원치 않는 주파수 성분을 제거하기 위해 필터링을 거친다. 어떤 주파수 성분을 유지할 것인지는 상황에 따라 결정된다. (a) 음성신호의 경우에는 보통 50 Hz에서 10 kHz의 주파수가 보존된다. 다른 주파수들은 대역 통과 필터 또는 대역 제한 필터에 의해 제거된다. (b) 오디오 음악 신호는 주로 20 Hz에서 20 kHz 까지를 보유한다. (c) 록 잡음에 해당하는 고주파수를 제거한다하더라도 DA 변환기에서는 이것이 다시 나타나게 된다. 이것은 샘플링과 양자화 때문에 대략 부드러운 입력 신호를 일련의 계단 함수로 대체하는데 그 이유가 있다. 이론적으로 이러한 비연속적인 신호는 가능한 모든 주파수를 포함한다. (d) 그러므로 복호기 쪽에서는 DA 회로를 거친 이후에 저역 통과 필터를 사용한다. 2009-2학기 멀티미디어시스템

28 오디오 음질과 데이터 율 양자화에 사용되는 비트가 증가하면 복원 데이터율도 증가한다. 스테레오 정보는 디지털 오디오 신호를 전송하는데 두 배 이상의 대역폭이 필요하다. __________ 표 6.2 ___________________________________ 2009-2학기 멀티미디어시스템

29 합성 사운드 FM(주파수 변조) : 디지털화된 사운드를 우리가 듣기 위해서 아날로그로 변환하는 두 가지 방법: 주파수 변조 FM 과 파장 테이블 주파수 변주 FM 반송 구형파가 매초당 다른 성분이 더해지는 방식으로 변화하여 주파수를 변조 2009-2학기 멀티미디어시스템

30 그림 6.7 2009-2학기 멀티미디어시스템

31 2. 파장 테이블 합성 : 디지털 신호에서 사운드를 생성하는 좀더 정확한 방법이다.
이 기법은 실제 악기로부터 사운드를 저장하여 디지털 샘플을 생성한다. 파장 테이블은 사운드 카드에 있는 메모리에 저장되므로, 소프트웨어적으로 사운드를 결합하고 편집하고 음질을 높이는 조작을 가할 수 있다. 2009-2학기 멀티미디어시스템

32 6.2 미디 : 악기 디지털 인터페이스 미디 개요 미디는 스크립팅 언어이다. - 이것은 어떤 사운드의 생성을 대변하는 “사건”을 부호화한다. 예를 들어, 어떤 미디 사건은 단일 음의 피치와 지속시간, 크기값을 포함한다. 미디는 전자 음악 산업에서 신시사이저(Synthesizer)와 사운드 카드 등을 제어하는 표준으로 채택되어 있다. - 컴퓨터와 신시사이저, 키보드 및 다른 음악 장치들 사이의 통신을 가능하게 하는 프로토콜 - 신시사이저는 합성 음악을 생성하며 사운드 카드에 포함되어 있다. 자체적으로 피치와 소리의 크기, 음색을 변화시킴. 2009-2학기 멀티미디어시스템

33 (c) 미디 표준은 대부분의 신시사이저에서 지원되며, 따라서 신시사이저에서 제작된 사운드는 다른 신시사이저에서 재생되거나 편집될 수 있다.
(d) 컴퓨터는 특별한 미디 인터페이스를 가져야하지만, 대부분의 사운드 카드에 포함되었다. 사운드카드는 D/A, A/D 변환기를 모두 포함하여야 한다. 2009-2학기 멀티미디어시스템

34 미디 개념 미디 채널들은 각각 구별된 메시지이다.
0에서 15까지 16개의 채널이 있는데 각 채널은 메시지의 마지막 4개 비트를 형성한다. 각 채널은 특정 장치에 연관되게 된다. : 예를 들어, 채널 1은 피아노, 채널 10은 드럼의 식이다. 하지만, 이 관계는 고정된 것은 아니고 원한다면 변경될 수 있다. 2009-2학기 멀티미디어시스템

35 처음 4개의 비트가 모두 1이라면, 메시지는 시스템 일반 메시지로 해석된다.
시스템 메시지 채널 메시지와 함께 몇 가지 종류의 메시지들이 보내지는데, 여기에는 조율과 시간의 변화에 대한 모든 악기의 일반적인 메시지들이 있다. 처음 4개의 비트가 모두 1이라면, 메시지는 시스템 일반 메시지로 해석된다. 합성 악기가 미디 메시지에 반응하는 방법은 보통 자신의 채널이 아닌 “사운드 재생” 메시지를 무시하는 것이다. - 만약 몇 가지 메시지들이 그 채널에 있다면, 피아노에서 몇 가지 음들이 동시에 연주될 것이고, 악기가 반응하게 되어 다중-음성을 제공한다. - 즉, 한번에 하나의 음 이상을 재생할 수 있는 것이다. 2009-2학기 멀티미디어시스템

36 (a) 다중 음색을 가지는 악기(사운드 카드)는 동시에 다른 여러 가지 사운드를 재생할 수 있다.
음성과 음색은 혼동하기 쉽다. 음색은 단지 어떤 악기를 묘사하고자하는가에 대한 미디 전문 용어이다. - 예를 들어, 바이올린은 피아노와 음색이 다르다. 이것은 사운드의 음질이다. (a) 다중 음색을 가지는 악기(사운드 카드)는 동시에 다른 여러 가지 사운드를 재생할 수 있다. (b) 반면, “음성” 이라는 말은 종종 음악가들 사이에서 음색과 동일한 의미로 사용되지만, 정확한 의미는 미디에서 음조 모듈이 동시에 생성할 수 있는 서로 다른 모든 음색과 피치를 의미할 때 사용된다. 디지털적으로 서로 다른 음색이 생성되는 방법은 패치를 사용하는 것이다. 이것은 특정 음색을 정의하는 제어 설정의 집합을 말한다. 패치는 뱅크라고 부르는 데이터베이스에 저장되어있다. 또한 소프트웨어 패치 편집기도 가능하다. 2009-2학기 멀티미디어시스템

37 일반 미디 : 어떤 악기가(패치) 어떤 채널에 관련되는가를 정의하는 표준 도표를 말한다.
일반 미디에는 표준 악기에 관련된 128개의 패치가 있고, 채널 10은 타악기를 위해 예약되어 있다. 대부분의 악기에 대해 전형적인 메시지는 음 활성화(키 눌림)를 의미하게 되고, 어떤 채널, 어떤 피치 그리고 어떤 속도(즉 소리의 크기)인가로 구성된다. 타악기에 대해 피치 데이터는 어떤 종류의 드럼인가를 의미한다. 음 활성화 메시지는 이처럼 두개의 데이터 바이트 이후의 상태 바이트로 구성된다 - 어떤 채널, 얼마의 피치 - 음 비활성화 메시지 또한 피치를 가지며 일관성을 위해 속도(보통 0으로 설정되거나 무시된다.)를 가진다. 2009-2학기 멀티미디어시스템

38 미디 상태 바이트의 데이터는 128에서 255 사이이다. ; 각 데이터 바이트들은 0에서 127 사이이다
미디 상태 바이트의 데이터는 128에서 255 사이이다. ; 각 데이터 바이트들은 0에서 127 사이이다. 실제 미디 바이트는 8비트와 시작과 정지 비트 0를 가지며, 따라서 10 비트의 “바이트”가 된다. 그림 6.8 2009-2학기 멀티미디어시스템

39 그림 6.9에 음 활성화/음 비활성화 메시지에 대한 디지털 악기의 응답 모델을 보이고 있다.
미디 장치는 종종 프로그램 가능 할 수 있다. 이것은 저음부와 고음부 응답을 변화시킬 수 있는 필터를 가지고, 또한 시간에 따른 사운드 진폭의 변화를 표현하는 “포락선”을 변화시킬 수 있다. 그림 6.9에 음 활성화/음 비활성화 메시지에 대한 디지털 악기의 응답 모델을 보이고 있다. 그림 6.9 2009-2학기 멀티미디어시스템

40 미디의 하드웨어적인 측면 미디 하드웨어 장치는 시작과 정비 비트 0을 포함한 10-비트 바이트인 kbps(분당 킬로비트)의 직렬연결로 이뤄져 있다. 보통 미디-가능 장치는 입력 장치나 출력장치 모두를 말하지만, 둘 다를 의미하지는 않는다. 그림 6.10은 전형적인 신시사이저의 모습을 보이고 있다. 그림 6.10 2009-2학기 멀티미디어시스템

41 미디 IN은 장치가 받아들이는 모든 미디 데이터가 경유하게 되는 연결기이다.
물리적인 미디 포트는 IN과 OUT, THRU로 표시된 5 핀 연결기로 구성된다. 이 마지막 데이터 채널은 단순히 IN 채널로 들어오는 데이터를 복사한다. 미디 통신은 반-복식이다. 미디 IN은 장치가 받아들이는 모든 미디 데이터가 경유하게 되는 연결기이다. 미디 OUT은 자체적으로 생성한 모든 미디 데이터를 장치가 전송하는 연결기이다. 미디 THRU는 미디 IN에서 받은 데이터에 대한 장치 반사파의 연결기이다. 2009-2학기 멀티미디어시스템

42 그림 6.11은 전형적인 미디 순서 결정 장치를 보이고 있다.
2009-2학기 멀티미디어시스템

43 미디 메시지의 구조 미디 메시지는 그림 6.12와 같이 두 개의 종류로 구분될 수 있다. - 채널 메시지와 시스템 메시지
2009-2학기 멀티미디어시스템

44 첫번째 바이트는 상태 바이트이다. 이것의 최상위 비트는 1이다.
A. 채널 메시지 : 3 바이트로 구성된다. 첫번째 바이트는 상태 바이트이다. 이것의 최상위 비트는 1이다. 하위 4개 비트들은 이 메시지가 어느 채널에 속하는가는 표시한다. 나머지 3개 비트가 메시지이며, 데이터 바이트인 경우 최상위 비트는 0이다. A.1. 음성 메시지 이러한 종류의 채널 메시지는 음성을 제어한다. 즉, 어떤 음을 연주하거나 연주하지 않을지 등에 대한 정보를 포함한다. 음성 메시지는 비브라토, 트레몰로와 피치 등의 제어 효과에 관한 것이다. 표 6.3에 이러한 내용을 나타내고 있다. 2009-2학기 멀티미디어시스템

45 _________________________ 표 6.3 _________________
2009-2학기 멀티미디어시스템

46 채널 모드 메시지 : 제어 변환 메시지의 특별한 형태이다.
A. 2. 채널 모드 메시지 채널 모드 메시지 : 제어 변환 메시지의 특별한 형태이다. 하지만, 채널 모드 메시지는 첫 데이터 바이트를 121에서 127(&H79-7F)에 가진다. 채널 모드 메시지는 악기가 미디 음성 메시지는 어떻게 표현할 것인가를 결정한다. 모든 메시지에 응답할지, 채널에 해당하는 것만을 응답할지 등이 이에 해당한다. 데이터 바이트는 표 6.4와 같은 의미를 가진다. 2009-2학기 멀티미디어시스템

47 _____________________ 표 6.4 _____________________________
2009-2학기 멀티미디어시스템

48 모든 시스템 메시지에 대한 opcodes는 &HF로 시작한다. 시스템 메시지는 쓰임에 따라 3가지로 분류된다.
B. 시스템 메시지 시스템 메시지에는 채널 번호가 없다. – 채널에 특화된 명령이 없으며, 동기화를 위한 시간 정보, 먼저 기록된 미디 열에서의 위치 정보, 목표 장치에 대한 세부 설정 정보를 포함한다. 모든 시스템 메시지에 대한 opcodes는 &HF로 시작한다. 시스템 메시지는 쓰임에 따라 3가지로 분류된다. 2009-2학기 멀티미디어시스템

49 B.1. 시스템 일반 메시지 : 시간과 위치 정보에 관한 것이다.
______________ 표 6.5 _________________________________ 2009-2학기 멀티미디어시스템

50 ______________ 표 6.6 _________________________________
B.2. 시스템 실시간 메시지 : 동기화에 관한 정보 ______________ 표 6.6 _________________________________ 2009-2학기 멀티미디어시스템

51 B.3. 시스템 전용 메시지 : 제작자가 미디 표준을 확장할 수 있도록 하기위해 포함되는 메시지.
제작자들은 초기화 부호이후에 그들 자신의 제품에 적용할 어 떤 특수한 메시지열을 삽입할 수가 있다. 시스템 전용 메시지는 종료자 “&HF7"에 의해 소멸되도록 한다. 하지만, 종료자는 선택적이고 데이터열은 단순히 다음 메시지의 상태 바이트를 보냄으로써 종료될 수 있다. 2009-2학기 멀티미디어시스템

52 일반 미디 어떤 악기(패치)가 어떤 채널에 관련되는가를 정의하는 표준도표를 “일반 미디”라고 부른다.
일반 미디는 미디 음악이 모든 장치에서 비슷한 사운드를 내도록 하기위해서 적어도 동일한 악기에 동일한 패치 번호를 연관시키도록 한다. 표준 타악기 도표는 47개의 타악기 사운드를 정의한다. “음표”은 악보상의 위치는 단지 어떤 타악기 요소가 연주될 것인지를 결정한다. 일반 미디의 호환성을 위한 다른 요구조건들 : 미디 장치는 16개 채널 모두를 지원해야한다. 일반 미디 레벨2 : 확장된 일반 미디는 최근에 정의되었는데 표준 SMF 표준 미디 파일 형태를 정의한다. 훌륭한 확장의 경우에는 좋은 순서 결정 장치 상에 표시될 수 있는 가사 지원과 같은 별도의 정보를 포함한다. 2009-2학기 멀티미디어시스템

53 미디에서 WAV로의 변환 프리미어의 초기 형태에서와 같은 프로그램들은 미디 파일을 포함할 수 없고 대신에 .wav 형태의 파일로 강제한다. 다양한 셰어웨어 프로그램들은 이들 형태들 간의 변환을 수행해준다. 이러한 프로그램은 기본적으로 방대한 참고표 파일로 구성되는데 미리 정의되거나 이동된 WAV 출력을 어떤 미디 메시지로 대체하는 논리적인 작업을 수행한다. 2009-2학기 멀티미디어시스템

54 6.3 오디오 양자화와 전송 오디오 부호화 : 양자화와 변환을 통합된 이름으로 부호화라고 한다.
오디오에 대해 오디오 신호를 압신하기 위한 μ-법칙 기법은 보통 오디오 신호의 시간적인 중복성을 이용하기 위한 간단한 알고리즘과 결합된다. 현재와 앞선 기간 사이의 차이는 신호값의 크기를 줄일 수 있고, 화소 값들의 히스토그램(여기서는 차분값)이 훨씬 더 좋은 범위에 집중된다. 2009-2학기 멀티미디어시스템

55 c) 값들의 분산을 줄이는 것은 결국 더 자주 발생하는 값에 더 짧은 비트 길이의 비트열을 생성하는 무손실 압축 기법이 된다
일반적으로 오디오에 대해 샘플링 되고 양자화된 출력을 생성하는 것을 펄스 부호 변조, 또는 PCM 이라고 부른다. 다른 형태로는 DPCM(동일하지만 효율성을 위한 변형된 기법으로 DM이라고 부른다.)으로 부른다. 적응적 형태로 ADPCM이 있다. 2009-2학기 멀티미디어시스템

56 펄스 부호 변조 아날로그 신호에서 디지털 신호를 생성하는 기본적인 기법은 샘플링과 양자화이다.
크기의 고정점을 선택하고 구간내의 임의의 값들을 하나의 대표 출력 레벨로 재 사상시키는 양자화를 통해 디지털화시킨다. 2009-2학기 멀티미디어시스템

57 그림 6.2 2009-2학기 멀티미디어시스템

58 구간 경계는 종종 결정 경계라고 부르고 대표값은 복원 레벨이라고 부른다.
양자화기의 각 입력 구간은 동일한 출력 레벨로 사상하는 경계값에 의해 부호화 사상을 이룬다 양자화기의 출력값인 그 대표값들을 복호화 사상이라고 한다. 최종적으로는 가장 빈도가 높은 신호값에 더 적은 비트를 사용하도록 하는 비트열을 구성함으로써 데이터들을 압축하는 것이 목표이다.(제 7장) 2009-2학기 멀티미디어시스템

59 모든 압축 구조는 다음 3단계를 가진다 :    A. 변환.   입력 데이터는 압축이 용이한 새로운 표현으로 변환된다. 예를 들어, 예측 부호화에서는 앞선 신호로부터 다음 신호를 예측하고 예측 오차만을 전송하게 된다.    B. 손실.   압축과정에서는 정보의 손실을 초래할 수 있다. 양자화는 주요한 손실 과정이다. 이것은 원래 신호에서 보다 적은 제한된 수의 복원 레벨을 사용하기 때문에 양자화는 정보손실을 수반하게 된다.    C. 부호화.   이제 각 출력 레벨 또는 기호에 부호어를 할당한다. 이것은 고정 길이 부호이거나 가변 길이 부호가 될 수 있다.(제 7장) 2009-2학기 멀티미디어시스템

60 오디오 신호에서 디지털화 수단인 PCM에 대해 알아보자. 이것은 무손실 예측 부호화뿐만 아니라 DPCM 구조로 연결된다
오디오 신호에서 디지털화 수단인 PCM에 대해 알아보자. 이것은 무손실 예측 부호화뿐만 아니라 DPCM 구조로 연결된다. ; 이 방법들은 차분 부호화를 사용한다. 다음으로 더 좋은 압축을 제공하는 수단으로서 적응적 형태인 ADPCM에 대해서도 살펴본다. 2009-2학기 멀티미디어시스템

61 음성 압축에서의 PCM 50 Hz에서 약 10 kHz에 이르는 음성의 대역폭을 생각해보면, 나이퀴스트율에 따라 샘플링율은 20 kHz이상이 요구된다. 압신기가 없는 균일 양자화를 사용하면 최소 샘플 크기는 약 12 비트정도가 된다. 따라서 모노 음성 전송에서 비트율은 240 kbps가된다. 압신기를 사용하면 이 크기를 동일한 질의 지각 수준을 유지하면서 8 비트로 줄일 수 있고 따라서 비트율은 160 kbps로 줄어든다. 하지만, 통신법에서 사용하는 표준에서는 대상으로 삼는 오디오 신호의 최고 주파수를 약 4 kHz로 가정하므로 샘플링 율은 고작 8 kHz이고 샘플링된 비트율은 단지 64 kbps가 된다. 2009-2학기 멀티미디어시스템

62 이처럼 비교적 간단한 형태의 음성 압축을 위해서는 두 가지 고려사항을 언급해야 하겠다.
사운드를 단지 4 kHz까지만 고려하므로 다른 주파수성분들은 잡음이 된다. 그러므로 이러한 고 주파수 성분들을 아날로그 입력 신호에서 제거해야 한다. 이것은 고주파 성분과 저주파 성분을 함께 제거하는 대역 제한 필터를 사용함으로써 가능하다. - 그림 6.13(a)와 같이 일단 펄스 신호가 도착하면, 이제 디지털에서 아날로그로의 변환을 수행하고 그리고 출력 아날로그 신호를 생성해야 한다. 그러나 우선 얻게 되는 것은 그림 6.13(b)와 같은 계단형태의 신호이다. 2009-2학기 멀티미디어시스템

63 그림 6.13 2009-2학기 멀티미디어시스템

64 이러한 결론은 신호 처리에서 푸리에 해석 이론에 따른 것이다.
2. 이러한 형태의 불연속 신호는 원래 신호에 의한 주파수 성분만을 가지는 것이 아니라 그 날카로운 모서리에 의해 이론적으로 무한한 고주파 성분을 가지게 된다. 이러한 결론은 신호 처리에서 푸리에 해석 이론에 따른 것이다. 우리는 이 고주파 성분들이 상관없는 성분이라는 것을 알게 된다. 그러므로 디지털에서 아날로그로의 변환기의 출력은 다시 원래의 최고 주파수 이상만을 허용하는 저역 통과 필터를 통과해야 한다. 2009-2학기 멀티미디어시스템

65 그림 6.14에 이러한 전체 구조가 표현되어 있다. 저역 통과 필터링의 결과로 출력은 그림 6.13(c)와 같이 부드러워진다. 간결성을 위해 그림 6.13에서 압신의 효과를 보이지는 않았다. 그림 6.14 2009-2학기 멀티미디어시스템

66 오디오의 차분 부호화 오디오는 종종 단순 PCM이 아닌 차분을 이용하는 형태로 저장된다. 우선 이 차분은 일반적으로 더 작은 숫자가 되며, 따라서 저장에 더 적은 비트를 사용할 가능성을 가지고 있다. 시변 신호가 시간에 따라 일관성 있는 값을 가진다면,(“시간 중복성”) 차분 신호, 즉 앞선 값에서 현재 샘플값을 뺀 값은 0 주위로 최대값을 가지는 뾰족한 형태의 히스토그램을 가질 것이다. 2009-2학기 멀티미디어시스템

67 (b) 예를 들어, 극단적인 경우로, 상수의 기울기를 가지는 선형 경사 신호의 히스토그램이 균일하게 편평한 형태인 반면, 이 신호의 미분(샘플링 점끼리의 차분)에 대한 히스토그램은 기울기 값에서의 뾰족한 기둥으로 나타나게 된다. (c) 결과적으로 차분값에 비트열 부호어를 할당하면, 빈도가 높은 값들에 짧은 부호를 빈도가 낮은 값들에는 긴 부호어를 할당할 수 있게 된다. 2009-2학기 멀티미디어시스템

68 무손실 예측 부호화 예측 부호화 : 예측 부호화는 단순히 차분을 전송한다는 의미이다. - 현재 샘플과 동일한 값으로 다음 샘플을 예측하고, 샘플 자체를 보내는 대신 오차를 보낸다. 즉, 다음 샘플이 현재와 동일하다고 가정 하에 예측을 수행하면, 오차는 단지 현재와 다음 샘플간의 차이이다. 예측 부호화는 차분을 구하고, PCM 시스템을 사용해 전송하는 단계로 구성된다. 수의 차분은 적어도 정수임을 생각하자. 값들의 집합 에 대해, 단순히 이전 값으로 값 를 예측하면, 실제 값과 예측 신호와의 차분으로 오차 을 정의한다. 2009-2학기 멀티미디어시스템

69 (c) 하지만, 보통은 몇 개의 앞선 값을 사용함으로써 더 나은 예측을 수행할 수 있다.
2009-2학기 멀티미디어시스템

70 차분을 구하는 것은 샘플 값들의 히스토그램을 더욱 뾰족하게 하기 위함이다.
예를 들어 그림 6.15(a)는 샘플당 8 비트의 해상도를 가지고 8kHz로 샘플링된 음성 신호이다. 이 값들의 히스토그램은 그림 6.15(b)에서 보듯이 0에 집중되어 있다. 그림 6.15(c) 에는 차분값의 히스토그램인데 더욱 0 부근에 집중되는 것을 알 수 있다. 결과적으로 자주 발생하는 심볼에 짦은 부호를 할당하는 방법의 경우 0에 짦은 부호를 할당하게 되어, 부호화가 효율적으로 구현될 수 있다. 2009-2학기 멀티미디어시스템

71 그림 6.15 2009-2학기 멀티미디어시스템

72 한가지 문제점 : 샘플값이 0…255의 범위를 가진다면, 차분값은 -255…255의 범위를 가지게 된다
한가지 문제점 : 샘플값이 0…255의 범위를 가진다면, 차분값은 -255…255의 범위를 가지게 된다. 따라서 어떤 차분값은 더많은 비트를 소요하게 된다. 해결책 : SU와 SD로 표현되는 두개의 새로운 부호를 정의하자. 값 32만큼의 변동을 의미. 이를 위해 특별한 부호가 설정된다. 그러면 신호의 차분들을 단지 의 제한된 범위에 대한 부호어를 생성할 수 있다. 제한된 범위에 속하는 차분(원래는 의 범위를 가진다.) 그대로 부호화될 수 있다 범위 바깥의 값들은 SU, SD라는 두개의 여분 값을 첨가해서 전송할 수 있다. 예를 들어, 100은 SU, SU, SU, 4와 같이 전송된다. 2009-2학기 멀티미디어시스템

73 무손실 예측 부호화 - 복호기는 원래의 신호를 그대로 복원한다. 간단한 예로서 다음과 같은 예측기를 생각해보자.
무손실 예측 부호화 - 복호기는 원래의 신호를 그대로 복원한다. 간단한 예로서 다음과 같은 예측기를 생각해보자. 2009-2학기 멀티미디어시스템

74 신호열 f1,.f2,f3,f4,f5 = 21,22,27,25,22 를 부호화 하려고 한다. 예측기 설계상의 목적에 다라 f0를 f1=21과 동일한 값으로 생성하고, 우선 부호화하지 않은 채 이 초기값을 전송한다. 2009-2학기 멀티미디어시스템

75 오차는 0 주위에 집중된 값을 가지고, 부호화는 효율적으로 수행될 수 있을 것이다. 그림 6
오차는 0 주위에 집중된 값을 가지고, 부호화는 효율적으로 수행될 수 있을 것이다. 그림 6.16에 전형적인 다이어그램으로 표현하고 있다. 2009-2학기 멀티미디어시스템

76 그림 6.16 2009-2학기 멀티미디어시스템

77 DPCM 차분 펄스 코드 변조는 양자화 단계가 통합된다는 점을 제외하고는 예측 부호화와 동일하다.
해석적으로 최적의 비균일 양자화기 구간을 설정하는 방법으로 최소 제곱 오차에 기반한 로이드-맥스 양자화기가 있다. 학술명 : 신호 값들 ; 원래 신호, 예측 신호, 그리고 양자화되고 복원된 신호. 2009-2학기 멀티미디어시스템

78 그리고 양자화된 오차값에 대한 부호어를 엔트로피 부호화를 통해 생성해낸다.
(c) DPCM : 예측을 수행하고, 실제값에서 예측값을 뺌으로써 오차를 구하고, 오차를 양자화하여 오차의 양자화 형태를 구하는 것이다. 이것을 수식으로 나타내면 다음과 같다. 그리고 양자화된 오차값에 대한 부호어를 엔트로피 부호화를 통해 생성해낸다. 2009-2학기 멀티미디어시스템

79 (d) 부호기-복호기 과정의 주요한 효과는 복원되고 양자화된 신호값 를 생성하는 것이다.
왜곡은 제곱 평균 오차 이다. 이것은 주로 사용된 비트 레벨의 수에 대한 왜곡 다이어그램으로 표시한다. 로이드-맥스 양자화기는 균일 양자화기보다 더 좋은 동작을 수행한다.(왜곡이 적다.) 2009-2학기 멀티미디어시스템

80 음성의 경우 신호값의 매 블록에 대해 신호값의 패치의 평균과 분산을 추정하고 이에 따라 양자화 구간을 이동시킴으로써 양자화 구간을 조정할 수 있다. 즉, 시간 i 에서 시작해서 N 개의 값의 블록을 취하고 양자화 오차를 최소화하도록 할 수 있다. 2009-2학기 멀티미디어시스템

81 신호 차분의 분포는 매우 뾰족하기 때문에 0에서 매우 뾰족한 모양을 가지는 라플라시안 확률 분포 함수를사용하여 이를 모델화할 수 있다.
따라서 전형적으로 비균일 구간을 가지는 양자화기의 양자화 구간은 신호 차분이 이와 같은 분포를 가진다는 것과 구간 크기는 다음을 최소화하도록 선택한다는 가정에 의해 할당된다. 2009-2학기 멀티미디어시스템

82 이것은 최소제곱의 문제이고, 반복적으로 해결할 수 있다. == 로이드맥스 양자화기 DPCM의 구조적 블록도는 다음과 같다.
그림 6.17 2009-2학기 멀티미디어시스템

83 양자화 잡음은 양자화 에서 오차의 크기와 동일하다. 실제 값을 넣어보면, 아래와 같은 특수한 예측기를 사용한다고 할 때,
또한 양자화구조를 사용하면, 2009-2학기 멀티미디어시스템

84 우선 오차의 범위가 -255. 255 임을 확인하자. - 즉, 오차는 511 레벨이 가능하다
우선 오차의 범위가 임을 확인하자. - 즉, 오차는 511 레벨이 가능하다. 양자화기는 각각이 약 16 레벨인 32개의 패치로 오차 범위를 구분하는 단순 과정을 행한다. 또한 16레벨의 각 구간의 중간지점과 동일하게 각 패치의 대표 복원값을 설정한다. 2009-2학기 멀티미디어시스템

85 표 6.7 ____________________
2009-2학기 멀티미디어시스템

86 첫 번째 값이 정확하게 복원된다고 가정하면, 모든 값은 부호기 쪽에서의 값과 동일하게 복원될 수 있다.
예를 들어, 다음과 같은 값들을 생각해보자. 우선 f1값의 복사값으로 f=130을 첨가하고, 첫 번째 복원값이 정확하도록 양자화 오차를 0으로 초기화하자. 그리고 이어지는 값들은 다음과 같다. 첫 번째 값이 정확하게 복원된다고 가정하면, 모든 값은 부호기 쪽에서의 값과 동일하게 복원될 수 있다. 2009-2학기 멀티미디어시스템

87 DM DM(델타 변조) : DPCM의 단순화된 형태로서 고속 A/D 변환기에서 사용된다.
예측은 단순히 시간지연에만 연관되어 있음을 주목하자. 2009-2학기 멀티미디어시스템

88 마찬가지로 초기값은 정확히 복원된다고 가정한다. (c) 스텝값 k=4를 사용한다면,
(b) 실제 값을 생각해보자. 마찬가지로 초기값은 정확히 복원된다고 가정한다. (c) 스텝값 k=4를 사용한다면, 일련의 복원값은 10,14,10,14로 원래값과 거의 동일하다. (d) 하지만, DM이 거의 변화가 없는 신호에는 잘 동작하더라도 빠르게 변화하는 신호에 대해서는 그렇지 못하다. 이러한 문제를 다소 해결할 수 있는 방법으로 단순히 샘플링을 나이퀴스트율의 수 배 만큼 증가시키는 것이 있다. 2009-2학기 멀티미디어시스템

89 - 최적의 양자화 스텝을 결정하는 한가지 방법으로 로이드-맥스 양자화기가 있다.
2. 적응적 DM : 실제 신호 곡선의 기울기가 크다면, 계단식 근사화는 유지되기가 힘들다. 가파른 곡선을 다루기 위한 직접적인 접근은 단순히 스텝 크기를 k로 적응적으로 변화시키는 것이다. - 즉, 신호의 현재 특성에 대응한다. - 최적의 양자화 스텝을 결정하는 한가지 방법으로 로이드-맥스 양자화기가 있다. 2009-2학기 멀티미디어시스템

90 ADPCM ADPCM(적응적 DPCM) 부호기가 입력에 훨씬 더 적합하도록 만든다. 기본적으로 두 가지 요소가 DPCM 부호기를 구성하는데 그것은 양자화기와 예측기이다. 적응적 DM에서는 입력에 적합하게 양자화 스텝 크기를 적용 하였다. DPCM에서는 비균일 양자화기에서 스텝 크기뿐만 아니라 결정 경계를 변화시킴으로써 적응적으로 양자화기를 조절할 수 있다. 이것은 두 가지 방법으로 수행할 수 있다. (a) 순방향 적응적 양자화 : 입력 신호의 특성이나 양자화된 결과값의 특성을 이용 (b) 역방향 적응적 양자화 : 양자화된 결과값의 특성을 이용한다. 즉 만약 양자화된 오차값이 너무 크다면, 비균일 로이드-맥스 양자화기를 변화시켜야 한다. 2009-2학기 멀티미디어시스템

91 (a) 예측기는 보통 앞서서 복원되고 양자화된 값의 선형 함수 형태를 취한다.
2. 예측기를 적응시킬 수 있는데, 여기서도 순방향과 역방향 적응화가 있다. 일반적으로 예측기 계수를 적응적으로 만드는 것을 적응적 예측 부호화(APC)라고 한다. (a) 예측기는 보통 앞서서 복원되고 양자화된 값의 선형 함수 형태를 취한다. (b) 사용되는 앞선 값들은 예측기의 “차수”라고 부른다. 예를 들어, 만약 M 개의 앞선 값들을 이용한다면, M 개의 계수가 예측기에 필요하다. 2009-2학기 멀티미디어시스템

92 아래와 같이 최적의 값을 얻기 위해 최소-제곱 방법을 사용하고자 한다고 하자.
하지만, 만약 예측 계수를 변화시키려고 한다면 매우 어려운 상황에 직면하게 된다. 왜냐하면 이들 계수를 계산하기 위해 매우 복잡한 수식들을 해결해야 하기 때문이다. 아래와 같이 최적의 값을 얻기 위해 최소-제곱 방법을 사용하고자 한다고 하자. (b) 여기서 음성의 현재 패치에 대해 많은 샘플들이 고려되게 될 것이다. 그러나 예측값은 양자화에 의존하므로 해결하기 힘든 문제가 생기게 된다. 또한 신호의 변화 특성에 맞춰서 동일한 시간에 양자화의 정밀도를 변화시켜야 한다. : 이것은 거의 불가능하다. 2009-2학기 멀티미디어시스템

93 각 계수에 대한 미분을 0으로 놓으면, 풀기 쉬운 M 식의 선형 시스템을 생성한다. (이 식들을 위너-홉 식이라고 부른다.)
대신에 보통은 예측에서 예측값 대신에 단순히 원래값 자체를 사용함으로써 좀더 간단한 문제를 해결하려고 한다. 이것은 실제로 계수에 대해 명확히 표현되는 식으로 나타나 간단히 풀 수 있다. 각 계수에 대한 미분을 0으로 놓으면, 풀기 쉬운 M 식의 선형 시스템을 생성한다. (이 식들을 위너-홉 식이라고 부른다.) 2009-2학기 멀티미디어시스템

94 그림 6.18에 ADPCM 부호기와 복호기의 블록도를 보이고 있다.
2009-2학기 멀티미디어시스템


Download ppt "Chapter 6 디지털 오디오의 기초 6.1 사운드의 디지털화 6.2 미디 : 악기 디지털 인터페이스"

Similar presentations


Ads by Google