Lecture #4 멀티미디어 데이터: 사운드(Sound)
강의 개요 “사운드”란? 사운드의 기본 개념 디지털 사운드 생성 & 저장 사운드 처리 하드웨어 & 소프트웨어 사운드 정의 사운드 종류 사운드 응용 사운드의 기본 개념 디지털 사운드 생성 & 저장 사운드의 디지털화 사운드 데이터의 압축 및 저장 사운드 처리 하드웨어 & 소프트웨어 미디(MIDI) 사운드
‘사운드’ 란?(1) 주요 정보 전달 수단: 시각 + 청각 사운드 : 사람의 청각을 통해 전달되는 매체 사람이 가지고 있는 오감 (시각, 청각, 촉각, 미각, 후각) 중에 주로 사용되는 주요한 정보전달의 수단은 시각과 청각이다 사운드 : 사람의 청각을 통해 전달되는 매체 독자적으로 사용하기도 하지만, 영화나 애니메이션과 같은 멀티미디어 환경에서는 같이 혼재하여 사용
‘사운드’ 란?(2) 사운드를 이용함으로써 얻는 잇점: 미디어의 상승 효과 : 여러 미디어를 같이 사용할 수록 정보 전달 효과가 커짐 (시너지 효과) 동기 유발 : 여러 미디어를 혼합함으로써 피 정보 전달자의 동기나 흥미 유발
사운드의 종류(1) 일반적인 분류 1) 음성(Voice/Speech) 2) 음악(Music) - 정보전달의 주요 수단 - 텍스트보다 정보를 더 빠르고 이해하기 쉽게, 설득력 있게 전달 - 디지털 음성 / 합성 음성 : cf) TTS(Text To Speech) 2) 음악(Music) - 감상용 / 배경용 - 멀티미디어 정보 전달에서 부수적인 효과를 제공 3) 음향효과(Sound Effect) - 정보를 전달할 때에 강조하거나 보조하는 수단으로 사용
사운드의 종류(2) 컴퓨터 처리 방법에 따른 분류
사운드의 응용 (1) 사운드 편집 및 제작 음성 통신 음성 처리 음악 / 효과음 제작 MIDI 제작 VOIP(Voice Over IP) 음성 처리 음성 인식 : 화자인식 / 대화 음성 인식 음성 합성 음성 압축(음성 코딩)
(Speech Digitalization) 음성 분석 (Speech Analysis) 사운드의 응용 (2) : 음성 처리 과정 음성 신호 음성 전처리 (Speech Digitalization) 음성 분석 (Speech Analysis) 음성 합성 (Speech Synthesis) 음성 코딩 (Speech Coding) 음성 인식 (Speech Recognition)
사운드의 기본 개념(1) 사운드의 물리적 전달과정 언어정보, 음악정보 등 여러 가지 정보를 포함하고 있는 음향적인 신호(Waveform) 아날로그 신호(Analog Signal)
사운드의 기본 개념(2) 사운드의 기본 요소 1) 주파수(Frequency) : 음의 높낮이와 관련 2) 진폭(Amplitude) : 음의 크기와 관련 3) 음색(Tone Color) : 음의 특성
사운드의 기본 개념(3) 주파수 소리의 높낮이를 결정 사람이 낼 수 있는 주파수 대는 약 100Hz ~ 6KHz 주파수가 높으면 고음, 낮으면 저음 사람이 낼 수 있는 주파수 대는 약 100Hz ~ 6KHz 사람의 가청 주파수 대는 약 20Hz ~ 20KHz 0 Hz ~ 20 Hz : 초 저주파 20 KHz ~ 1 GHz : 초음파 사람의 청각은 1KHz ~ 6 KHz 에 가장 민감 사람의 가청 주파수대를 오디오(Audio)라고 구분
사운드의 기본 개념(4) 진폭 소리의 크기와 관련 소리의 크기는 음압 변화의 비율로 표현 진폭이 크면 큰소리, 작으면 작은 소리 소리의 크기는 음압 변화의 비율로 표현 사람의 귀는 소리의 크기의 변화보다 변화의 비율(logarithm)에 영향을 받는다 소리의 크기를 표현 할 때에는 소리의 크기에 로그 값을 취한 bel로 표현하고, 사용 시에는 bel값을 10 배한 decibel(dB)을 사용 기준 음압을 P0, 주어진 음압을 P라하면 음압레벨 (dB) = 10 x 2 log (P/P0) 인간이 가장 편하게 들을 수 있는 소리의 진폭 범위는 0 dB ~ 90 dB
사운드의 기본 개념(5) 음 색 음의 높이와 크기가 같아도 악기마다 고유한 특징이 있는데 이를 음색이라고 한다 기본파와 여러 개의 고조파가 합성하여 고유의 소리를 생성
사운드의 제작 과정
디지털 사운드 생성(1) 사운드 신호의 디지털화(Sound Digitalization) 사운드 신호 파형 모양의 디지털화 아날로그 신호와 디지털 신호의 변환 ADC(Analog-to-Digital Converter) 표본화 양자화 부호화 DAC(Digital-to-Analog Converter)
디지털 사운드 생성(2) 표본화(Sampling) 연속적인 아날로그 신호 파형을 이산적인 디지털 형태로 변환하기 위해 표본을 취하는 과정 표본화율(단위 시간당 표본 수)이 높을 수록 원음에 가깝게 표현할 수 있으나 데이터 양이 증가한다(trade-off) 나이키스트 정리(Nyquist Theorem) 원음 재생을 위한 최소한의 표본화 율을 정의 표본화 시 원음을 그대로 반영하기 위해서는 원음이 가지는 최고 주파수의 2배 이상으로 표본화해야 한다 음악 CD인 경우 표본화 율이 44.1KHz이고, 재생할 수 있는 최고 주파수는 22.05KHz 사람의 귀는 20KHz 이상의 사운드는 감지할 수 없다
디지털 사운드 생성(3) 표본화율의 차이
디지털 사운드 생성(4) 양자화(Quantization) 표본화된 각 점의 신호 값을 이산적인 값으로 표현하는 것 음의 해상도의 결정 값을 표현하는 정밀도 (Sampling Resolution, Sampling Size) 8 bit로 양자화를 하면 값을 256 단계로 표현 16bit로 양자화를 하면 좀 더 세밀한 65536(216) 단계로 값을 표현 음악 CD인 경우는 16bit로 값을 표현 양자화 과정에 사용되는 비트 수는 신호 대 잡음의 비율인 S/N(Signal to Noise)비와 진폭의 최고점과 최저점 사이의 범위(Dynamic Range)를 고려하여 결정
디지털 사운드 생성(5) 양자화(Quantization) (1) 2 bit 양자화 (2) 3 bit 양자화 (3) 4 bit 양자화
디지털 사운드 생성(6) 부호화(Coding) 표본화와 양자화를 거친 디지털 정보를 컴퓨터 내부적으로 표현하는 과정 표본화와 양자화를 거친 디지털 정보를 컴퓨터 내부적으로 표현하는 과정 사운드 데이터의 용량이 비교적 크기 때문에 부호화 과정에서 일반적으로 압축하여 저장 PCM(Pulse Coded Modulation) DPCM(Differential Pulse Coded Modulation) ADPCM(Adaptive Differential Coded Modulation) 등
디지털 사운드 저장 (1) 사운드 데이터 크기의 결정 요인 사운드 데이터의 크기 계산 표본화율 표본 정밀도(표본화 크기) 모노 or 스테레오 사운드 데이터의 크기 계산 사운드 파일 크기 = 표본화율*해상도*모드(1 or 2)*시간(초) 음악 CD에서 1분 길이음악의 경우: 표본화율: 44.1 KHz, 해상도: 16 bit, 스테레오 모드 파일 크기 = 44,100 * 16 * 2 * 60 = 10,584 KB = 10.6 MB
디지털 사운드 저장 (2) 사운드 데이터의 크기
디지털 사운드 저장(3) 디지털 사운드 저장 방식 PCM(Pulse Coded Modulation) 표본화된 신호의 양자화 값을 그대로 저장하는 방식 압축하지 않으므로 용량이 크다 CD 나 DAT 등에 사용 ADPCM(Adaptive Differential Pulse Coded Modulation) 인접한 신호와의 차이 값을 저장하는 방식 DPCM(Differential Pulse Coded Modulation) 가변적으로 진폭을 나누어 저장함으로써 최대 4:1 까지 압축 가능 전화를 이용한 음성 전달 방식에서 음성 압축 방식으로 이용 다양한 압축 방식을 이용하여 디지털 사운드 파일을 생성
디지털 사운드 저장(4) (1) PCM 방식 (2) ADPCM 방식
디지털 사운드의 압축 방식(1) 디지털 사운드의 압축 방식 예 1) ADPCM 2) A-Law, Mu-Law - 32 Kbps에서 음성을 전송하기 위한 압축방식 - G.721, G.722 2) A-Law, Mu-Law - 양자화 오차를 줄이기 위한 목적 - 작은 소리에 많은 양자화 비트를 할당, 큰 소리에 적은 양자화 비트를 할당하는 비균등 코딩 방식 3) TrueSpeech - 음성의 실시간 전송을 위해 만든 것으로 3.7 Kbps~8.5Kbps 까지 전송 가능 - H.324, H.323의 오디오 부분 코덱으로 채택
디지털 사운드의 압축 방식(2) 디지털 사운드의 압축 방식 예 4) MP3(MPEG Layer 3) 5) RealAudio - 인터넷에서 오디오 스트리밍을 위한 압축 방식 - RealNetwork 사에서 개발한 것으로 스트리밍을 위한 서버를 요구
디지털 사운드 파일 포맷 디지털 사운드의 파일 포맷: 1) WAV : 윈도우 환경에서의 기본적인 사운드 파일 2) Au 3) MP2, MP3 4) VQF 5) RealAudio(.ra, .rm) 6) ASF(Advanced Streaming Format) - 1996, 인텔사가 만든 차세대 멀티미디어 파일 포맷 - 통합 멀티미디어 파일(오디오, 비디오, 이미지, URL, 실행파일 등을 포함) - 저속의 미디어 스트리밍 지원(56K Modem)
사운드 처리 하드웨어 (1) 사운드 카드 마이크나 CD 등을 통해 아날로그 파장으로 입력되어 사운드 카드에서 디지털 형태의 데이터로 변환되어 처리 출력 시에는 사운드 카드에서 디지털 형태의 데이터를 아날로그 파장으로 변환하여 앰프나 스피커로 출력 사운드 카드의 기본적인 기능은 아날로그와 디지털 간에 변환을 하는 ADC, DAC 최근 사운드 카드는 오디오 인터페이스 기능 외에 음원칩, DSP(Digital Signal Processing) 등이 추가되어 데이터의 가공, 편집 등의 향상된 기능을 제공
사운드 처리 하드웨어 (2) 사운드 카드의 개략도
사운드 처리 하드웨어 (3) 사운드 카드 종류 PC에서 최초의 사운드 카드는 1987년 캐나다의 Adlib사에서 제작한 Adlib 사운드 카드 일본의 Yamaha사의 YM-3812 칩을 사용하여 11중 화음의 연주가 가능 FM 음원을 사용하여 음이 자연스럽지 못하고 음성처리 불가능 Creative사에서 SoundBlaster카드 발표 PCM 방식의 사운드 카드 실질적인 사운드 카드의 표준
사운드 처리 하드웨어 (4) 사운드 카드의 향상된 기능 16 bit사운드 카드로 발전 향상된 음원칩 내장 데이터 전송 방법의 발달(ISA => PCI) 디지털 입출력 단자(S/PDIF)의 제공 인터넷 상에서 음성통신을 하기 위해 양방향(full-duplex) 기능을 지원 3차원 입체 음향을 효과적으로 제공하는 방향으로 발전 요즘에는 Dolby-Surround 지원이나 3D 지원 같은 고급 기능이 지원되는 카드가 많이 나오고 있다 기본적으로 아날로그 파형과 디지털 파형과의 상호 변환(ADC/DAC)을 지원 음원칩을 내장하고 있어서 MIDI 지원 가능
사운드 처리 하드웨어 (5) 앰프와 스피커 사운드를 들을 경우 사운드 카드나 앰프 등의 영향보다 스피커의 영향이 제일 크다 사람이 느끼기에 약 70% 정도 양질의 음을 듣기 위해서는 앰프와 저음부를 잘 재생하는 우퍼(Woofer)를 이용 근래에는 사운드 카드에 맞추어 서라운드나 3D를 지원하는 스피커나 앰프가 나오고 있다
사운드 처리 소프트웨어 (1) Cool Edit Pro 최대 198KHz까지의 표본화율의 지원, ActiveMovie 및 DirectX plug-in 제공 트랙별 진폭조절 기능과 패닝 조절, 자동 silience 삭제, 다단계 undo 등 전문적인 디지털 오디오 편집 기능 제공 MPEG filter가 있어 이를 설치하면 MPEG audio 부분 지원 가능 SMPTE/MIDI 를 지원하는 기능이 있어서 사운드를 비디오나 미디와 통합하기 쉽다 디지털 사운드를 미디로 변환하여 저장하는 기능 제공
사운드 처리 소프트웨어 (2) 재생 프로그램 컴퓨터에서 주로 음악을 들을 때 사용하는 프로그램으로 주로 음악 CD나 MP3 파일을 들을 때 사용 Winamp 거원 제트 오디오 Sonic 등
미디(MIDI) (1) MIDI 개요 1) 전자악기와 컴퓨터간의 상호 정보 교환 규약 2) 음의 높이, 음표의 길이, 음의 강약 등에 대한 정보를 표현 3) 실제 음을 듣기 위해서는 음을 발생시켜 주는 장치 (신디사이저)가 필요 4) 신디사이저를 이용하여 미디 자료를 생성, 수정, 삭제하기 위해 시퀀서 프로그램을 이용 5) MIDI를 통하여 여러 악기에 대한 일관된 제어 가능
미디(MIDI) (2) MIDI 시스템 구성
미디(MIDI) (3) MIDI 시스템의 흐름 1) 음의 입력 : 신디사이저에서 음을 발생 미디 인터페이스 카드 1) 음의 입력 : 신디사이저에서 음을 발생 미디 인터페이스 카드 컴퓨터로 전송 2) 음의 처리 : 컴퓨터에서 미디 프로그램(시퀀서 등)을 이용하여 편집 3) 음의 출력 : - 컴퓨터 미디 인터페이스 카드 신디사이저 등의 미디장치 스피커로 출력 - 앰프를 이용하여 스피커로 출력할 수도 있다
미디(MIDI) (4) MIDI 하드웨어 장비: 1) 신디사이저(Synthesizer) 2) 샘플러(Sampler) 3) 믹서(Mixer) 4) 드럼 모듈 5) MIDI 인터페이스 카드 6) MIDI 전용 케이블 7) 앰프와 스피커
미디(MIDI) (5) MIDI 소프트웨어 1) 작곡용 프로그램(Sequencer) - Cakewalk - CuBase - Logic 2) 악보용 프로그램(Scoring Program) 3) 음색편집용 프로그램(Sound Editing Program)
Report #2 (1) Report #1에서 작성된 프로그램을 다음 기능을 추가하여 확장하여라. 영문 텍스트 파일(*.txt)을 입력받아 RLE(Run Length Encoding) 압축 기법으로 압축하여 저장하여라 RLE 압축 파일의 확장자를 *.rle로 지정하여라 압축률을 출력하여라 cf) C = 원래 파일 크기/압축 파일크기
Report #2 (2) RLE 사양 Original data: Hello, World!. aaaaaabbbbbbbbbbb Fill Run Literal Run <14>Hello, World!. <128+5>a<128+10>b Header Field Data Field Compressed data: <14>Hello, World!. <133>a<138>b
Report #2 (3) RLE 사양 RLE 압축 파일 = Literal Run + Fill Run Run = Header Filed + Data Field Header Filed 1 Byte 표시 MSB = 0 : Literal Run = 1 : Fill Run Bit 6~Bit 0 : 길이 표시 = 원래 반복 길이-1 최대 127 값을 가진다 Data Field 1 byte 또는 그 이상의 byte 데이터로 표시 참고 사이트: http://dogma.net/DataCompression/RLE.shtml