소리 주요 목차 가. 소리의 기본 나. 통신 다. 파일 저장 방식 (WAVE,MIDI) 라. 사운드 편집 마. 최근 음성인식 바. 참고 문헌
소리의 기본 소리란 어떤 물질이 진동함으로써 발생되는 물리적인 현상, 음(音)이라고도 한다. 좁은 뜻으로는 사람의 청각기관을 자극하여 청각을 일으키는 것을 말함 균일한 소리의 파형은 일정한 간격으로 같은 모양을 반복하며, 같은 모양이 한번 나타나는데 소요되는 시간을 주기라고 하고 1 초당 주기 수를 주파수라고 함 소리의 파형은 자연적으로 발생하기 때문에 주기적인 모양을 하지는 않으나 악기에서 발생하는 소리나 사람의 음성, 중모음과 같은 소리는 주기적인 형태를 띄게 되며, 물이 흐르는 소리나 재채기와 같은 음향과 사람의 음성 등의 중,자음은 비 주기적인 형태임
소리의 기본
소리의 기본 주파수 전파나 음파가 반사, 굴절하여 파동의 방향을 주기적으로 바꾸는 현상이 1초 동안에 반복되는 횟수를 주파수라고 하며 단위로 헤르츠(Hertz)를 사용 일반적으로 주파수의 단위는 Hz, KHz, MHz 사용 1KHz는 1초에 천 개의 파동, 1MHz 는 1초에 백만 개의 파동이 발생 주파수가 높을수록 고음이 발생하며, 낮을수록 저음이 발생
소리의 기본 소리의 주파수
소리의 기본 서로 다른 두 소리의 합성
소리의 기본 서로 다른 두 소리의 합성(2)
통신 소리의 분류 아날로그 신호 : 광섬유 내의 빛의 변화가 유연하고 연속적(continuous)인 것 디지털 신호 : 단계가 연속적이지 않은 이산(discrete) 적으로 구성된 신호
통신 통신 시스템 전송 매체 - 유선 매체 : 트위스트 페어, 동축 케이블, 광섬유 - 무선 매체 : 무선 라디오, 마이크로파, 통신위성
통신 통신의 배경 통신의 시작 : 라디오 전화 등의 아날로그로 시작 20세기 중반 : TR의 출현 =>디지털 통신 가능 아날로그 시스템 : 전화, 라디오, TV는 소리와 영상을 다루어 여전히 아날로그 성질을 유지 디지털 시스템 : 컴퓨터 대 컴퓨터 통신 현재 : 디지털과 아날로그가 혼합된 형태
통신 아날로그 통신 변조 방법 : 진폭변조(AM)와 주파수 변조(FM) 진폭 변조(AM) 주파수 변조(FM) 아날로그 통신 시스템 : 전송되는 정보를 표현하기 위해 반송파의 파형이 변조된다. 변조 방법 : 진폭변조(AM)와 주파수 변조(FM) 진폭 변조(AM) 통신 데이터를 나타내기 위해 반송파의 진폭이 변하는 것으로 반송파 진폭은 통신 데이터의 아날로그 신호 주파수에 대응하는 비율로 증가하거나 감소 주파수 변조(FM) 정보 신호 주파수의 변화와 일치하는 비율로 반송파 신호의주파수가 변화
통신 디지털 통신 광원의 출력에서 일련의 펄스 생성을 포함(PCM) 펄스 코드 변조(PCM) 디지털 신호 1과 0으로 나타내며, 이 1과 0은 펄스의 유무에 의해 나타낼 수 있다. 광 출력의 펄스는 1을 표시하고 펄스가 없을 때는 0을 표시 표본화 양자화 부호화 아날로그 신호 이진 코드 PCM의 절차
통신 샘플링(표본화) 자연의 소리를 컴퓨터나 디지털음악 장비에서 사용하기 위해서는 샘플링(sampling)이라는 작업이 필요 아날로그 신호를 이산신호(discrete signal)로 변환하려면 Nyquist 규정을 따라야 하며 이는 아날로그 주파수보다 샘플링의 주파수는 최소한 2배 이상이 되어야만 다시 이산신호를 아날로그신호의 역 변환이 가능 오디오 경우의 샘플링의 속도는 44.1 KHz이며 16비트의 선형 정량화를 사용
통신 아날로그 신호를 디지털 신호로 변환하기 위하여 샘플링
통신 양자화 표본화에 의해 얻은 PAM신호를 디지털화하기 위해 부호화에 필요한 비트수를 미리 정하고, 그 비트수에 의해서 표현이 가능한 독립적인 개수만큼의 양자화 레벨을 선정하여 표본의 크기를 그와 가까운 크기를 갖는 양자화 레벨에 근사화시키는 것 양자화 비트수가 많으면 원신호를 충실히 부호화할 수 있으나 부호-복호기(CODEC)와 중계기 등의 고속화가 필요하다.
통신 양자화 잡음 아날로그 신호를 디지털 신호로 변환할 때 실제 반올림 절차를 거치게 되므로 약간의 에러가 포함된다. 이러한 오차를 양자화 오차 또는 양자화 찌그러짐이라고 부르며 이것은 수화자에게 잡음으로 들리므로 양자화 잡음이라고 하는 것이다 양자화 잡음을 줄일 수 있는 법 이 양자화 잡음을 줄이기 위해서는 양자화 레벨의 개수를 증가시켜 양자화 레벨 사이의 간격(양자화 간격)을 적게 하거나 신호의 크기에 따라 양자화 간격을 달리 취하는 비선형 양자화 방법을 취한다.
통신 (a) 원래의 아날로그 신호 (b) 표본화 결과 (c) 양자화 결과 4.2 3.4 5.7 2.8 1.2 4.6 2.3 4 (d) PCM 출력 . 010 100 011 110 001 101
파일 저장 방식 사운드는 파형을 그대로 표현하는 웨이브(wave)형식과 악기의 음표와 연주시간을 표시하는 미디(MIDI: Musical Instrument Digital Interface) 방식의 두 가지가 사용 웨이브 방식을 사용하는 파일로는 WAV, VOC, AU, AIFF(Audio Interchange File Format) 등의 파일이 있으며 미디 방식의 파일은 MID, RMI, MOD 등이 있음
파일저장방식(WAVE) PC 에 있어 가장 대표적인 사운드 저장용 포맷으로 웨이브 방식을 사용하는 모든 사운드에 적용 가능 마이크로소프트에서 사용하는 RIFF 방식을 사용하고 있어 압축 방식 및 실제 데이터를 함께 저장할 수 있는 다양한 형식 사운드 카드를 PC의 확장 슬롯에 부착시킨 후, 마이크로폰을 사운드 카드에 연결하여 음성 정보를 입력하면 입력된 음성에 대한 디지털 정보를 포함하는 웨이브 파일을 생성
파일저장방식(WAVE) 마이크로 폰 대신 음악 소리를 내는 장치를 연결할 경우 음악 정보의 저장도 가능 사운드 카드는 아날로그 신호를 디지털 신호로 바꾸는 ADC(Analog-to-digital converter)의 역할 현재 PC 상에서 쓰이고 있는 웨이브 파일의 이용은 짧은 시간 동안의 음성 정보를 저장해 두고 이를 반복적으로 재생시키거나 편집하는데 이용하는 것이 주된 응용 방법 마이크로소프트 윈도우즈에서 웨이브 파일은 확장자로서 *.wav를 가지며, 웨이브 파일의 생성과 재생을 위한 기본적인 소프트웨어가 윈도우즈의 기본적인 프로그램으로 제공
파일저장방식(WAVE) PCM방식과 ADPCM방식 아날로그 사운드는 기본적으로 PCM 방식으로 표본화(sampling)되어 디지털 사운드로 변환되지만 PCM 방식은 용량이 크기 때문에 ADPCM 방식을 주로 사용 PCM 방식 PCM 방식은 입력된 값을 그대로 저장하는 방법으로 압축하는 과정을 거치지 않기 때문에 용량이 큼 PCM방식은 CD나 DAT(Digital Audio Tape) 등에서 사용
파일저장방식(WAVE) ADPCM 방식 제 멀티미디어 협회(IMA)에서 제안한 방식으로 디지털화한 결과를 PCM 방식처럼 그대로 저장하는 것이 아니라, 바로 앞 신호와의 차이를 저장하는 방식 차이를 그대로 저장하는 방법은 DPCM이며 그 차이만을 이용하므로 용량이 작음 그러나 차이가 클 경우에는 DPCM의 효율도 떨어지므로 이런 문제를 해결하기 위한 방법으로 ADPCM 기법 생김 변화폭이 클 때는 신호 차이 값을 표현하는 단위를 크게 하고 그렇지 않은 경우는 반대로 작게 하여 정밀한 신호 표현과 함께 신호의 변화폭이 클 때도 잘 적응할 수 있도록 하는 방법
파일저장방식(WAVE) ADPCM 방식
파일저장방식(WAVE) 8 비트 모노(Mono) 8 비트 스테레오(Stereo) 8비트 모노 샘플에서 모든 바이트는 연속적으로 저장 8 비트 스테레오(Stereo) 스테레오 샘플에서는 채널 0은 왼쪽 채널로 채널 1은 오른쪽 채널로 사용
파일저장방식(WAVE) 16비트 스테레오 16비트 모노 메모리에서 16비트 모노 단일 샘플을 표현하는 경우 하나의 단일 샘플을 기록 할 때 2바이트가 필요, 바이트의 순서는 8비트 모노 샘플과 동일 16비트 스테레오 채널 저장방법은 8비트 스테레오와 동일하며 각 채널은 2바이트를 사용
파일저장방식(WAVE) 오디오 종류와 데이터률 종류 샘플링률 비트수 모노/스테레오 데이터률(kB/S) 전화 8 모노 AM 11.025 FM 22.050 16 스테레오 88.2 CD 44.1 176.4
파일저장방식(WAVE) AU Audio의 약자로 유닉스 시스템에서 사용되는 표준 오디오 파일이다. 썬마이크로 시스템즈에서 만든 사운드 포맷으로 웨이브 파일과 비슷하다.
파일저장방식(WAVE) VOC Creative Lab.사의 Sound Blaster 제품에 사용되는 웨이브 방식을 기록하는데 사용 초기에는 8비트 샘플만을 지원하였으나 16비트 샘플 지원 기능이 추가 윈도우 환경에는 사용되지 않으나 초창기의 게임에 일부 사용
파일저장방식(WAVE) AIFF 오디오 파일로 Audio Inter change File Format의 약자이다. WAV처럼 샘플링 된 디지털 오디오 파일이다.. AIFF 포맷은 8비트 스테레오로 모노로 저장되지만 압축되지 않아 파일 크기가 크다는 것이 단점이다..
파일저장방식(MIDI) 미디 파일의 대표적인 포맷이며 파일은 하나의 헤더 정보와 여러 개의 트랙 정보로 구성 헤더에는 트랙의 수에 관한 정보가 기록되고 트랙에는 연주에 따라 발생하는 이벤트의 시간 정보와 이벤트 자체에 대한 정보가 차례로 기록 MID 파일은 곡목과 같이 당연히 표현되어야 할 정보를 기록할 별도의 필드가 없다는 문제점을 갖고 있으나 모든 미디 편집 소프트웨어에서 사용할 수 있는 대표적인 포맷
파일저장방식(MIDI) 미디음악을 위한 필수장비 최소한의 운영체제와 Cakewalk같은 미디소프트웨어 필요 Windows와 미디 소프트웨어 최소한의 운영체제와 Cakewalk같은 미디소프트웨어 필요 미디 인터페이스 카드 컴퓨터와 미디 악기는 서로 다른 디지털 신호를 사용하기 때문에 그 사이에 하나의 통역장치가 필요하며, 이것을 미디 인터페이스라 함
파일저장방식(MIDI) 신디사이저와 마스터키보드 신디사이저(synthesizer)란 여러 가지 파형의 음을 합성하여 원하는 음을 만들어 연주할 수 있는 장치 마스터 키보드는 음원을 제외한 컨트롤러서의 건반만 있는 것
파일저장방식(MIDI) 미디 케이블 스피커와 앰프 각 미디 장비 사이의 연결에는 전용 미디 케이블을 사용 개인적인 미디 작업을 위한 음향 모니터 장비로서 가장 쉽게 준비할 수 있는 것은 가정용 오디오 시스템임
파일저장방식(MIDI) 샘플러 샘플러(sampler)는 실제의 소리를 디지털 방식으로 직접 녹음한 후 그것을 원하는 형태로 가공하여 악기나 효과음 등으로 사용 샘플러에는 녹음된 샘플을 저장하기 위해서 보통 하드디스크와 같은 대용량의 저장 매체가 장착되어야 하며 샘플을 연주하거나 편집하기 위해서 많은 메모리(RAM)가 필요 전문 음악인들에게는 필수적인 장비
파일저장방식(MIDI) 믹서 하나의 스테레오 녹음기에 여러 악기의 출력 신호를 녹음하기 위해서는 그 신호들을 적절하게 섞어야 하므로 이것을 위해서 믹서(mixer)라는 장비를 사용 믹서는 각 입력 및 출력 신호의 양과 스테레오 밸런스를 조절 대부분의 믹서에는 이퀄라이저(equalizer)가 연결되어 있어서 입력 신호의 베이스(base)와 트레블(treble)을 조절이 가능
파일저장방식(MIDI) 멀티트랙 테이프 레코더 멀티트랙 테이프 레코더(MTR; Multi Track Recorder)를 이용하면 녹음 테이프의 한 면을 여러 트랙으로 나누어 녹음이 가능 MTR장비를 사용하면 컴퓨터 음악뿐만 아니라 보컬, 코러스, 기타연주 등을 각기 다른 트랙에 녹음하기 때문에 믹싱 작업이 한결 수월 어느 한 트랙을 실수했다해도 다른 트랙에는 아무 영향도 주지 않고, 그 트랙만을 다시 녹음할 수가 있는 것이 MTR의 장점
파일저장방식(MIDI) 디지털 멀티트랙 레코더 디지털 멀티 이펙터 최근에 등장한 것으로 앞에서 설명한 멀티트랙 테이프 레코더를 디지털화한 것으로 즉, 테이프를 사용하는 아날로그 방식이 아닌 하드디스크 드라이브나 고유한 매체에 디지털 방식으로 녹음 디지털 멀티 이펙터 이펙터는 신디사이저의 음색을 새롭게 가공/처리하여 출력 연주된 음에 특수한 효과를 부여하는 것으로서 에코, 리버브, 딜레이 등이 모두 이펙터의 일종
소리의 기본 RMI RMI는 MID 파일의 단점을 해결하기 위한 포맷으로 MID 파일 내용과 함께 곡에 대한 추가 정보를 기록할 수 있도록 한 포맷을 사용한다. Microsoft에서 지원하고 있어서 MID와 함께 널리 사용된다.
소리의 기본 MOD 샘플링된 소리 데이터들을 소프트웨어적인 방법으로 변형, 합성해 음악으로 출력 아미가(AMIGA) 시스템에서 시작된 형식인데, Modules의 약자로 음원을 내장한 사운드 파일 MOD 파일은 MID처럼 악보 정보와 함께 WAV 같은 음원도 함께 내장
사운드 편집 전문적인 사운드 편집작업은 고가의 장비를 갖춘 스튜디오에서 이루어지지만, 간단한 작업, 예를 들어 wav파일의 복사, 자르기, 이어 붙이기 등은 Windows에서 기본으로 제공하는 녹음기에서도 가능 통신이나 인터넷상에서 쉽게 구할 수 있는 사운드 편집 소프트웨어를 이용하면 여러 가지 다양한 효과들을 구현가능
사운드 편집 소프트웨어 케이크워크 사운드 포지 케익크워크(CakeWalk)는 미국 Cakewalk Music Software사에서 만든 IBM 호환 컴퓨터용 컴퓨터 음악 작곡 프로그램으로서 총 256개의 미디/오디오 트랙을 지원하며 미디 악기나 사운드 카드를 사용하여 미디/오디오 데이터를 녹음, 편집, 인쇄할 수 있는 강력한 시퀀서이다. 사운드 포지 사운드 포지(Sound Forge)는 Sonic Foundry사에 의해 만들어진 윈도우 베이스의 음성 편집 프로그램이다. 사운드 포지 6.0에는 음성편집을 하기 위한 강력한 오디오 처리, 툴, 효과 기능이 탑재되어 있어 음성 편집 및 녹음, 처리로부터 미디어 인코딩까지 어플리케이션 하나로 완성된다.
사운드 편집 소프트웨어 쿨 에디터 WAV 편집 프로그램하면 떠오르는 것이 쿨에디트(Cool Edit)라고 할 수 있을 만큼 널리 알려진 프로그램이며 쿨에디트 2000의 경우 멀티 트랙 레코딩이 지원된다. 골드 웨이브 디지털 오디오는 크게 시퀀싱 오디오 포맷과 샘플링 오디오 포맷으로 나눌 수 있는데, 전자는 MIDI로 대표되며, 후자는 WAVE, MP3가 대표적이다. 그래서 두 포맷을 별도로 다루는 것이 오디오 프로그램의 일반적인 특징인데, 골드웨이브(GoldWave)는 그 중에서도 후자(샘플링 오디오)의 데이터를 편집하는 프로그램이다.
사운드 편집 소프트웨어 웨이브랩 웨이브랩(WaveLab) 3.0은 윈도우즈 95, 윈도우즈 98, 윈도우즈 NT, 그리고 윈도우즈 2000에 사용되는 오디오 편집·마스터링 소프트웨어이다.
음성 인식(음성의 이해) 음성 이해는 컴퓨터가 음향 음성 신호(acoustic speech signal)를 듣고서 음성의 의미(abstract meaning)로 매핑시키는 과정 단지 한마디 한마디를 정확히 인식하는 것만이 아니라, 발음되는 문장 전체의 의미를 이해하려는 시도를 음성이해라 함
음성 인식(음성의 이해) 1971년에 시작된 미국 국방부 고등 연구 계획국(DARPA)의 음성 이해 연구 계획으로 음성 이해에 관한 연구가 본격화 음성 인식의 궁극적 목표는 자연스러운 발성에 의한 음성을 이해하여 컴퓨터에 정보를 입력하는 음성 이해 시스템을 실현하는 것
음성 인식(음성이해의 순서)
음성 인식 음성이해 시스템의 국제적 동향 시스템명 기 능 어휘수 이해도 화자수 개 발 HWIN 여객관리 1097 44 3 기 능 어휘수 이해도 화자수 개 발 HWIN 여객관리 1097 44 3 BBN사 HAPPY 뉴스정보검색 1011 95 5 카네기메론 HEARSAY II 90 1 VC은 잠수함 정보검색 1000 24 SDC사 CSAP 레저 특허문 91.1 IBM KEAL 전화번호 안내 60 91 CNET LITHAN 질문에 대한응답 101 66 10 교토대 VOICE QA 좌석예약 112 96.5 9 NTT
음성 인식 음성은 인간이 사용하고 있는 통신매체 중 가장 자연스러운 형태로 자신의 의사표명 혹은 정보의 생성에 있어서 음성을 이용하는 비중이 매우 높음 음성을 매체로 한 사람과 기계간의 의사소통(man-machine interface)의 필요성이 크게 대두되었으며, 1970년대 중반 이후 음성인식에 대한 연구가 활발히 전개되어 오고 있음 초기(1980년대 초반까지) 음성인식 시스템은 주로 인공지능 기법에 기반을 두고 개발되었는데, 이는 실제 사람이 음성을 인식하는데 적용하는 지식을 컴퓨터에 구현한 것이었음
음성 인식 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 대형 장치를 필요로 하였던 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI)의 발달에 따라 가로 세로가 몇 mm 크기 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화 되었음
음성 인식 기술 음성인식 기술은 그 분류기준에 따라 여러 가지로 분류할 수 있다. 우선 인식의 대상으로 삼는 화자에 따라 화자독립과 화자종속 인식기술로 분류됨. 화자종속 시스템은 특정 화자의 음성을 인식하기 위한 시스템으로 현재 휴대폰에 탑재되어 사용되는 음성다이얼링(voice dialing) 시스템이 대표적 화자독립 시스템은 불특정 다수 화자의 음성을 인식하기 위한 것으로, 다수화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행
음성 인식 기술 ① 미국 미국의 음성인식 연구는 국방성의 주도로 연구되고 있다. 1971년에서 1976년까지 SUR(Speech Understanding Research)이라는 음성이해 연구 프로젝트가 수행되었으며 최근에는 1984년부터 5 년에서 10 년 기간으로 음성 및 자연언어처리에 관한 새로운 프로젝트가 수행되고 있다. ② 일본 일본에서의 음성인식 기술은 1982년부터 추진한 제 5 세대 컴퓨터 프로젝트의 일부인 "음성과 자연언어를 통한 컴퓨터 입출력"이라는 제목으로 연구가 진행되었으나 연구결과의 대외발표는 거의 없었다. 최근에서의 음성인식 관련 프로젝트는 ATR(Advanced Telecommunications Research Institute) 산하 자동통역 연구소에서 1986년부터 수행하고 있는 자동통역 전화(automatic telephone interpretation) 프로젝트와 1987년부터 교육, 과학, 문화성의 자금지원을 받고 있는 "Advanced Man-machine Interface Through Spoken Language"이라는 국가 프로젝트가 있다.
음성 인식 기술 ③ 유럽 유럽에서의 음성인식 기술연구는 유럽국가들이 모여서 공동으로 수행하는 연구와 각 나라에서 자체적으로 수행하는 연구로 나누어진다. 범 유럽국가들이 연구수행을 하고 있으며, 이 프로젝트의 연구결과는 실시간으로 음성의 자동통역 을 실현하는 VERBMOBIL이라는 야심에 찬 프로젝트에 사용될 것이다. VERBMOBIL은 1991년부터 시작되어 20 년간 지속될 대형 프로젝트이다. ④ 국내 국내에서의 음성인식 연구는 1980년 초부터 일부대학을 중심으로 연구가 수행되었으며 최근에는 많은 대학과 연구소를 중심으로 활발히 진행되고 있다. 그러나 연구내용은 아직 수십 단어 혹은 수백 단어를 인식하는 고립단어 음성인식 시스템 개발의 수준에 머물러 있다. 1991년부터는 한국통신과 전자통신연구소가 공동으로 자동통역전화 요소기술연구를 수행하고 있으며 이 연구결과는 향후 한·일간 자동통역전화 시스템 개발에 이용될 것이다. 최근에는 기업체에서도 음성인식 기술을 이용한 여러 가지 제품개발을 시도하고 있다
음성 인식 기술의 응용분야 ① 사무자동화에 이용 ② 공장자동화 분야에 응용 ③ 전화망을 이용한 응용 가능 ④ 의료분야에 이용 ⑤ 멀티미디어 시스템의 조작을 위한 인터페이스로써 사용 ⑥ 서로 다른 언어간의 통역
음성 인식의 최근 연구 동향 현재 음성인식 기술은 미국을 비롯한 선진국을 필두로 매우 활발하게 전개되고 있다. 미국의 경우 IBM, AT&T, Lucent Technologies, Microsoft 등의 컴퓨터 및 통신관련 기업체들은 독자적인 대용량 음성인식 시스템을 개발하고, 자사의 관련 제품에 응용하고 있으며, 그 추세는 더욱 확장되고 있다.
참고문헌 참고문헌 및 사이트 가. “음성인식” 이건상 외 지음 | 한양대학교출판부 펴냄 가. “음성인식” 이건상 외 지음 | 한양대학교출판부 펴냄 나. “음향 시스템 핸드북” 장호준 지음 | 예영커뮤니케이션 펴냄 다. http://www.voiceware.co.kr/ 라. http://www.sitec.or.kr/
감사합니다 정보전자공학과 994802 홍순관