13.1 음성 부호화에서의 ADPCM 13.2 G.726 ADPCM 13.3 보코더

Slides:



Advertisements
Similar presentations
- 정경훈, 전민철 - 1 Codec 이란 ? 멀티미디어 저작시스템 전민철 정경훈
Advertisements

1 尹 盛 哲 PCM 1. General : Analog 신호를 다음의 3 단계로 Digital 신호로 펄스부호변조 (Pulse Code Modulation) 하는 과정 1) 표본화 (Sampling) 2) 양자화 (Quantizing) 3) 부호화 (Coding ) 2.
경영대학원 유통원론 대박네 막걸리집 쪽박네 막걸리집 유통원론 상권분석. I 삼천동 상권분석 Ⅲ 막걸리집 사업성공 요인 Index Ⅱ 막걸리집 분포현황 Ⅳ 막걸리 활성화 사업 ※ 별첨.
Digital Storage Oscilloscopes 란 ? DSO (Digital Storage Oscilloscope) - 전기 신호를 디지털화하고 해당 데이터를 처리 하여 파형 디스플레이를 구성하는 장치입니다 * 크기에 상관없이 모든 오실로 스코프 에는 그래프가 표시됩니다.
2015 헤럴드 펀드대상 2015년 10월14일 헤럴드경제 금융투자부.
정보통신 개론.
12장. 음성 신호처리 12.1 개 요 12.2 음성생성 모델 12.3 음성 합성 12.4 음성 부호화 12.5 음성 인식
소규모 공공하수처리시설 (신설, 제2종시설) 사업개요 위 치 도 설치목적 N
사운드.
무선 충전 국제 표준 현황 -AirFuel Alliance-
Brain-Computer Interfaces for Communication and Control
Chapter 3 데이터와 신호 (Data and Signals).
학습목표   첨단 영상 진단 장치의 종류 및 기능과 작동 원리를 설명할 수 있다..
Project . A/D Converter AD Converter using for MOSFET 무한도전 팀명 : 무한도전
단원: 1우리 생활과 전기.전자(107p) 학습 목표 *전기.전자의 뜻과 전기생산 및 이용 과정을 알 수 있다
10장 기본 비디오 압축 기술 10.1 비디오 압축 소개 10.2 움직임 보상에 기반한 비디오 압축
Lecture #4 멀티미디어 데이터: 사운드(Sound).
제 9 장의 구성 9.1 원천부호화 (Source Coding) 9.2 채널부호화 (Channel Coding) 연습문제
제 9 장의 구성 9.1 원천부호화(source coding) 9.2 채널부호화(channel coding)
<소스코딩(Source Coding)> 제5장 상관관계와 자료압축
7 장 전송매체(Transmission Media)
PWM 2학년A반 윤영헌 PWM 방식의 종류 ① Carrier Based PWM ② Optimal PWM
제 10 장의 구성 10.1 통신자원의 할당 방법 10.2 다중화와 다중접속의 차이 10.3 FDM/TDM/CDM의 비교
9장 사운드 9.1 사운드의 본질 9.2 사운드의 디지타이징 9.3 사운드 처리 9.4 압축 9.5 파일 형식 9.6 MIDI
7장 목차 7.1 멀티미디어 네트워킹 응용 7.5 다양한 서비스 클래스 제공 7.2 스트리밍 저장 오디오 및 비디오
제 6 장의 구성 6.1 FM과 PM의 관계 6.2 정현파 신호에 대한 FM 해석 6.3 협대역 FM/PM 신호의 해석
Ch. 5 : Analog Transmission
5 장 아날로그 전송 5.1 디지털 신호의 변조 5.2 전화 모뎀 5.3 아날로그 신호 변조 5.4 요약.
하드웨어 구현 - A/D 변환기(A/D converter) - 샘플링 주파수(Sampling frequency)
무선통신 기본지식 김 상 철.
Lecture #6 멀티미디어 데이터 압축 & 복원.
디지털 앰프의 기초 아날로그 앰프와 디지털 앰프의 차이 음질과 스펙과의 연관 관계
1 장 서론 목원대학교 정보통신공학과.
5 Part 정보 통신 개론 1. 정보 전송 이론 2. 데이터 전송 제어 3. 통신 회선 공유 4. 데이터 회선망 5.
5장. 센서활용 전자회로 설계 및 제작 1. Digital Clock Board
1 장 컴퓨터 네트워크와 인터넷 Introduction.
Ticket Dispenser Technical Manual
An Intra-Task DVFS Technique based on Statistical Analysis of Hardware Events 순천향대학교 컴퓨터학부 윤희성.
(Bandwidth Utilization: Multiplexing and Spreading)
PCM(Pulse Code Modulation)
제조사: Australian Monitor
2016년 2학기 PULSE 4 Experiment 14 클럭펄스 발생 회로.
파스타의 종류 김소연.
제 5 장 상황이론(Contingency Theory) - Case Study -
차세대 이동통신 실무기술 제9장 RF시스템 1. 기지국장치(BTS) 1-1 기저대역처리부 1-2. 무선처리부
5 장 부호화(Encoding) 5.1 디지털-대-디지털 5.2 아날로그-대-디지털 5.3 디지털-대-아날로그
2015년 2학기 PULSE 4 전자물리실험 12-클럭펄스 발생 회로 - DSU 메카트로닉스 융합공학부 -
인사만 잘해도 성공할 수 있다!.
Data Communications 제 6 장 신호변환과 신호변환기.
Data Communications 제 6 장 신호변환과 신호변환기 J.W.Chung and J.S.Han
2015년 2학기 PULSE 4 전자물리실험 10 – 조도 센서와 소리 발생 - DSU 메카트로닉스 융합공학부 -
‘그린나래호텔’은 대한민국 공군에서 해운대 해수욕장변에 건축한 군의 복지향상을 위해 지은 군휴양소 건물입니다.
Ch 5 영상압축.
공정-기술 로드맵 기술개요도에 나타나 있듯이 레오 포밍 기술은 여러 가지 최종제품을 만드는데 있어 기존의 공정
목차 계측 개요 계측 흐름도 센서 유의점 센서 형식별 분포 센서 종류 센서 종류별 분포 센서타입 원리 센서적용 범위
화 재 사 례 충청대학 산업안전과 2학년 A반 김상훈.
품 목: Multi Channel Amplifiers 모델명: COM Series
제2장 통신 신호 및 시스템 해석(2).
4장. WAN (Wide Area Network)
제조사: Australian Monitor
센서 전자 공학.
(제작자: 임현수)모둠:임현수,유시연,유한민
떠나자! 우주로 환영합니다 경상남도사천교육청영재교육원 안녕하십니까? 지금부터 대구광역시 교육과학연구원 발명교육센터 개관에 따른
중학교 2학년 과학 1. 여러 가지 운동 > 1) 물체의 운동 방향이 변하는 운동에는 어떤 것이 있을까?
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
제디아가 만들고 세계가 듣는다. 기능 특성 JNC-111
알루미늄 투명형 방음벽.
차 례 품질보증 및 A/S안내 1. 제품의 제원 2. 제품의 특징 3. 제품의 구성품목 4. 제품의 부분별 명칭 및 기능
Presentation transcript:

13.1 음성 부호화에서의 ADPCM 13.2 G.726 ADPCM 13.3 보코더 13장 기본 오디오 압축 기술 13.1 음성 부호화에서의 ADPCM 13.2 G.726 ADPCM 13.3 보코더 멀티미디어시스템 2010-2학기

13.1 음성부호화에서의 ADPCM ADPCM은 ITU의 음성 압축 표준인 G.721, G.723, G.726, G.727의 핵심을 구성. 이러한 표준들 사이의 차이점은 비트율 (샘플당 3에서 5비트)과 알고리즘의 몇 가지 세부사항을 포함. 기본 입력은 μ-법칙으로 부호화된 PCM 16비트 샘플. 멀티미디어시스템 2010-2학기

그림 13.1: “오디오” 단어의 파형: (a) 음성 샘플, 샘플당 8kHz/16 bits에서의 선형 PCM (b) 음성 샘플, 4bits/sample에서 G.721로 압축된 오디오로부터 복원 (c) (a)와 (b) 사이의 차분 신호.

13.2 G.726 ADPCM ITU G.726은 ITU 표준 G.721과 G.723을 대신함. 원리: 간단한 방법으로 고정 양자화기(fixed quantizer)를 적 응적으로 동작하고, 사용된 부호어의 다른 크기는 8kHz 샘 플링 비율에서 16kbps, 24bps, 32kbps 또는 40kbps에 이름. 멀티미디어시스템 2010-2학기

표준은 신호의 현재 스케일에 의존해서 모든 차분 값 en에 대해 변화되는 상수 α를 정의함. 스케일된 차분 신호 gn은 다음과 같이 정의됨: 은 예측된 신호 값. gn은 양자화를 위해 양자화기로 보내짐.

그림 13.2: G.726 양자화 입력 값은 인수 α와의 차분 비율. α를 변화시킴으로써, 양자화기는 차분 신호의 범위 내 에서 변화에 적응할 수 있음. ᅳ 역방향 적응적 양자화 기(backward adaptive quantizer)

역방향 적응적 양자화기 역방향 적응적(backward adaptive) 양자화기는 원칙 적으로 다음과 같은 경우 중 어느 것을 인지함으로써 동작. 너무 많은 값들이 0에서 멀리 떨어진 값으로 양자화 됨 ᅳ 만약 f의 양자화기 단계 크기가 너무 작으면 일어남. 너무 많은 값들이 너무 자주 0에 가까운 값으로 쏠림 ᅳ 만약 양 자화기 단계 크기가 너무 크면 일어남. Jayant 양자화기(Jayant quantizer)는 단지 하나의 블 럭을 받은 후에 역방향 양자화기 단계 크기에 적응하는 것을 허용. Jayant 양자화기는 만약 양자화된 입력이 양자화기 범위 밖의 레 벨이면 단순히 단계 크기를 확장하고, 만약 입력이 0에 가깝다 면 단계 크기를 줄임. 멀티미디어시스템 2010-2학기

Jayant 양자화기의 단계 크기 Jayant 양자화기는 각 레벨에 대해 승수 값 Mk를 할당 하는데, 0에 가까운 레벨에 대해서는 1보다 더 작은 값 을 밖의 레벨에 대해서는 1보다 더 큰 값을 할당. 간단화 공식에 의해 신호 fn을 위한 양자화기 단계 크 기 ∆는 이전 신호 값 fn-1을 위해 양자화된 값 k에 따라 변함. 신호의 양자화된 버전은 변화를 유도하기 때문에, 이 것은 실제로 역방향 적응적 양자화기임.

G.726 ᅳ 역방향 적응적인 Jayant 양자화기 G.726을 α에 의해 나누어진 입력 차분 신호 en의 대수 에 기반을 둔 고정된 양자화기 단계를 사용. 나눔 수 α는 다음과 같음: 일반적으로 차분 값이 작을 때와 클 때를 구별하기 위 해, α는 다음의 두 차분으로 나누어짐. 잠긴(locked) 부분 αL ᅳ 작은 차분 값을 위한 스케일 인수 잠기지 않은(unlocked) 부분 αU ᅳ 큰 차분에 빠르게 적응 이것은 로그 양(log quantities) ßL 과 ßU에 대응. 즉: * A는 음성을 위해서 1근처의 값으로 음성 대역 데이터를 위해서 0 근처 의 값으로 변화함.

“잠기지 않은” 부분은 방정식에 의하여 적응됨. 여기서 Mk 는 k번째 레벨을 위한 Jayant 승수. 잠긴 부분은 잠기지 않은 부분으로부터 약간 변형. 여기서 B는 2-6 정도의 작은 수. G.726 예측기는 꽤 복잡: 그것은 이전 6개 신호 값 fn으로 부터 6개의 양자화된 차분과 2개의 복원된 신호 값의 선 형 결합을 사용함.

13.3 보코더 보코더(Vocoders) - 모뎀 신호와 같은 다른 아날로그신 호가 사용될 때 유용하게 적용되지 않는 음성 부호기로 사용. 두드러진 특징들을 가능한 한 적은 비트로 획득할 수 있는 음성 모델링과 관련 있음. 때를 맞춰 음성 파형의 모델을 이용(LPC(선형 예측 부호화) 보 코딩), 또는 … → 신호를 주파수 성분으로 분해하고 그것을(채널 보코더와 포만 트 보코더) 모델링 함. 음성의 보코더 시뮬레이션은 아직 완벽하지 않음. 멀티미디어시스템 2010-2학기

위상 둔감도 음성 파형의 완전한 복원은 지각적으로 확실히 불필요: 필요한 것은 어떤 시점의 에너지의 양이 적절해야 하고 신호는 올바른 소리를 내야 함. 위상(Phase)은 시간의 함수 안에서 시간 독립 변수의 이동. 우리가 피아노 키를 두드리면, 대략 사인곡선 소리 cos(wt)와 w=2πf를 생성한다고 가정. 만약 우리가 위상 이동 π/2를 생성하기 위해 충분한 시간을 기 다리고, 음향 cos(2wt + π/2)를 갖는 다른 키를 두드리면 그림 13.3에서 실선과 같은 파형을 생성. 이 파형은 cos(wt) + cos(2wt + π/2)의 합. 멀티미디어시스템 2010-2학기

그림 13. 3: 실선: 위상 쉬프트를 갖는 두 코사인의 중첩. 점선: 위상 쉬프트가 없음 그림 13.3: 실선: 위상 쉬프트를 갖는 두 코사인의 중첩. 점선: 위상 쉬프트가 없음. 파형은 매우 다르나, 지각적으로 소리는 같음. 만약 우리가 두 번째 건반을 두드리기 전에 기다리지 않는 다면, 이 파형은 cos(wt) + cos(2wt)가 됨. 하지만 실제로 그것 들이 위상에서 이동 되었지만, 지각적으로 두 건반은 같은 소리로 들리게 됨.

채널 보코더 보코더는 1~2kbps의 낮은 비트율에서 동작될 수 있 음. 그렇게 하기 위해서, 채널 보코더는 다른 주파수 성분을 분리하기 위해 먼저 필터 뱅크를 적용함. 그림 13.4: 채널 보코더

위상 둔감도(Phase Insensitivity)에 기인함(즉, 에너지만 중 요): 파형은 그것의 절대값으로 “정류된다(rectified)”. 필터 뱅크는 각 주파수 범위에 대해 상세적인 파워 레벨을 유도 함. 서브밴드 부호기는 신호를 정류하지 않고, 더 넓은 주파수 대역 을 사용할 것임. 채널 보코더는 또한 일반적인 음성의 음조(pitch)(낮음- 베이스 또는 높음-테너)와 음성의 자극(excitation)을 결 정하기 위해 신호를 분석. 채널 보코더는 소리 모델을 묘사하는 자극 매개변수의 벡터를 생성하기 위해 소리관 전달 모델(vocal tract transfer model)을 적용하고 그 소리가 유성음(voiced)인지 무성음(unvoiced)인지를 추측. 멀티미디어시스템 2010-2학기

포만트 보코더 포만트(Formants): 음성 샘플에서 나타나는 두드러 진 주파수 성분은 그림 13.5에서 보여줌. 원리 : 가장 중요한 주파수만 부호화함. 그림 13.5: 실선은 그림 6.15의 음성 샘플의 처음 40msec에서 나타난 주파수를 보여줌. 점선은 유사한 주파수가 1초 뒤에 여전히 존재하여, 이 주파수가 쉬프트된 것을 보여줌.

선형 예측 부호화(LPC) LPC 보코더(LPC vocoders)는 신호를 주파수 영역으 로 변환하기 보다 오히려 파형으로부터 직접 음성의 두 드러진 특징을 추출. LPC 특징: 주어진 자극으로부터 생성되는 소리관 소리의 시변 모델(time- varying model)을 이용. 전송되는 것은 소리관의 형성과 자극을 모델링하는 매개변수의 세트이지 실제신호나 차분신호가 아님 ⇒ 적은 비트율. “선형(Linear)”에 대하여: 출력 소리관 모델에 의해 생 성된 음성 신호는 현재 음성 출력에다 이전 모델 계수 의 두 번째 항 선형이 더해진 것의 함수로써 계산됨. 멀티미디어시스템 2010-2학기

LPC 부호화 처리 LPC는 현재 세그먼트가 유성음인지 무성음인지의 결 정에 의해 시작: 무성음을 위해: 넓은 대역 잡음 발생기(wide-band noise generator) 는 소리관 시뮬레이터로 입력되는 샘플 값 f(n)을 생성. 유성음을 위해: 펄스열 발생기(pulse train generator)는 f(n) 값을 생 성. 모델 매개변수 ai : 실제 음성과 소리관 모델에 의해 생성된 음성 사이의 차를 최소화하는 최소 제곱 방정식의 집합을 이용하여 계산되고, 음성 매개 변수를 획득한 잡음 또는 펄스열 발생기에 의해 자극 됨. 멀티미디어시스템 2010-2학기

LPC 부호화 처리(계속) 만약 입력 값 f(n)에 대해 출력 값 s(n)을 생성한다면, 출 력은 p 개의 이전 출력 샘플 값에 달려있음: G - ”이득” 인자 계수; ai - 선형 예측기 모델에서 값 LP 계수는 다음의 최소화 문제를 해결함으로써 계산될 수 있음:

LPC 부호화 처리(계속) ai 의 미분 계수를 가지고 그것을 0으로 두면, p개의 방 정식 집합을 얻음: Φ(i,j) = E{s(n-i)s(n-j)}라 두면, 아래 식을 얻음:

LPC 부호화 처리(계속) 자기 상관도 방법은 LP계수를 계산하기 위해 자주 사 용되는 방법: sw(n) = s(n+m)w(n) - 시간 m으로부터 시작하는 윈도우된 음성 프 레임

LPC 부호화 처리(계속) Φ(i, j)가 Φ(i, j)= R(|i-j|)로 정의될 수 있기 때문에, R(0) ≥ 0 일 때 행렬{Φ(i, j)}은 양의 대칭 행렬이 되고 LP계수를 계산하기 위한 빠른 스키마가 존재함:

LPC 부호화 계수(계속) 이득 G는 아래와 같이 계산될 수 있음:

부호 자극적인 선형 예측(CELP) CELP(Code Excited Linear Prediction)는 간단한 LPC 모델의 부족한 품질을 완화하기 위한 더 복잡한 부 호기 집합. CELP는 자극의 더 복잡한 기술을 이용: 자극 벡터의 전체 집합(부호책: codebook)을 실제 음성으로 매치 되고, 가장 잘 매치되는 인덱스는 수신기로 보내짐. 복잡성은 4,800 ~ 9,600bps로 비트율을 증가시킴. 결과 음성은 더 유사하고 연속적인 것으로써 인지됨. 이 방법으로 달성된 품질은 오디오 회의용으로 충분함. 멀티미디어시스템 2010-2학기

CELP를 위한 예측 CELP 부호기에서는 두 종류의 예측이 포함됨: LTP(긴 시간 예측: Long Time Prediction): 파형은 대체로 반복되기 때문에 기본적인 주기성 혹은 음조를 찾음으로써 음성 신호에 서 중복성을 줄일 수 있음. STP(짧은 시간 예측: short Time Prediction): 몇 개의 이전 샘플로부 터 다음 샘플의 예측을 시도함으로써 음성 신호에서 중복성을 제거할 수 있음. 멀티미디어시스템 2010-2학기

STP와 LPT사이의 관계 STP는 몇몇의 샘플에만 기반하여 단기간 음성 스펙트 럼의 포만트 구조를 획득. STP 다음의 LTP는 전체 프레임 혹은 하부 프레임 (프레 임의 1/4)을 사용하여 음성에서 주기성을 나타내는 음 성 신호의 기간 상관도를 회복. LTP는 종종 “적응적 부호책 검색(adaptive codebook searching)”으 로 구현. 그림 13.6은 STP와 LTP사이의 관계를 보여줌. 멀티미디어시스템 2010-2학기

그림 13.6: 적응적이고 확률적인 부호책을 갖는 CELP 분석 모델

적응적 부호책 검색 원리: 현재 하부 프레임과 매치되는 것을 찾기 위해 파형의 부호책을 들여다보는 것. 현재 하부 프레임과 매치되는 것을 찾기 위해 파형의 부호책을 들여다보는 것. 부호어(codeword): 적응적 부호책에서 현재 음성 프레임 또는 하 위 프레임에 대응되는 지연 τ 에 의해 인덱스 되어 쉬프트된 음 성 잔여 세그먼트. 부호어에 해당하는 이득은 g0로 표시. 멀티미디어시스템 2010-2학기

열린-루프 부호어 검색 지각적으로 가중되는 복원된 음성 오차가 아니라 장 기간 예측 오차를 최소화하려고 노력함. ∂E(τ)/∂g0 = 0 으로 g0의 편미분을 0으로 둠으로써, 다음 을 얻음. 따라서 최소화 합-오차 값은 다음과 같음.

LZW 닫힌-루프 부호어 검색 닫힌 루프 검색은 대개 CELP 부호기에서 사용함 ᅳ 또 한 합성에 의한 분석(A-B-S: Analysis-By-Synthesis)으로 불 림. 음성은 단순히 제곱의 합을 고려하는 것보다 적응적 부 호책 검색을 통해 최소화된 지각적 오차와 복원됨. 적응적 부호책에서 가장 좋은 후보는 국부적으로 복원 된 음성의 왜곡을 최소화 하도록 선택. 매개변수는 원래 음성과 복원된 음성 사이의 크기를 최 소화하여 얻음. 멀티미디어시스템 2010-2학기

하이브리드 자극 보코더 하이브리드 자극 보코더(Hybird Excitation Vocoders) 는 다중 모델 자극을 도입하기 위한 모델 기반 방법을 사용하여 CELP와는 다름. 두 가지 주요 유형을 포함: MBE(다중 대역 자극: Multi-Band Excitation): 음성 분석이 약 20msec에서 30msec까지의 음성 프레임 단위로 행해지는 블럭 기반 코덱임. MELP(다중 대역 자극 선형 예측: Multiband Excitation Linear Predictive): 음성 코덱은 매우 낮은 비트율 안전 통신에 응용의 초 점을 맞춘 오래된 LPC-10(FS 1015)표준을 대체하기 위한 새로운 미국 연방 표준임. 멀티미디어시스템 2010-2학기

MBE 보코더 MBE는 매개변수 예측에서 A-B-S 계획을 이용: 기본 주파수, 스펙트럼 포락선, 부 대역 U/V 결정과 같은 매개 변수는 닫힌 루프검색을 통하여 수행. 닫힌 루프 최적화의 기준은 지각적으로 가중되어 복원된 음성 오차를 최소화하는 것에 기반하며, 주파수 영역에서 다음과 같 이 표현될 수 있음. Sw(w) - 원본 음성의 단기간 스펙트럼 Swr(w) - 복원 음성의 단기간 스펙트럼 G(w) – 지각적 가중치 필터의 스펙트럼

MELP 보코더 MELP: 또한 LPC 분석을 기반으로 하며, 자극 신호를 위 한 다중대역의 유연한 결정 모델을 사용. MBE와는 달리, MELP는 자극을 0~500, 500~1000, 1000~2000, 2000~3000, 3000~4000 Hz의 다섯 가지 고정 된 대역으로 분리. 멀티미디어시스템 2010-2학기

MELP 보코더(계속) 유성음 정도 매개변수는 비-DC 대역에서의 음성 신호 와 평탄화되고 정류된 신호의 정규화된 상관도 함수를 기반으로 각 대역에서 예측됨. sk(n)을 대역 k에서 음성 신호를 나타내고, uk(n)을 sk(n) 의 DC가 제거되고 평활화되어 정류된 신호를 나타낸 다고 가정. 상관도 함수는 다음과 같음: P - 현재 프레임의 음조 N – 프레임 길이 k – 대역을 위한 유성음화 세기(max(Rsk(P), Ruk(P))로 정의)

MELP 보코더(계속) MELP는 최저한의 유성음화된 음성 세그먼트를 실험하 여 지터리 유성음 상태를 채택. 지터리 상태는 전파 정류된 LP 잔여 e(n)의 최고점에 의 해 결정: 만약 최고점이 어떤 임계치보다 크다면, 음성 프레임은 지연된 상태가 됨.