Download presentation
Presentation is loading. Please wait.
1
12장. 음성 신호처리 12.1 개 요 12.2 음성생성 모델 12.3 음성 합성 12.4 음성 부호화 12.5 음성 인식
12장. 음성 신호처리 12.1 개 요 12.2 음성생성 모델 12.3 음성 합성 12.4 음성 부호화 12.5 음성 인식 Circuits & Systems Lab.
2
12.1 개 요 인간의 음성 음성 신호처리 음성 신호처리 구분 -. 가장 간단한 정보전달 수단 -. 비방향성
12.1 개 요 인간의 음성 -. 가장 간단한 정보전달 수단 -. 비방향성 -. 영상과 비교하여 입출력 장치가 간단 음성 신호처리 -. 디지털 기술을 이용한 해석으로 급속한 발전 음성 신호처리 구분 -. 음성분석 : 음성의 특징파악을 목적으로 각종 파라메타를 추출 -. 음성부호화 : 전송이나 저장을 목적으로 각종 파라메타를 추출 -. 음성합성 : 기계가 사람에게 응답하는 시스템으로 각종 파라메타를 저장하였다가 필요시 합성파형 신호를 재생 (파형부호화방식/스펙트럼부호화방식) -. 음성인식 : 음성로부터 특징 파라메타를 추출하여 단어의 특징을 매칭 -. 음성품질향상 : 잡음제거 Circuits & Systems Lab.
3
12.2 음성생성 모델 남성:70~150[Hz] 여성:200~350[Hz] 그림 12. 1 발성기관 개략도
성도의 단면적의 형태는 음향관의 공진주파수를 결정 : 성대파가 성도를 통과할 때 그 주파수 성분 중에서 성도의 공진주파수와 유사한 성분은 강조되어 그 결과 음운성이 부여되어 언어음으로서의 음성이 발생 Circuits & Systems Lab.
4
12.2 음성생성 모델 음성파형 그림 12. 2 음성의 생성모델 쉼(pause) 구간 : 신호가 거의 zero 음성구간
-. 유성음 : 大진폭으로 피치를 주기적으로 반복하는 준 정상적 파형 -. 무성음 : 음성파형이 小진폭의 랜덤파형으로 백색잡음과 유사 유성음 : 성대의 진동 동반 (주기성) 무성음 : 성대의 진동 없음 (비주기성) Circuits & Systems Lab.
5
12.2 음성생성 모델 그림 12. 3 음성생성의 디지털 모델 (12-1) (12-2)
Circuits & Systems Lab.
6
12.2 음성생성 모델 백색 잡음(White noise) 백색의 빛은 모든 주파수의 빛을 고르게 포함한다는 것에서 유래
유효 주파수 대역내의 모든 주파수에 대하여 레벨이 거의 고른 잡음 전기 회로 등에서 나오는 열잡음을 말함 Circuits & Systems Lab.
7
12.3 음성합성 1. 음성합성 모델 선형필터모델 -. 백색잡음 또는 주기적인 펄스열이 시간에 따라 변화한다고 가정 -. 혼합된 음원(유성마찰음, 비음)에 대한 고려가 없음 멀티펄스 선형 예측 부호화(Linear Predictive Coding:LPC) 모델 -. 선형필터모델의 단점 개선 -. 펄스와 백색잡음을 여러 개의 펄스열로 대신 -. 펄스의 크기와 위치는 원래의 음성신호와 합성된 신호간의 차이를 최소화하는 값으로 선택 -. 비교적 적은 개수의 펄스로 좋은 음질의 합성음이 가능 확률적 음원(Stochastic excitation) 모델 -. 백색 가우시안 분포를 갖는 코드북(codebook)으로부터 적절한 판단기준을 설정하여 음성신호와 합성음간의 차이를 최소화하는 음원을 선택 Circuits & Systems Lab.
8
12.3 음성합성 2. 음성합성 기술 음성합성 음성을 부호화하여 저장하는 방법에 따른 합성기(mixer)의 구분
: 입력된 문장이나 명령에 따라 미리 저장된 단위를 조합하여 합성음을 출력 -. 음성응답시스템 : 제한된 어휘에 대해 단어나 구, 절 등의 조합으로 합성 -. 문장음성시스템 : 음절이나 음소, diphone 등으로부터 운율적 처리과정을 통해 문장을 합성 음성을 부호화하여 저장하는 방법에 따른 합성기(mixer)의 구분 -. 파형 부호화 : 높은 음질을 요하는 제한된 어휘합성시스템을 시간영역에서 합성 -. 신호원 부호화 : 무제한 어휘합성 시스템에서 적절한 매개변수를 사용하여 파형의 주파수 특성을 재생 Circuits & Systems Lab.
9
12.3 음성합성 파형 부호화 : Nyquist 주파수로 음성신호를 표본화하여 PCM, log PCM, ADPCM, ADM,
SBC(Sub Banding Coding) 또는 APC(Adaptive Predictive Coding)를 써서 부호화 한 후 저장하였다가 필요한 어휘를 꺼내어 연결시켜 합성음을 만드는 방법 Zero cross -. 음성파형을 4∼10[kHz]로 샘플링하고 각 시점의 값이 양(plus)일 때는 1, 음(minus)일 때는 -1로 근사 -. 장점 : 컴퍼레이터와 입출력포트 하나씩만 있으면 마이크로컴퓨터 등으로 간단히 분석, 합성에 대한 실험을 할 수 있다 -. 단점 : 음성파형을 1의 두 값으로 표현하기 때문에 당연히 S/N이 나쁘고 잡음 속에 음성이 파묻혀 있다는 느낌이 든다 Circuits & Systems Lab.
10
12.3 음성합성 PCM(pulse code modulation) -. 오디오 분야에서 많이 사용하는 방식
-. 음성을 A/D 변환하여 양자화한 데이터를 D/A 변환해서 파형을 재생 -. 합성 음성에 포함된 오차는 양자화 오차 뿐이므로 충실도가 아주 높은 합성이 가능하다. 그 대신 비트율이 대단히 높아진다. -. 예) 샘플링 주파수를 8[kHz], 양자화 정밀도를 8[bit]로 하면 8000 * 8 = 64[kbit/sec]가 된다. 이것은 2764 EPROM인 칩을 1개 사용했을 경우 약 1초 정도의 합성이 가능한데 현재는 대용량 ROM이 많이 출하되어 수십 초에 이르는 합성도 가능하다. ( 파형 부호화에 의한 합성은 알고리듬이 간단하며 복호화된 합성음의 음질은 좋지만 데이터 베이스의 양이 문제가 된다. 또한 작은 단위의 연결에 의한 합성이 어려워 제한된 단어의 합성이 요구되는 음성 응답시스템에 많이 사용되고 있으나 무제한 어휘합성에는 부적당) Circuits & Systems Lab.
11
12.3 음성합성 신호원 부호화 : 음성생성 모델에 근거를 둔 합성방법으로 음원의 특성과 음성의 스펙트럼을
재생하는데 목표를 둔다. 신호원 부호화 방식으로 channel bank, formant, LPC, PARCOR, LSP, Cepstrum 등이 있다. Circuits & Systems Lab.
12
12.3 음성합성 3. 선형 예측법 음성샘플을 x(i), (i=1,2, … ,n)로 표시하면 음성파형과 이웃한 샘플간에 상관관계가 높음을 알 수 있다. 즉, x(n)은 과거의 샘플 x(n-1), x(n-2), … ,x(n-M)과 어떠한 상관을 가지므로 다음과 같이 과거의 M개 샘플들과 선형결합으로 예측할 수 있다. 선형 예측치 (12-3) 예측 오차신호 (12-4) 여기서 각 샘플들에 곱하여지는 계수 를 선형 예측계수라 한다. 이 선형 예측계수들은 예측 오차신호의 평균자승치가 최소가 되도록 정한다.이때 는 상관행렬에 의한 방정식으로 주어진다. Circuits & Systems Lab.
13
12.3 음성합성 식 (12.4)에서 예측 오차신호 f(n)을 입력으로 하고 음성파형 x(n)을
출력으로 하는 필터의 입출력관계를 구해 보면 필터의 전달함수는 다음과 같이 전극(all pole) 형태로 된다. (12-5) 식 (12.5)의 디지털필터 -. 원리적으로는 항상 안정 -. 계수 감도가 높고 계수 오차 및 계수 양자화에 의해 불안정 Circuits & Systems Lab.
14
12.3 음성합성 예측 오차신호는 일반적으로 복잡한 파형이 되지만, 유성음 구간에는
거의 주기적이고 무성음 구간에는 불규칙적(백색잡음)으로, 예측이 잘 되었을 경우에는 그 스펙트럼의 포락선은 거의 평탄한 형태로 된다. => 이러한 필터의 진폭특성은 음성 스펙트럼의 포락 혹은 성도의 특성을 나타내게 된다. 선형 예측계수의 값은 분석 차수에 의존 -.예) 차수 M이 8에서 10으로 되면 만 구하면 되는 것이 아니고, 처음부터 다시 계산을 하여야 한다. -. 따라서 선형예측법에 의한 분석합성은 보통은 편상관(PARtial CORrelation:PARCOR) 분석합성의 형태로 하는 경우가 많다. Circuits & Systems Lab.
15
12.3 음성합성 PARCOR 계수를 구하는 방법 음성파형에 대하여 시각 n에서의 값 x(n)이 x(n-1), x(n-2), …, x(n-m)에 의해 예측되는 것처럼 시간적으로 역의 관계에 있는 시각 n-(m+1)에서의 값도 예측 가능하다. 통상 전자를 전방(前方)예측, 후자를 후방(後方)예측이라고 부른다. 전방예측에 대한 예측계수를 이라 하면 예측치 및 예측오차 은 각각 다음과 같이 된다 (12-6) (12-7) Circuits & Systems Lab.
16
12.3 음성합성 후방예측에 대한 예측계수를 이라 하면 예측치 및 예측오차 은 각각 다음과 같이 된다 (12-8) (12-9)
후방예측에 대한 예측계수를 이라 하면 예측치 및 예측오차 은 각각 다음과 같이 된다 (12-8) (12-9) 위의 식에서 전방 예측계수 과 후방 예측계수 는 음성의 상관함수에 의해 결정되는데, 양자는 (12-10) 와 같은 관계가 있다 Circuits & Systems Lab.
17
12.3 음성합성 식(12-7)과 (12-9)로부터 은 과 의 선형결합으로 표시할 수 있다. 즉, (12-11) 이 때
식(12-7)과 (12-9)로부터 은 과 의 선형결합으로 표시할 수 있다. 즉, (12-11) 이 때 (12-12) 이다. where, : 반사계수 Circuits & Systems Lab.
18
12.3 음성합성 그림 12.4 PARCOR 합성필터의 기본단위
기초를 둔 격자 필터를 사용한다 PARCOR 계수 은 (12-13) 으로 되어 합성필터는 항상 안정하다 Circuits & Systems Lab.
19
12.3 음성합성 선형 예측법 PARCOR 분석을 보다 개량한 분석법
-. 음성의 생성 모델이 전극 모델로 되어 있고, 모델 계수의 결정을 위한 평가기준으로 예측오차의 단순한 형태인 자승평균 오차로 하고 있기 때문에 음성의 성질을 중시한 방법이라고는 할 수 없다. -. 그러나 분석합성을 위한 계산이 간단하고 하드웨어도 간단하며 합성 음성의 품질도 전체적으로 뛰어나 음성의 분석합성방법에서 중요한 위치를 차지하고 있다 PARCOR 분석을 보다 개량한 분석법 : 복합 정현파모델 분석법이나 선 스펙트럼쌍(line spectrum pair) 등이 제안되어 있지만, 이러한 것도 선형예측법, PARCOR 분석법과 마찬가지로 성도의 공진 특성에 기초를 둔 분석법으로 계산량이 많아지기 때문에 실시간 처리를 위해서는 전용하드웨어로 하든가 고속의 DSP를 이용해야만 한다 Circuits & Systems Lab.
20
12.4 음성부호화 아날로그 음성파형을 디지털화하는 기술 파형부호화 방식 -. 음성파형을 샘플링하여 양자화
-. 전송속도 : 16~64[kbps] -. 음질이 우수하여 일반 음성통신에 많이 사용 보코딩 방식 -. 음성의 주기와 성도의 계수 등 음성의 특징만 추출하여 전송한 후 수신측에서 음성을 재생 -. 전송속도 : 50[bps]~4.8[kbps] -. 부호기가 복잡하고 음질에 문제점 혼합부호화 방식 -. 파형부호화 방식과 보코딩 방식의 이점만 사용 -. 전송속도 : 4.8~16[kbps] -. 모뎀을 사용해서 기존의 아날로그 회선으로 전송 가능 -. 음질은 일반적으로 파형부호화 방식보다는 떨어짐 Circuits & Systems Lab.
21
12.4 음성부호화 1. 파형부호화 방식 선형 PCM 방식 -. 양자화 폭을 어떤 상수로 고정하여 선형으로 양자화하여 부호화
-. 파형부호화 방식 중 가장 많이 사용 -. 음성신호를 부호화하는데 있어 개념적으로 가장 간단한 방식 -. 제한된 대역폭(300~3,400[Hz])의 음성을 8[kHz]로 표본화해서 레벨로 양자화한 뒤 부호화하여 64[kbps]로 송신 log PCM 방식 -. 대수적으로 일정하게 양자화하여 부호화 -. 선형 양자기에 비해 성능이 우수 적응형 PCM 방식 -. 양자화 폭을 고정하지 않고 신호의 크기에 적응하여 폭이 변하는 방식 -. 입력신호의 진폭에 따라 양자화기의 최소 및 최고 레벨을 조절해 줌으로써 PCM의 성능을 향상 Circuits & Systems Lab.
22
12.4 음성부호화 예측 부호화 방식 -. 음성의 대역폭 축소를 위하여 음성신호의 여분을 이용
-. 과거에 들어온 음성신호의 샘플들로부터 다음에 들어올 신호의 크기를 예측하여 실제 입력 신호로부터 빼 줌으로써 오차신호를 발생시켜 이 신호를 양자화하여 전송 -. 이 오차신호의 진폭은 입력 음성신호의 진폭보다 훨씬 작기 때문에 그 만큼 양자화 레벨수도 줄어든다 -. ADPCM(Adaptive Differential Pulse Code Modulation), ADM(Adaptive Delta Modulation) Circuits & Systems Lab.
23
12.4 음성부호화 2. 보코딩 방식 전송속도 2.4~4.8[kbps] 그림 12.5 보코더 구조
Circuits & Systems Lab.
24
12.4 음성부호화 LPC 보코더 -. 일반적으로 음성신호와 같이 상호관계가 강한 신호는 일정한 수의
이전 샘플들로부터 다음 샘플의 값을 예측할 수 있다. -. 예측되어지는 샘플들의 값은 이전 샘플값들의 선형결합으로 얻어진다. -. 이때 예측 계수들은 음성샘플들의 예측된 값과 실제값의 오차를 최소화 시킴으로서 얻을 수 있다 -. 전송속도가 2.4[kbps]일 경우 다른 보코딩 방식보다 음질이 우수 -. 주변환경에 잡음이 심하거나 음파왜곡이 있을 경우 음질이 급격히 저하 formant 보코더 -. 전송속도 500~1,200[bps] -. 유성음과 무성음의 구별 및 피치 주기를 찾는 점에서 LPC 보코더와 동일 -. 선형 예측계수 대신 주파수 영역에서의 공진점 즉 포만트의 주파수 및 그 진폭을 추출하여 전송함으로써 전송속도를 500[bps]까지 낮추는 것이 가능 Circuits & Systems Lab.
25
12.4 음성부호화 3. 혼합부호화 방식 : 펄스와 잡음을 음원으로하는 보코더 방식과 파형부호화 방식을 조합
① 저역의 파형은 양자화오차의 범위내에서 정확히 재생된다. ② 선형 예측분석보다 전대역의 스펙트럼 정보가 능률적으로 표현된다. ③ 피치 추출, 유성음과 무성음의 판단이 불필요하기 때문에 주위 잡음의 추출, 오차에 의한 품질열화를 막을 수 있다. 장점 단점 : 시스템이 복잡 종류 시간영역 부호기 -. 잔차구동형 선형예측 보코더(Residual Excited LPC vocoder:RELP) -. 적응 예측부호기(Adaptive Predictive Coder:APC) 주파수영역 부호기 -. SC(Subband Coder) -. ATC(Adaptive Transform Coder) Circuits & Systems Lab.
26
12.5 음성인식 1. 음성인식의 단위 표 12.1 음성인식 단위의 장점과 단점
Diphone : 자음과 모음이 연결된 상태에서 각 음소의 중심에서 다음 음소의 중심까지 Circuits & Systems Lab.
27
12.5 음성인식 2. 음성인식 시스템 대상구간의 음성구간/무음성구간의 구분 -. 음성인식 시스템의 성능 좌우
음성구간의 검출을 위한 수식 는 음성의 표본값 : 각 프레임의 대수 에너지와 미리 정해놓은 문턱치와 비교하여 문턱치를 넘는 구간이 음성으로서 타당한 길이 이상 계속될 때 음성으로 간주 음향 처리부 -. 음성인식을 하기 전에 연속음성으로부터 각각의 음운에 대응하는 이산적인 구분화 작업과 각 구간에 대한 음운 기호를 대응시키는 작업(음운식별) Circuits & Systems Lab.
28
12.5 음성인식 1) 단어음성 인식 단어의 수가 적은 경우 단어의 수가 많은 경우 그림 12.6 단어음성의 인식시스템
그림 단어음성의 인식시스템 DP(Dynamic Programming) 매칭법 : 발성의 길이가 서로 다른 두 개의 패턴, 즉 표준패턴과 입력패턴을 최적으로 비선형 신축에 의해서 두 개의 패턴간의 유사도를 알아보는 방법 Circuits & Systems Lab.
29
12.5 음성인식 2) 연속음성 인식 음성의 이해시스템 -. 연속음성에서는 몇 개의 단어가 연속으로 되어 있고 단어간의 경계도
명확하지 않을 뿐 아니라 단어를 구성하는 음절 혹은 음소의 계속 시간은 극히 짧고 그 음도 아주 애매한 경우가 많다 -. 이와 같은 음성을 분석하여 음성 하나하나를 정확히 인식하는 것은 극히 어렵기 때문에 화자를 한정하지 않을 경우의 자동인식은 거의 불가능하다 -. 그러나 목적에 따라서는 음성 하나하나 혹은 단어 하나하나 정확히 인식하지 못하더라도 음의 메시지 내용이 판단가능하다면 충분한 경우도 있다 -. 이와 같이 화자가 전달하고자 하는 의미의 내용을 이해시키고자 하는 것 연속음성의 인식시스템 -. 음성의 이해시스템과 마찬가지로 구문(構文)정보나 의미정보 등의 언어정보를 적극적으로 이용한 귀환에 의해 단어 레벨이나 구문 레벨에서의 에러정정 혹은 예측 등을 한다 Circuits & Systems Lab.
30
12.5 음성인식 그림 12.7 연속음성의 인식시스템 DP 매칭법을 연속음성에 적용시킬 경우 단어 내에서 시간구조의 비선형
그림 연속음성의 인식시스템 DP 매칭법을 연속음성에 적용시킬 경우 단어 내에서 시간구조의 비선형 신축문제와 단어들간의 조합 문제가 대두된다. => 이를 위하여 DP 매칭의 연속화가 필요한데 일반적으로 많이 사용되고 있는 것은 2단 DP법과 연속 DP법이다 Circuits & Systems Lab.
31
12.5 음성인식 3) 화자의 인식 화자의 조합(照合) : 발성이 본인인가 아닌가 구별.
-. 서명, 인감, 신분증명서 그리고 면허증 등을 자신의 소리로 대신 화자추정 : 이미 등록되어 있는 음성 등록자 중에서 누구인가를 결정. -. 범죄수사에서 전화 등으로부터 녹음된 음성을 다수의 용의자로부터 찾아내고자 하는 것이 화자의 추정이다. 그림 화자 인식시스템 언어 정보에 대한 음성 인식시스템은 개인성(personality)의 영향을 가능한 제거할 필요가 있지만, 화자 인식에서는 오히려 개인성을 중시하여 서로 다른 화자에 대해서는 차이가 크고 동일 화자에 대해서는 차이가 나지 않는 특징을 이용할 필요가 있다 Circuits & Systems Lab.
Similar presentations