Download presentation
Presentation is loading. Please wait.
1
졸프 1 팀 – 소리사랑 지도교수 : 한광수 최재원, 정연진, 신선호, 최범수, 정세윤 오디오 처리 시스템
2
목차 2 1. 개요 2. 프로젝트 목표 3. 프로젝트 배경 4. 시스템 구조 5. 시스템 기능 6. 기술 설명 7. 구현 및 인터페이스 8. 개발 일정 9. 역할 분담
3
1. 개요 3 소리란 ? 음성이나 음악과 같이 귀로 들을 수 있는 모든 정보 음악, 음성, 음향효과
4
4 소리의 구성요소 음고 (Pitch) 음량 (Loudness, Volume) 음가 (Duration, Length) 음색 (Timbre, Color) 1. 개요
5
5 프로젝트 제안 범위 음성의 기본적인 구성 요소인 피치와 음색을 변환시켜 다양한 음 향 효과를 만들 수 있는 오디오 처리 시스템을 구현한다. 특수효과 기능과 Pitch, Sampling Rate, Tempo 를 변환하여 음성 변조 기능의 두 가지 주요 기능이 있다. 세부 기능으로는 문서 읽어주기 기능과 다양한 파형을 보여주는 디스플레이 기능을 구현한다. 1. 개요
6
6 본 프로젝트에서는 음성 변환 기법을 사용하여 화자의 음성 정보를 수정하거나 치환하여 사용자가 임의로 원 음성을 변환시킬 수 있는 오디오 처리 시 스템을 구현한다. 2. 프로젝트 목표
7
7 프로젝트 추진 배경 음성 변조와 더불어 음색 변환 기술은 최근 정보서비스 시스템 의 자동화, 다양화가 가속화 됨에 따라 점점 각광 받고 있는 분 야 중 하나이다. 이미 TTS(Text to Speech) 기술을 비롯해 여러 가지 기술을 담 고 있는 프로그램이 상용화 됨에 따라 일상 생활에서도 자연스 럽게 쓰이고 있으며 엔터테이닝 적인 요소와 접목시켜 보다 다 양한 분야로 진출하고 있다. 2. 프로젝트 목표
8
8 음성 변조 오디오 처리 시스템 음성인식, 음성합성 사운드 처리
9
3. 프로젝트 배경 9 기술 시장과 발전 현황 1980 년도에 국내에 유입, 이후 본격적인 음성인식에 관한 연구가 진행되어왔다. 현재 약 13 억 달러 시장을 형성하고 있는 음성 소프트웨어에는 음성다이얼 휴대폰, 음성입력소프트 웨어 등이 있으며 최근에는 지능형 음성인식 및 음성언어번역 소프 트웨어 개발이 적극적으로 진행되면서 PC 를 비롯한 휴대폰, 양방향 TV, 자동차 등에 내장 되고 있다.
10
3. 프로젝트 배경 10 음성 기술의 필요성 어휘 수, 화자독립, 인식 방법, 환경 등의 복잡한 사용자의 요구를 충분히 감당하고 있지 못함. 공상과학 영화의 음성인식이 미래 사회의 필수적인 기술로 등장 함으로써 음성인식 기술이 일상 생활에서 편리함을 증명.
11
3. 프로젝트 배경 11 기대효과 및 활용방안
12
4. 시스템 구조 12 시스템 컨트롤 Wave 포맷의 파일 읽기 디스플레이 사운드 카드의 제어 TTS&STT 특수효과 음성변조 파일읽기 마이크 입력 출력
13
5. 시스템 기능 13 녹음 (Recording) 마이크로 입력된 음성을 wave 포맷의 파일로 저장해준다. 웨이브 파일 재생 Wave 포맷의 파일을 재생 해준다.
14
5. 시스템 기능 14 특수 효과 (1) Chorus - 시간이 흐름에 따라 더 큰 지연을 사용하여 하나의 음성 또는 악기 소리 를 여러 개처럼 들리도록 만드는 효과 Compressor - 음을 증폭시키거나 압축하여 더 좋은 소리를 내기 위한 효과 Echo - 사운드웨이브 반사에 의한 사운드 반복 Distortion - 음이 찌그러지는 듯한 효과
15
5. 시스템 기능 15 특수 효과 (2) Gargle - 양치할 때 입 안을 가실 때 ( 가글 할 때 ) 와 비슷한 효과 Reverberation - 주위 물체의 반사로 인해 음이 계속 존재하는 현상 Flanging - 시간이 흐름에 따라 지연되는 시간을 달리하며 반복되는 복사본을 원본 오디오와 혼합하여 얻을 수 있는 오디오 효과
16
5. 시스템 기능 16 음성 변조 Tempo: 음성을 본래 속도보다 빠르거나 느리게 변화 시킨다. Pitch: 음성의 높낮이를 변화시킨다. Playback Rate: 음성의 tempo 와 pitch 를 동시에 변화 시킨다.
17
5. 시스템 기능 17 TTS(Text-To-Speech) 일반 언어 문장을 말로 변환시켜 준다.
18
5. 시스템 기능 18 STT(Speech-To-Text) Text-to-speech(TTS) 의 역으로 말을 문자로 변환시켜 준다. 기본적인 STT 뿐만이 아니라, 음성 인식을 통하여 간단한 메뉴를 동작시키는 인터페이스도 구현하였다.
19
5. 시스템 기능 19 디스플레이 Signal Waveform : wave 파일에서 나오는 신호의 파형 Normal Spectrum : 각 주파수 대역에 대한 스펙트럼 비 Log Spectrum : Normal Spectrum 을 log scale 로 변환 3D Spectrogram : 신호의 시간에 따른 스펙트럼을 3 차원 공간 상에 모두 표현한 그림 스펙트럼 ? 시간 영역의 신호를 퓨리에 변환하여 주파수 영역에서 재구성하여 나타나는 주파수 성분을 그래프로 나타낸 것.
20
6. 기술 설명 20 Wave(or wav) Waveform audio file format 의 줄임말 PC 에서 audio bitstream( 바이너리 형태로 전송되는 데이터 ) 의 저장을 위한 Microsoft 와 IBM audio file format 의 표준 윈도우 시스템에서 raw 그리고 압축되지 않은 audio 를 위한 주된 format 이다. 일반적으로 bitstream encoding 은 Linear Pulse Code Modulation(LPCM) format 을 사용한다.
21
6. 기술 설명 21 Wave file format
22
6. 기술 설명 22 Wave file format(1) 1) PCMWAVEFORMAT 구조체의 구조 -. WAVEFORMAT wf; -. WORD wBitsPerSample; 2) WAVEFORMAT 구조체의 구조 -. WORD wFormatTag; -. WORD nChannels; -. DWORD nSamplesPerSec; -. DWORD nAvgBytesPerSec; -. WORD nBlockAlign;
23
6. 기술 설명 23 Wave file format(1) 3) 예 : 22kHz 샘플링 된 8bit 스테레오 Wave 파일의 구조 PCMWAVEFORMAT PcmWaveFormat; PcmWaveFormat.wf.wFormatTag = 1; PcmWaveFormat.wf.nChannels = 2; PcmWaveFormat.wf.nSamplesPerSec = 22050; PcmWaveFormat.wf.nAvgBytesPerSec = 44100; PcmWaveFormat.wf.nBlockAlign = 2; PcmWaveFormat.wBitsPerSample = 8;
24
6. 기술 설명 24 Wave file format(2) 1) RIFF chunk - Char 4 "RIFF" // 파일의 종류가 RIFF 파일을 의미 - DWORD 4 FILE SIZE // 현재부터 끝까지의 파일크기 ( 파일크기 -4Byte 또는, 데이터 크기 +40Byte) - Char 4 "WAVE" //Wave 파일을 의미
25
5. 기술 설명 25 Wave file format(2) 2) FMT sub-chunk - Char 4 "fmt " //FMT sub-chunk 의 시작 - DWORD 4 16 // 현재 포인터 (16 Byte) - short 2 wFormatTag //PCMWAVEFORMAT 의 값 ( 1:Wave Format 이 PCM 방식 ) - short 2 nChannels // 채널 수 ( 1: 모노, 2: 스테레오 ) - DWORD 4 nSamplesPerSec // 샘플링 수 ( 11kHz:11025, 22kHz:22050, 44kHz:44100 ) - DWORD 4 nAvgBytesperSec // 초당 샘플바이트 ( nSamplesPerSec*BlockAlign ) - short 2 BlockAlign // 샘플당 바이트 ( nChannels* 비트 /8 ) - short 2 wBitsPerSample // 샘플당 비트 수
26
6. 기술 설명 26 Wave file format(2) 3) Data sub-chunk - Char 4 "data" // 데이터 청크의 시작 - DWORD 4 DATA SIZE // 데이터의 크기 - DATA // 데이터
27
6. 기술 설명 27 Direct Sound 마이크로소프트 사에서 제공하는 DirectX library 의 소프트웨어 컴포넌트. 어플리케이션과 사운드카드 드라이버 사이에서 직접적인 interface 를 제공한다. 어플리케이션이 sounds 와 음악을 만들 수 있게 해준다. 여러 개의 어플리케이션이 사운드카드를 동시간에 공유 하여 접근 할 수 있도록 해준다.
28
6. 기술 설명 28 BASS Audio Library Bass 는 Windows 와 Mac OSX 소프트웨어를 위한 오디오 라이브러리이다. 강력한 샘플 효과, stream, MOD music, 그리고 레코딩 기능을 개발자 들에게 제공하는 것을 목적 으로 한다. 모든 작은 DLL 은 100KB 이하의 사이즈이다. 윈도우상에서 BASS 는 Direct3 이상 그리고 DirectSound 를 이용하고 DirectSound3D 하드웨어 가속 드라이버의 사양을 요구한다.
29
6. 기술 설명 29 Microsoft Speech API(SAPI) 음성인식과 음성 합성을 위해 마이크로소프트 사에서 개 발된 윈도우 어플리케이션 용 API 이다. 사용하고자 하는 어플리케이션에 무료로 올릴 수 있다. 음성인식, TTS 엔진을 포함하고 있다.
30
7. 구현 및 인터페이스 (1) 30 음정 변환 (Tune transformation) 음정변환
31
7. 구현 및 인터페이스 (2) 31 TTS&STT interface
32
7. 구현 및 인터페이스 (3) 32 특수효과 (Special effects)
33
7. 구현 및 인터페이스 (4) 33 파형 (Waveform) display
34
7. 구현 및 인터페이스 (4) 34 스펙트럼 (Spectrum) display
35
8. 개발 일지 35 항목세부내용 1월1월 2월2월 3월3월 4월4월 5월5월 6월6월비고 요구사항 분석 요구 분석 SRS 작성 관련분야 연구 주요 기술 연구 관련 시스템 분석 설계시스템 설계 구현 코딩 및 모듈 테스트 테스트 시스템 테스트
36
36 이름역할 최재원 프로젝트 관리 및 역할 분담 음성 효과 모듈 개발 신선호 음정 변환 Speech-To-Text 최범수 파형 디스플레이 스펙트럼 디스플레이 정연진 Wav 재생 및 녹음 Text-To-Speech 정세윤 UI 개발 이산 퓨리에 변환 9. 역할 분담
Similar presentations