졸프 1 팀 – 소리사랑 지도교수 : 한광수 최재원, 정연진, 신선호, 최범수, 정세윤 오디오 처리 시스템.

Slides:



Advertisements
Similar presentations
CI(Continuous Integration) 이학성. C ontinuous I ntegration? 2 지속적으로 품질관리 를 적용하는 과정 개발자가 기존 코드의 수정 작업 을 시작할 때, 코드 베이스의복사본을 받아서 작업을 시작하면서 코드의 변경.
Advertisements

SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Popcon 이규태 김준수 강예진. 목차  Popcon 이란  개발동기 및 목적  필요성  차별성  설계  개발일정  기대효과 및 향후 계획.
Proprietary ETRI OOO 연구소 ( 단, 본부 ) 명 1 CDN 을 위한 캐시 시험 모듈 소프트웨어연구부문 빅데이터 SW 플랫폼연구부 분석소프트웨어연구실 ETRI Technology Marketing Strategy ETRI Technology Marketing.
.Net History. Visual Studio.Net 2002 /.Net Framework 1.0 제품의 버전 / 특징 2002 년 - Visual Studio.Net 2002 /.Net Framework 1.0 첫 통합 개발 환경 - C# 언어 등장 (C# 1.0)
엑셀리포트를 이용한 날짜별 리포트 자동 저장 방법
컴퓨터와 인터넷.
컴퓨터 운영체제의 역사 손용범.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
Security Solutions (S/W) - Fortify
                                  9장 컴퓨터 기반 데이터 수집의 기초.
음향 시스템 사양서 REVERB AND EFFECTS PROCESSOR LEXICON : PCM96 SPECIFICATIONS
DIGITAL RACK MIXER M32C MIDAS NAME MODEL 제조사
Image & Video processing
1. 신뢰할 수 있는 싸이트 등록 인터넷 익스플로러 실행 후 실행
1. Windows Server 2003의 역사 개인용 Windows의 발전 과정
멀티미디어 기본+활용 제대로 배우기.
Web Service Computing and Practice_
장 비 사 양 서 제품특징 제품사양 제조국 브랜드 AVID 모 델 E3 품 명 DIGITAL AUDIO MIXER
07. 디바이스 드라이버의 초기화와 종료 김진홍
CHAPTER 02 OpenCV 개요 PART 01 영상 처리 개요 및 OpenCV 소개.
Visual Basic .NET 처음 사용하기.
Capstone-Design : IoTeam Introduction Abstract
FTP 프로그램 채계화 박재은 박수민.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
WinCE Device Driver 실습 #3
WinCE Device Driver 실습 #2
학습목표 학습목차 다른 홈페이지의 HTML 파일 코드를 보는 방법에 대해 알아봅니다.
초음파를 이용한 거리 측정과 음성구현 1 조 한 형 래 김 요 섭 안 정 민.
PC오실로스코프 & 주파수발생장치 캡스톤 22조 차재호 박진우.
이동식 다 관절 로봇팔 Removable Articulated robot arm
멀티미디어.
제 1장. 멀티미디어 시스템 개요.
Microprocessor I/O Port & CLCD Noh Jin-Seok.
CHAP 12. 리소스와 보안.
Method & library.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
TERM PROJECT 제안서 안내 2010 컴퓨터공학실험(Ⅰ).
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
Mobile braille system for the blind
블루투스를 이용한 무선 스피커 구현 이기문 황대연.
자율주행 차량용 드라이빙 컴퓨팅 하드웨어 플랫폼 05
컴퓨터 시스템 하드웨어 컴퓨터 시스템 소프트웨어 C P U Control Unit 입 력 장 치 출 력 장 치 ALU
AUTODESK AUTOCAD ELECTRICAL 전기제어 2D 설계 소프트웨어 표준기반 설계 생산성 도구 구조도 설계
장 비 사 양 서 브랜드 KEVIC 모 델 MX2486 품 명 AUDIO MIXER 제품특징 제품사양
LabVIEW WiznTec 주임 박명대 1.
UNIT 25 SPI 로봇 SW 교육원 조용수.
2D 게임프로그래밍 프로젝트 스틱 파이터 Stick Fighter 박하은.
컴퓨터 계측 및 실습 디지털 출력 영남대학교 기계공학부.
Kangwon National Univ. | Computer Science
RFID란? RFID(Radio Frequency Indentification)는 자동인식(Automatic Identification) 기술의 하나로써 데이터 입력장치로 개발된 무선(RF: Radio Frequency)으로 통하는 인식 기술이다. Tag안에 물체의 ID를.
컴퓨터 소프트웨어 설계 및 실험 년 1학기 실험계획 -.
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
품 목: Videoconference DSP 모델명: NEXIA VC 제조사: BIAMP
OpenCV 설정 2.21 만든이 딩딩.
컴퓨터 소프트웨어 설계 및 실험 년 1학기 실험계획 -.
AT MEGA 128 기초와 응용 I 기본적인 구조.
UNIT 25 SPI 로봇 SW 교육원 조용수.
3장 JSP프로그래밍의 개요 이장에서 배울 내용 : JSP페이지의 기본적인 개요설명과 JSP페이지의 처리과정 그리고 웹 어플리케이션의 구조에 대해서 학습한다.
여행용 자동통역서비스를 위한 서버형 한국어 대화체 음성인식 기술 ETRI Technology Marketing Strategy
발표자 : 이지연 Programming Systems Lab.
구조체(struct)와 공용체(union)
디지털 사운드를 GoldWave로 변환하자
김덕용 게임 엔진론 Project 2차발표.
Installation Guide.
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
KSP 메신저 김광민 서정건 박윤옥.
아날로그 신호를 디지털 신호로 변환하는 A/D 변환기 A/D 변환 시 고려하여 할 샘플링 주파수 D/A 변환기
M.B.TEAM 중간 발표 (5.18) 이 제걸 백 인호.
Presentation transcript:

졸프 1 팀 – 소리사랑 지도교수 : 한광수 최재원, 정연진, 신선호, 최범수, 정세윤 오디오 처리 시스템

목차 2 1. 개요 2. 프로젝트 목표 3. 프로젝트 배경 4. 시스템 구조 5. 시스템 기능 6. 기술 설명 7. 구현 및 인터페이스 8. 개발 일정 9. 역할 분담

1. 개요 3 소리란 ? 음성이나 음악과 같이 귀로 들을 수 있는 모든 정보 음악, 음성, 음향효과

4 소리의 구성요소  음고 (Pitch)  음량 (Loudness, Volume)  음가 (Duration, Length)  음색 (Timbre, Color) 1. 개요

5 프로젝트 제안 범위 음성의 기본적인 구성 요소인 피치와 음색을 변환시켜 다양한 음 향 효과를 만들 수 있는 오디오 처리 시스템을 구현한다. 특수효과 기능과 Pitch, Sampling Rate, Tempo 를 변환하여 음성 변조 기능의 두 가지 주요 기능이 있다. 세부 기능으로는 문서 읽어주기 기능과 다양한 파형을 보여주는 디스플레이 기능을 구현한다. 1. 개요

6 본 프로젝트에서는 음성 변환 기법을 사용하여 화자의 음성 정보를 수정하거나 치환하여 사용자가 임의로 원 음성을 변환시킬 수 있는 오디오 처리 시 스템을 구현한다. 2. 프로젝트 목표

7 프로젝트 추진 배경 음성 변조와 더불어 음색 변환 기술은 최근 정보서비스 시스템 의 자동화, 다양화가 가속화 됨에 따라 점점 각광 받고 있는 분 야 중 하나이다. 이미 TTS(Text to Speech) 기술을 비롯해 여러 가지 기술을 담 고 있는 프로그램이 상용화 됨에 따라 일상 생활에서도 자연스 럽게 쓰이고 있으며 엔터테이닝 적인 요소와 접목시켜 보다 다 양한 분야로 진출하고 있다. 2. 프로젝트 목표

8 음성 변조 오디오 처리 시스템 음성인식, 음성합성 사운드 처리

3. 프로젝트 배경 9 기술 시장과 발전 현황 1980 년도에 국내에 유입, 이후 본격적인 음성인식에 관한 연구가 진행되어왔다. 현재 약 13 억 달러 시장을 형성하고 있는 음성 소프트웨어에는 음성다이얼 휴대폰, 음성입력소프트 웨어 등이 있으며 최근에는 지능형 음성인식 및 음성언어번역 소프 트웨어 개발이 적극적으로 진행되면서 PC 를 비롯한 휴대폰, 양방향 TV, 자동차 등에 내장 되고 있다.

3. 프로젝트 배경 10 음성 기술의 필요성 어휘 수, 화자독립, 인식 방법, 환경 등의 복잡한 사용자의 요구를 충분히 감당하고 있지 못함. 공상과학 영화의 음성인식이 미래 사회의 필수적인 기술로 등장 함으로써 음성인식 기술이 일상 생활에서 편리함을 증명.

3. 프로젝트 배경 11 기대효과 및 활용방안

4. 시스템 구조 12 시스템 컨트롤 Wave 포맷의 파일 읽기 디스플레이 사운드 카드의 제어 TTS&STT 특수효과 음성변조 파일읽기 마이크 입력 출력

5. 시스템 기능 13 녹음 (Recording) 마이크로 입력된 음성을 wave 포맷의 파일로 저장해준다. 웨이브 파일 재생 Wave 포맷의 파일을 재생 해준다.

5. 시스템 기능 14 특수 효과 (1) Chorus - 시간이 흐름에 따라 더 큰 지연을 사용하여 하나의 음성 또는 악기 소리 를 여러 개처럼 들리도록 만드는 효과 Compressor - 음을 증폭시키거나 압축하여 더 좋은 소리를 내기 위한 효과 Echo - 사운드웨이브 반사에 의한 사운드 반복 Distortion - 음이 찌그러지는 듯한 효과

5. 시스템 기능 15 특수 효과 (2) Gargle - 양치할 때 입 안을 가실 때 ( 가글 할 때 ) 와 비슷한 효과 Reverberation - 주위 물체의 반사로 인해 음이 계속 존재하는 현상 Flanging - 시간이 흐름에 따라 지연되는 시간을 달리하며 반복되는 복사본을 원본 오디오와 혼합하여 얻을 수 있는 오디오 효과

5. 시스템 기능 16 음성 변조 Tempo: 음성을 본래 속도보다 빠르거나 느리게 변화 시킨다. Pitch: 음성의 높낮이를 변화시킨다. Playback Rate: 음성의 tempo 와 pitch 를 동시에 변화 시킨다.

5. 시스템 기능 17 TTS(Text-To-Speech) 일반 언어 문장을 말로 변환시켜 준다.

5. 시스템 기능 18 STT(Speech-To-Text) Text-to-speech(TTS) 의 역으로 말을 문자로 변환시켜 준다. 기본적인 STT 뿐만이 아니라, 음성 인식을 통하여 간단한 메뉴를 동작시키는 인터페이스도 구현하였다.

5. 시스템 기능 19 디스플레이 Signal Waveform : wave 파일에서 나오는 신호의 파형 Normal Spectrum : 각 주파수 대역에 대한 스펙트럼 비 Log Spectrum : Normal Spectrum 을 log scale 로 변환 3D Spectrogram : 신호의 시간에 따른 스펙트럼을 3 차원 공간 상에 모두 표현한 그림 스펙트럼 ? 시간 영역의 신호를 퓨리에 변환하여 주파수 영역에서 재구성하여 나타나는 주파수 성분을 그래프로 나타낸 것.

6. 기술 설명 20 Wave(or wav) Waveform audio file format 의 줄임말 PC 에서 audio bitstream( 바이너리 형태로 전송되는 데이터 ) 의 저장을 위한 Microsoft 와 IBM audio file format 의 표준 윈도우 시스템에서 raw 그리고 압축되지 않은 audio 를 위한 주된 format 이다. 일반적으로 bitstream encoding 은 Linear Pulse Code Modulation(LPCM) format 을 사용한다.

6. 기술 설명 21 Wave file format

6. 기술 설명 22 Wave file format(1) 1) PCMWAVEFORMAT 구조체의 구조 -. WAVEFORMAT wf; -. WORD wBitsPerSample; 2) WAVEFORMAT 구조체의 구조 -. WORD wFormatTag; -. WORD nChannels; -. DWORD nSamplesPerSec; -. DWORD nAvgBytesPerSec; -. WORD nBlockAlign;

6. 기술 설명 23 Wave file format(1) 3) 예 : 22kHz 샘플링 된 8bit 스테레오 Wave 파일의 구조 PCMWAVEFORMAT PcmWaveFormat; PcmWaveFormat.wf.wFormatTag = 1; PcmWaveFormat.wf.nChannels = 2; PcmWaveFormat.wf.nSamplesPerSec = 22050; PcmWaveFormat.wf.nAvgBytesPerSec = 44100; PcmWaveFormat.wf.nBlockAlign = 2; PcmWaveFormat.wBitsPerSample = 8;

6. 기술 설명 24 Wave file format(2) 1) RIFF chunk - Char 4 "RIFF" // 파일의 종류가 RIFF 파일을 의미 - DWORD 4 FILE SIZE // 현재부터 끝까지의 파일크기 ( 파일크기 -4Byte 또는, 데이터 크기 +40Byte) - Char 4 "WAVE" //Wave 파일을 의미

5. 기술 설명 25 Wave file format(2) 2) FMT sub-chunk - Char 4 "fmt " //FMT sub-chunk 의 시작 - DWORD 4 16 // 현재 포인터 (16 Byte) - short 2 wFormatTag //PCMWAVEFORMAT 의 값 ( 1:Wave Format 이 PCM 방식 ) - short 2 nChannels // 채널 수 ( 1: 모노, 2: 스테레오 ) - DWORD 4 nSamplesPerSec // 샘플링 수 ( 11kHz:11025, 22kHz:22050, 44kHz:44100 ) - DWORD 4 nAvgBytesperSec // 초당 샘플바이트 ( nSamplesPerSec*BlockAlign ) - short 2 BlockAlign // 샘플당 바이트 ( nChannels* 비트 /8 ) - short 2 wBitsPerSample // 샘플당 비트 수

6. 기술 설명 26 Wave file format(2) 3) Data sub-chunk - Char 4 "data" // 데이터 청크의 시작 - DWORD 4 DATA SIZE // 데이터의 크기 - DATA // 데이터

6. 기술 설명 27 Direct Sound 마이크로소프트 사에서 제공하는 DirectX library 의 소프트웨어 컴포넌트. 어플리케이션과 사운드카드 드라이버 사이에서 직접적인 interface 를 제공한다. 어플리케이션이 sounds 와 음악을 만들 수 있게 해준다. 여러 개의 어플리케이션이 사운드카드를 동시간에 공유 하여 접근 할 수 있도록 해준다.

6. 기술 설명 28 BASS Audio Library Bass 는 Windows 와 Mac OSX 소프트웨어를 위한 오디오 라이브러리이다. 강력한 샘플 효과, stream, MOD music, 그리고 레코딩 기능을 개발자 들에게 제공하는 것을 목적 으로 한다. 모든 작은 DLL 은 100KB 이하의 사이즈이다. 윈도우상에서 BASS 는 Direct3 이상 그리고 DirectSound 를 이용하고 DirectSound3D 하드웨어 가속 드라이버의 사양을 요구한다.

6. 기술 설명 29 Microsoft Speech API(SAPI) 음성인식과 음성 합성을 위해 마이크로소프트 사에서 개 발된 윈도우 어플리케이션 용 API 이다. 사용하고자 하는 어플리케이션에 무료로 올릴 수 있다. 음성인식, TTS 엔진을 포함하고 있다.

7. 구현 및 인터페이스 (1) 30 음정 변환 (Tune transformation) 음정변환

7. 구현 및 인터페이스 (2) 31 TTS&STT interface

7. 구현 및 인터페이스 (3) 32 특수효과 (Special effects)

7. 구현 및 인터페이스 (4) 33 파형 (Waveform) display

7. 구현 및 인터페이스 (4) 34 스펙트럼 (Spectrum) display

8. 개발 일지 35 항목세부내용 1월1월 2월2월 3월3월 4월4월 5월5월 6월6월비고 요구사항 분석 요구 분석 SRS 작성 관련분야 연구 주요 기술 연구 관련 시스템 분석 설계시스템 설계 구현 코딩 및 모듈 테스트 테스트 시스템 테스트

36 이름역할 최재원 프로젝트 관리 및 역할 분담 음성 효과 모듈 개발 신선호 음정 변환 Speech-To-Text 최범수 파형 디스플레이 스펙트럼 디스플레이 정연진 Wav 재생 및 녹음 Text-To-Speech 정세윤 UI 개발 이산 퓨리에 변환 9. 역할 분담