Download presentation
Presentation is loading. Please wait.
Published by광수 문 Modified 8년 전
1
음성인식기술 동향 음성인식기술 동향
2
Contents I. 서론 II. 음성인식 기술의 역사와 특징 III. 음성인식 기술 분석 IV. 음성인식 활용 사례 V. 결 론 목 차 Contents 월요 세미나 2
3
1. 서론 ‘Next Big Thing’ 음성인식 기술 인간의 말을 인식해 텍스트로 바꿔주거나 해당 명령을 수행하는 ‘음성인식 (Speech recognition)’ 기술이 IT 업계의 ‘Next Big Thing’으로 부상하고 있음 사람이 일생생활 속에서 마우스나 키보드 등을 사용하지 않고 목소리를 통해 원하는 기기 및 정보 서비스의 이용을 제어할 수 있는 기술 1950년대 등장해 지속적인 연구가 진행되어 왔지만 2000년대 중반까지 낮은 음성 인식률로 대중화되지 못함 지금까지 특수한 용도에만 제한적으로 사용되어왔던 음성인식 관련 기술들은 최근 스마트 폰으로 대표되는 휴대용 컴퓨팅 단말의 확산과 이를 지원해줄 클라우드 인프라의 확충이 맞 물려 급속도로 발전하고 있음 특히 애플이 공개한 ‘아이폰 4S(iPhone 4S)’에 탑재된 음성인식 기능 ‘시리(Siri)’가 공개되면 서 음성인식 서비스에 대한 관심이 고조되고 있음 3 월요 세미나
4
1. 서론 ‘Next Big Thing’ 음성인식 기술 음성인식 기술 관련 세계 시장 규모는 2005년 11억 달러에서 2010년 30억 달러로 성장한 데 이어 2013년에는 54억 달러까지 성장할 것으로 전망됨 국내 음성인식 시장도 2010년 1,800억 원에서 2012년 3,900억 원으로 매년 47%씩 성장할 것으로 기대를 모으고 있음 아직 인간의 모든 언어 표현을 이해하는 음성인식 기술은 개발되지 못함 비교적 정형화된 문장이나 일정 범위의 어휘로 한정될 경우 현존 기술로도 높은 정확도를 담보할 수 있다는 측면에서 상당한 수준의 기술적 진보를 달성함 네트워크와 컴퓨팅 기술의 발달로 음성 인식률이 개선되었을 뿐만 아니라 정보기기가 소형 화되고 이동성이 중요시되면서 음성으로 간편하게 제어할 수 있는 음성인식에 대한 수요는 더욱 증가할 것으로 전망됨 4 월요 세미나 출처 : 디오텍 (Company Analysis), HMC 투자증권
5
2. 음성인식 기술의 역사와 특징 음성인식 기술 연구의 역사 및 발전과정 1952년 미국 통신업체 AT&T 벨연구소(Bell Laboratories)의 단일 음성으로 말하는 숫자 인식 시스템 ‘오드레이(Audrey)’ 개발을 통해 시작됨 1963년 IBM은 세계 최초로 음성을 통해 16개의 영어단어를 인식할 수 있고 간단한 숫자 계산이 가능한 ‘슈박스(Shoebox)’라는 장비를 공개함 이후, 미국, 영국, 일본, 소련 등의 국가 연구소들이 인간의 발화( 發話 )을 인식하는 전용 하드 웨어를 개발해 4개의 모음과 9개의 자음을 지원하는 수준까지 음성인식 기술을 확장시킴 5 월요 세미나 IBM 의 음성인식 시스템 ‘ 슈박스 ’
6
2. 음성인식 기술의 역사와 특징 음성인식 기술 연구의 역사 및 발전과정 1971년부터 76년까지 미국방부 산하 국방첨단연구사업국(DARPA)은 음성 인식 연구 역사상 가장 큰 프로젝트 중 음성이해연구(Speech Understanding Research) 프로그램을 진행함 당시 국방첨단연구사업국(DARPA)은 거대한 컴퓨터 자원을 투입해 무려 1,000단어의 연속 음성인식과 체계적인 음성인식 데이터베이스를 구축하는 데 성공함 1980년대 초 음성인식 기술은 인식할 수 있는 단어가 1,000단어에서 1만 단 어까지 늘어나면서 군사용, 로봇, 건강 분야 등에 널리 활용됨 IBM은 통계적 기법을 이용한 대규모 음성인식 시스템 ‘은닉 마르코프 모델(Hidden Markov Model, HMM)’을 개발하였는데, 이 방식을 통해 단순하게 소리의 패턴을 찾기 보다는 음성 을 모델링하고 알려지지 않은 소리도 단어가 될 수 있는 가능성을 고려하기 시작함 음성이 발성되는 과정을 모델링하여 각 대상 단어 또는 음소마다 고유의 모델을 할당하여 입 력되는 음성이 어떤 음성 모델로부터 발생되었을 확률이 가장 높은지를 측정하여 인식하는 방 법으로, 높은 인식률과 편리한 학습성으로 널리 활용되고 있음 6 월요 세미나
7
2. 음성인식 기술의 역사와 특징 음성인식 기술 연구의 역사 및 발전과정 1990년대는 음성인식 기술이 최초로 상용화된 시기로, 드래곤(Dragon) 社 는 낱말단위의 인식과 표현이 가능한 소비자용 음성인식 제품 ‘드래곤 딕데이트 (Dragon Dictate)’를 출시함 1996년에는 벨사우스(BellSouth) 社 가 최초의 전화번호 안내 서비스를 시작, 다이얼 인(Dial- In) 방식으로 소비자가 수화기에 대고 말한 내용을 기반으로 정보를 제공함 1997년에는 연속적인 발화를 인식할 수 있는 음성인식 애플리케이션 ‘드래곤 내추럴리스피 킹(Dragon NaturallySpeaking)’이 출시되기도 함 7 월요 세미나 Dragon NaturallySpeaking 앱 사진
8
2. 음성인식 기술의 역사와 특징 음성인식 기술 연구의 역사 및 발전과정 도쿄 공업대학의 사다오키 후루이(Sadaoki Furui) 박사는 음성인식 기술의 발전 동향을 1세대에서 5세대로 구분하고 세대별 특징을 다음과 같이 기술 8 월요 세미나 음성인식 기술의 발전과정
9
2. 음성인식 기술의 역사와 특징 음성인식 기술의 특징 음성인식 기술은 친숙하고 편리하며, 이동 및 작업 중에도 상시 입력이 가능 하고, 화자의 고유 정보를 전달할 수 있으며, 입력속도가 빠르다는 장점이 있 음 9 월요 세미나 음성인식 기술의 특징
10
2. 음성인식 기술의 역사와 특징 음성인식 기술의 특징 음성은 인간에게 가장 친숙한 정보 전달 방식으로, 별도의 학습이나 훈련 없 이도 일상제품의 복잡한 기능을 제어하는 데 용이함 음성인식 기술은 이동 시 정보 입력에 유리한데, 모바일 단말 이용이나 운전 중 기기 조작 시 안전성과 효율성 향상에 기여할 수 있음 화자의 음성을 통해 신원, 심리, 건강상태, 언어 능력 등을 파악할 수 있어 개인별서비스 제 공에도 적합함 보안 및 금융 분야에서 보안인증 및 신용평가 등에 활용될 수 있으며, 언어교정 및 외국어 교육에도 사용될 수 있음 음성을 통한 입력 속도가 빠르기 때문에(컴퓨터 타자의 2~3배) 긴급 상황에 서 신속하게 원하는 정보 입력과 검색이 가능함 반면 음성인식 기술은 사용자에 따른 인식률 차이, 주변 잡음, 인식대상 어휘 제한 등 보편적 활용에 여러 한계를 노출하고 있음 따라서 음성인식 관련 연구자들은 모든 사용자를 대상으로, 최대한 많은 어휘, 자연스러운 발화(대화체)를 인식해 인식률을 높이는 방향으로 연구를 진행 중 성별, 연령, 사투리 등에 대한 방대한 음성모델 DB를 확보해야 향후 개인차에 따른 음성인 식률 향상이 가능할 것으로 전망됨 10 월요 세미나
11
3. 음성인식 기술 분석 음성인식 기술의 원리 입력 받은 음성을 컴퓨터가 분석하고 특징을 추출한 다음, 미리 수집된 음성 모델 데이터베이스와의 유사도를 측정해 가장 유사한 것을 문자 혹은 명령 어로 변환함 이는 일종의 패턴 인식 과정으로, 사람마다 목소리와 발음, 억양 등이 다르기 때문에 최대한 많은 사람들로부터 음성 데이터를 수집해 이로부터 공통된 특성을 추출, 기준 패턴을 생성 해야 함 음성인식 과정은 크게 전처리부와 인식부로 구분됨 전처리부 : 사용자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음 성분을 제거 하고 인식 과정을 위한 특징을 추출함 인식부 : 입력된 음성을 음성 데이터베이스와의 비교를 통해 가장 가능성 있는 단어를 인식 결과로 출력하게 되며, 단순 명령어가 아닌 문장을 인식할 때는 언어모델을 이용해 비교 단 어를 제한하여 인식 성능을 높임 이러한 과정은 사람이 태어나서 말을 배우는 인지 과정을 모방한 것임 사람은 수많은 반복훈련을 통해 여러 가지 단어나 문법을 머릿속에 정형화하고, 새로 들은 음성을 이 와 비교해 알아내는 인지과정을 거침 11 월요 세미나 음성인식 기술의 원리 인식구간추출 잡음처리 특징추출 비교 인식결과 음성모델 DB 전처리부 인식부
12
3. 음성인식 기술 분석 음성인식 기술의 구분 음성인식 기술은 주로 인식할 수 있는 발성의 형태, 인식 대상 화자 및 단어 에 따라 분류됨 발성 형태 고립단어 인식 연결단어 인식 연속어 인식 핵심어 인식 인식 대상 화자 화자 종속 인식 : 특정 화자 또는 사용자가 자신의 음성으로 미리 인식기를 훈련시키는 방법 화자 독립 인식 : 임의의 화자 발성을 인식할 수 있는 방법 화자 적응 인식 : 사용자가 자신의 목소리에 대한 인식률을 높이기 위해 화자 독립 인식기를 자신의 목소리에 적응시키는 방법 인식 대상 단어 고정 단어 인식 : 대상단어가 고정되어 있는 경우 가변 단어 인식 : 인식 대상 단위를 수시로 갱신할 수 있는 경우 12 월요 세미나
13
3. 음성인식 기술 분석 음성인식 기술의 구분 음성인식 기술은 모든 사용자를 대상으로 보다 많은 어휘, 자연스러운 대화 체를 인식하여 인식률을 높이는 방향으로 발전해 가고 있음 13 월요 세미나 음성인식 기술의 발전방향 발전방향 화자종속 화자독립 화자적응 소어휘 대어휘 단어단위 인식기술 음소단위 인식기술 ( 가변어 인식 기술 ) 고립단어 인식 핵심어 인식 연결단어 인식 연속음성 인식 대화체 인식 소 필요 음성 DB 크기 및 연산 능력 대 사용자 범위 인식 대상어휘 발성의 자연성 인식 단위 기술요소기술요소 기술요소기술요소
14
3. 음성인식 기술 분석 최신 음성인식 기술 동향 언어모델링 기술 실제 사용되는 언어적 패턴의 규칙성을 수집해 음성인식 시스템이 보다 나은 성능을 내는 데 활용됨 최근 음성검색 시스템이 상용화되면서 어휘 수가 기하급수적으로 증가하고, 웹 검색의 경우 특정 도메인으로 대상 영역을 한정할 수 없게 되면서 언어모델의 대용량화와 지속적 확장이 요구되고 있음 언어모델링에서는 일반적으로 N-gram 차수를 이용한 통계적 모델이 대중화되어 있으며, 최 근에는 어휘 수를 제한하지 않는 대용량 분산 언어모델링 기술이 널리 활용되고 있음 N-gram 언어모델은 1개의 단어나 음절이 서로 다른 단어 또는 음절들과 함께 발현될 확률을 구하는 방식으로, 복잡한 자연언어를 표현하기에 적합한 구조를 가지고 있지만, 대용량 학습 데이터를 먼저 갖춰야 한다는 단점을 갖고 있음 구글 역시 자체적인 기술을 이용하여 무제한의 어휘 수와 n-gram 개수를 기반으로 한 언어 모델을 제공하고 있음 구글의 자체 기술은 맵리듀스(MapReduce)라는 프로그래밍 모델과 라이브러리로 대용량 데이 터를 처리할 목적으로 개발되었으며, 병렬/분산 처리 프로그래밍 경험이 없는 개발자도 분산 리소스를 활용할 수 있게 설계됨 14 월요 세미나
15
3. 음성인식 기술 분석 최신 음성인식 기술 동향 대화 처리 기술 음성인식, 음성합성과 함께 음성 대화 시스템을 구성하는 대화 처리 기술은 언어 이해, 대화 관리, 언어생성 모듈로 구성되어 있음 언어이해 모듈 » 말한 사람의 발화를 언어처리하고 분석해 발화자의 의도를 표현하는 의미표현 (meaning representation)을 생성함 대화관리 모듈 » 대화 흐름과 의도를 감안해 최선의 대화 전략을 계산해, 응답에 필요한 의미표현 을 생성함 언어생성 모듈 » 시스템이 응답하게 될 단어나 문장을 입력된 의미 표현으로부터 생성함 대화 처리 기술에서는 인간과 기계의 대화를 진행시키는 대화관리 방법이 핵심요소이며, 이 에 따라 언어이해와 언어생성 방법론이 정해짐 15 월요 세미나 음성 대화 시스템 구성도
16
4. 음성인식 활용 사례 모바일 음성인식 애플의 음성인식 앱 ‘시리(Siri)’ 애플은 지난 10월 신규 스마트폰 ‘아이폰 4S(iPhone 4S)’ 출시와 함께 사용자의 음성명령을 인식하고 웹과 온라인 서비스를 검색해 답변을 제공하는 인공지능형 음성인식 서비스 ‘시리 ’를 발표함 단순히 사용자의 음성을 인식하는 것뿐 아니라 현재 위치와 일정 계획, 주소록 등 상황 맥락 에 따른 답변을 제시, 사용 시간에 따라 이용자 선호도를 파악해 답변을 제시하는 기능도 갖 추고 있음 16 월요 세미나 ‘ 시리 (Siri)’ 실행 화면 및 특성 일정 알림 문자 작성 및 전송 특정지역 날씨 예보 구분특성 특정 명령어 불필요 - 명령어의 맥락을 이해하고 위치 정보를 포함한 안내를 제 공함 - “ 맛있는 피자가 먹고 싶은데 ?!” 라고 말하면 주변의 피자 레 스토랑 정보를 유명 포털 평점을 이용하여 제공 - 주소록에 관계 설정 시 누가 배우자인지, 친구인지 구별하 므로 사람 이름을 말하지 않고 “ 어머니의 이메일 주소는 ?” 이 라는 질문이 가능함 학습인식 기능 탑재 - 사람의 목소리를 학습해 인식률을 높이고 더 정확한 답변 을 도출함 빠른 구동 - 직관적인 UI 구동이 쉽고, 답변 시 딜레이가 거의 없음 주요 기능 연동 - 특정 날짜에 일정을 잡도록 요구하면, 해당 일에 중복되는 일정이 없는지 체크하고, 충돌 발생 시 다른 일정으로 변경 하도록 권고
17
4. 음성인식 활용 사례 모바일 음성인식 애플의 음성인식 앱 ‘시리(Siri)’ Google이나 MS의 음성인식 앱과 비교해 ‘시리’의 가장 큰 차별점 자연어 음성인식 기능을 구현 딱딱한 명령어 대신에 좀 더 자연스러운 대화형 인터페이스를 구축하고 있음 ‘시리’의 핵심 기술이 가진 차별성은 단순히 음성 인식이라기보다는 사람의 말을 해석하는 능 력에 있음 단순한 UI가 아니라 이용자의 말을 잘 알아듣고 거기에 맞게 반응하는 인공지능 서비스라고 할 수 있음 ‘시리’에는 천재 물리학자 스티븐 울프람이 개발한 지능형 검색엔진 울프람알파가 적용됨 16세에 입자 물리학 논문을 썼고 20세에 박사학위를 받고 미국 캘리포니아공대 교수로 임용 된 천재 물리학자 스티븐 울프람은 1987년 울프람 연구소(Wolfram Research Company)를 설 립 1988년 물리학과 수학 데이터를 연산하는 매스매티카를 개발했고, 이를 바탕으로 2009년 울 프람알파 검색엔진을 선보였음 울프람알파는 매스매티카라는 강력한 연산엔진을 통해 전 세계에 있는 다양하고 방대한 지식 을 연산 가능한 형태로 정형화(Prototyping)하고, 이들을 컴퓨터로 연산함으로써 질문에 맞는 답을 제시함 울프람알파는 기존 검색 서비스가 인터넷에 있는 정보들을 나열하는 것과 달리, 자체적으로 수집한 방대한 정보를 활용해 ‘의미 있는 답’을 만들어 제공함 예를 들어, 구글에서 'Korea'를 검색하면 ‘Korea'라는 단어가 들어간 수많은 웹 사이트를 제시 하지만, 울프람알파는 면적과 해안선 길이 등의 지리 정보와 인구통계, GDP 등을 정리해서 보 여줌. 울프람알파는 경제나 지리 정보를 비교할 때 가장 유용한데, 예를 들어 영국과 덴마크의 인구밀도를 비교하는 질문에 즉각적으로 답을 제시해 줌 17 월요 세미나
18
4. 음성인식 활용 사례 모바일 음성인식 애플의 음성인식 앱 ‘시리(Siri)’ 울프람알파는 문맥에 맞는 결과를 찾아준다는 점에서 ‘연산능력을 갖춘 지식엔진’으로 평가 받고 있음 울프람알파는 API 형태로 제공되며, 기업이 자사 시스템에 이를 연동해 사용하고 로열티를 지불하게 됨 스티브 잡스는 평소 스티븐 울프람과 친분을 맺어 왔으며, 애플이 ‘시리’에 울프람 알파 기술 을 적용하는데 큰 영향을 준 것으로 알려짐 ‘시리’의 구동 과정 아이폰으로 음성을 받아 웹 DB에서 텍스트로 변환 웹 검색이 필요한 일부를 울프람 검색 엔진에 넣어 결과 값을 도출 다시 아이폰에 적용하는 클라우드 방식 18 월요 세미나
19
4. 음성인식 활용 사례 모바일 음성인식 애플의 음성인식 앱 ‘시리(Siri)’ 3G나 Wi-Fi 연결이 되어 있지 않을 경우 ‘시리’가 작동하지 않음 ‘시리’는 단순한 음성 인식 서비스나 음성 인식 UI를 넘어 많은 산업에 파급효과를 미칠 수 있는 동인으로 작용할 전망 대표적인 예 » TV 리모컨 : 애플은 2013년 출시가 예상되는 애플 TV에 ‘시리’ 기능을 탑재할 것으로 보임 » 축구 중계 중 “방금 골 넣은 선수가 누구야?” 라는 질문에 답변이 가능 미국 투자은행 파이퍼 제프리(Piper Jaffray)의 애널리스트는 “애플 TV에 ‘시리’가 탑재되면 프 로그램 이름이나 배우의 이름을 TV 리모콘으로 입력해야 하는 귀찮은 일이 단순해질 것”이라 고 언급 ‘시리’를 통해 콘텐츠 내용에 대해 묻고 답할 수도 있는데, 예를 들어 미식축구 시청 중에 ‘지금 터치 다운을 한 선수의 이름은?’이라는 질문에 ‘시리’가 답을 하는 수준으로 발전할 가능성도 있음 19 월요 세미나
20
4. 음성인식 활용 사례 모바일 음성인식 구글의 음성인식 앱 구글의 음성인식 서비스는 2010년 1월 출시된 안드로이드 2.1(Android 2.1)을 통해 본격적 으로 가시화됨 구글의 음성인식 기술은 기계에 직접 말을 가르치는 것이 아니라 인간 음성의 파형을 통계 적으로 분석해 현재 이용자가 의도하는 바를 유추해냄 따라서 충분한 이용자 기반과 인프라 없이는 섣불리 시도할 수 없는 방식임 구글은 여러 장소에 분산된 서버를 묶어 한 대의 컴퓨터처럼 사용하는 클라우드 컴퓨팅을 활용해 음성인식 서비스의 속도와 정확도를 높이는 연구를 진행함 구글은 스마트폰에 입력된 음성 데이터를 클라우드 서버로 전송하고, 서버에서 음성인식을 수 행한 후 그 결과를 스마트폰으로 재전송하는 방식을 채택하고 있음 음성인식률 95%를 표방하고 있는 구글은 2011년 기준 클라우드 서버에 성별, 연령별, 사투리 로 구분한 총 2,300억 개의 영어 단어를 음성 데이터로 저장하고 있는 것으로 집계됨 20 월요 세미나 구글의 ‘ 보이스액션 ’ 실행화면
21
4. 음성인식 활용 사례 모바일 음성인식 네비게이션 최근 운전 중 화면을 주시하며 글자를 입력해야 하는 네비게이션의 안전성을 높이기 위해 음성인식 기술의 도입이 증가하고 있음 음성인식 내비게이터가 설치되어 있는 자동차의 계기판은 차 안에서도 가장 잡음이 심한 공간 으로, 잡음제거 기술의 발달로 음성인식 성능이 향상되고 있음 스트래티지 어낼리틱스(Strategy Analytics)에 따르면, 2015년까지 전 세계 출시 자동차의 47% 에 음성인식 기술이 탑재될 것으로 전망됨 포드(Ford) 사 마이크로소프트와 협력해 음성으로 휴대전화와 엔터테인먼트 시스템을 조작할 수 있는 음성 인식 시스템 ‘싱크(Sync)’를 주요 차량에 탑재하고 있음 21 월요 세미나 포드사의 음성인식 시스템 ‘ 싱크 ’ 소개 페이지음성인식 네비게이션 ‘ 파인드라이브 ’ 실행화면
22
5. 결 론 음성은 인간이 가진 가장 직관적이고 간편한 입력 도구임 스티브 잡스가 아이폰에 ‘넥스트 터치 스크린’ 인터페이스로 음성인식에 기 반한 ‘시리’를 탑재한 것은 음성의 ‘직관성’에 주목했기 때문으로 풀이됨 음성인식 기술은 다른 IT 기기나 서비스와 결합됐을 경우에 그 파급력이 극대화될 것으로 전망 시리’가 고성능 시맨틱 검색 엔진인 ‘울프람알파’와 결합되어 한 차원 진일보 된 형태의 음성인식 서비스를 보여줬듯이, 앞으로 음성인식 기술은 다양한 기기나 서비스와 융합됐을 때 파급력이 극대화될 전망 음성만으로는 정확한 정보 전달이 어려울 수 있으므로 터치, 동작인식 등 다른 입력 방식과 음성인식을 결합해서 활용하는 방안도 모색 미국 이동통신사 AT&T의 지도검색 애플리케이션 ‘스픽포잇(Speak4It)’의 경우 ‘레스토랑’이라 말하고 지도 위에 동그라미를 그리면 영역 내의 음식점 을 표시해주는 서비스를 제공하고 있음 22 월요 세미나
23
감사합니다 순천향대학교 정보보호연구실 2012.7.30 himtoss@sch.ac.kr
24
음성인식 기술과 스마트 보이스, 2012. 6. http://skyvega.tistory.com/195 스마트폰 제조사들이 음성인식기술에 주목하는 이유, 2012. 6 http://www.bloter.net/archives/120446 Siri 에서 보는 지능형 음성 인터페이스 기술의 변화 및 응용, KT 종합기술원, 2011. 12 음성인식 기술의 동향과 전망, 한국콘텐츠진흥원, 2011. 11 아이폰 4S - 음성인식기술 (Siri) 의 부각, 메리츠종금증권, 2011.10.17 자연어 음성인식 기술을 이용한 음성 대화 서비스 개발동향, 전자통신동향분석 제 26 권 제 5 호, 2011.10 참고 문헌 24 월요 세미나
Similar presentations