Hybrid INDIGO project 중간보고 Paper PT INDIGO Bumjin Kim , Jun-hee Lee, SIRI KIM Dept. of Computer Science and Engineering Sogang University, Seoul, KOREA
개발 동기
과제 내용
Real-Time 과제 수행 방법 1. 사용자에게 음성 신호를 받음 2. Text 변환 3. 비속어 판별 4. 비속어 필터링 후 음성 출력
Real-Time 이번 학기 목표 1. 사용자에게 음성 신호를 받음 1. 사용자에게 음성 신호를 받음 2. Text 변환 3. 비속어 판별 3. 비속어 판별 4. 비속어 필터링 후 음성 출력
기대효과 및 활용분야 미래에는 온라인상에서 음성(자연어)을 이용한 대화가 주를 이룰 것이므로, 그 안에서도 비속어 필터링이 필요하다. 음성 통화 시 사용하는 용어들 중 무의식적으로 비속어를 포함하여 상대방의 기분을 상하게 하는 경우가 있다. 향후 과제로 비속어 부분을 비프 음이 아닌 비슷한 의미의 순화된 언어로 바꾸어 줄 수 있다.
Real-Time 진행 상황 1. 사용자에게 음성 신호를 받음 2. Text 변환 3. 비속어 판별 4. 비속어 필터링 후 음성 출력
진행 상황 9월 10월 11월 12월 INDIGO 11/19 중간보고 12/03 최종보고 음성인식, 비속어 판정 기존 연구, 사례 분석 설계 및 기능구현 안정화 음성신호를 Text로 변환(STT) 비속어 판정 성능평가 및 보고서 최종보고서 11/19 중간보고 12/03 최종보고
음성 인식 및 Text 변환 Google Speech API[1]를 이용하여 사용자의 음성을 Text로 변환. [1] https://www.google.com/intl/en/chrome/demos/speech.html 음성 인식 및 Text 변환 Google Speech API[1]를 이용하여 사용자의 음성을 Text로 변환.
[1] https://www.google.com/intl/en/chrome/demos/speech.html 음성 인식 및 Text 변환 Google Speech API[1]를 이용하여 사용자의 음성을 Text로 변환 후 text file로 저장. Google API를 사용하기 위해 인증 key를 받음.
Real-Time 앞으로의 계획 1. 사용자에게 음성 신호를 받음 2. Text 변환 3. 비속어 판별 3. 비속어 판별 4. 비속어 필터링 후 음성 출력
앞으로의 계획 – 비속어 판별 비속어 DB 제작 Mechine Learning 사용자에게 받은 Text에 비속어가 있는 지를 판별 학습 데이터 색인어 추출 feature 선택 테스트 데이터 가중치 부여 비속어 DB 제작 분류 알고리즘 Mechine Learning 결과
색인어 추출 1 2 3 4 n-gram을 이용한 4단계의 처리 과정을 거쳐 feature 생성 데이터의 어절 분리 각 어절에서 비색인 분절 절단 3 불용어 제거 4 각 분절들을 n-gram 들로 분할
예산 내역
예산 지출(~11/19)