이미지 및 동영상에 포함된 텍스트 정보 추출에 기반한 지능적 시각 응용시스템 구현에 관한 연구 이미지 및 동영상에 포함된 텍스트 정보 추출에 기반한 지능적 시각 응용시스템 구현에 관한 연구 뇌신경정보학 2단계 자유공모과제 (M10107000009-01A220000500) 연구책임자: 최영우 숙명여자대학교 컴퓨터과학과
차 례 연구 배경 연구 목표 추진 계획 연구내용 및 결과(1차년) 향후계획(2, 3차년) 시 연
연구 배경 텍스트 정보는 가장 기본적이며 중요한 정보 텍스트 종류 지식 표현 및 습득의 기본, 이미지 내용을 함축적, 구체적으로 표현 다른 객체보다 특징이 분명하여 빠른 추출이 가능하고 활용도가 높음 텍스트 종류 문서(Document), 그래픽(Graphic) 텍스트 장면(Scene) 텍스트 그 동안 수동적, 이미지 위주의 정형화된 문서/그래픽 텍스트 추출 문서/전표 인식시스템, 이미지/비디오 검색시스템 앞으로 능동적, 동영상에서의 장면 텍스트 추출 다양한 응용: 이동 로봇, 시각 장애인/환자 보조, 차량 자동주행 보조 시스템 등
연구 목표(1) 자연 이미지에서의 장면 텍스트 추출 및 인식 수준 방법 응용 폰트 종류, 위치, 방향, 크기, 색, 배경 등에 무관한 추출 사용자의 불편을 최소화하는 수준의 속도 및 정확성 방법 영상처리 방법을 이용한 텍스트 후보 영역 추출 인간의 시각적 주의(Visual Attention) 기능을 이용한 정보 선별 및 추출 성능 개선 응용 응용시스템 적용: 이동 로봇, 시각 장애 보조 단말기 등
연구 목표(2) ? 영상처리 방법을 이용한 텍스트 후보 영역 추출 인간의 시각적 주의 기능을 이용한 정보 선별 색 연속성 명도 변화 신속 정확 <시각적 주의 기능 활용> 상향식(Bottom-up) 특징 선택 상향식 특징에 의한 정보 선별 Map 구성 하향식(Top-down) 지식의 구성 및 이용 인식 순위, 인식/검증 여부, 중지 결정
추진 계획 1차년: 영상처리 방법을 이용한 텍스트 영역 추출 색 정보를 이용한 후보 영역 추출 명도 정보를 이용한 후보 영역 추출 단순 결합 및 검증 2차년: 인간의 시각적 주의 기능을 이용한 정보 선별 및 성능 개선 상향식 특징의 검증 및 보완, 상향식 특징에 의한 정보 선별 지도 구성 하향식 지식의 계층적 구성 및 이용 추출된 영역의 이미지 향상 방법 개발 3차년: 응용시스템 구현 텍스트 인식 시스템 구현, 보완
1차년 연구내용 요약 영상처리 방법을 이용한 텍스트 영역 추출 색 정보를 이용한 추출 명도 정보를 이용한 추출 두 방법의 결합 색 연속성 이용, 대표적인 색 면들을 추출하여 연결요소 분석 픽셀 병합, 색 병합, 단계적 여과/검증 방법 제안 명도 정보를 이용한 추출 텍스트 영역의 명도 변화가 심함, 에지 이미지 이용 반복적인 RLS, 긴 선 추출/제거, 각 영역의 기울기/원근 추정 두 방법의 결합 상호 보완적인 장점을 이용 단순한 결합 및 검증 실험 결과
색 정보를 이용한 추출 색 이미지 전 처 리 픽셀 병합 색 줄임 색 병 합 필터링 후보 영역 추출 연결요소/외곽사각형 구성 및 제거 검 증 통 합 텍스트 추출
전처리(1) 픽셀 병합 색 줄임 과정의 색 분류 오류를 감소시킴 색(RGB) 값을 이용하여 수직 방향의 에지를 추출한 후 에지와 에지 픽셀 사이의 거리를 고려하여 동일한 색으로 채움 (a) 에지 추출 마스크 (b) 입력 이미지 (c) 명도 이미지 에지 추출 (d) 색 이미지 에지 추출
전처리(2) 색 줄임(Bit-dropping) 필터링 계산량을 줄이기 위해서 RGB 각 요소의 하위 6비트를 제거함 잡영으로 인해 끊어진 연결요소를 부분적으로 복원함 현재 픽셀 주변의 색 분포를 고려하여 가장 많은 색 값으로 현재의 픽셀 값을 대체함 (a) 입력이미지 (b) 전처리 결과
색 병합 필요성 방법 동일한 텍스트 요소가 빛/조명의 영향으로 다른 색으로 분리되는 결과가 빈번히 발생 또한, 색 면의 개수를 줄여 계산량을 줄일 필요가 있음 방법 RGB 색 공간에서 Euclidean 거리를 고려하여 병합 기준색, 기준색 근처의 색으로부터 병합을 수행, 보색 관계 이용 (b) 색 병합 결과 (4색) (a) 색 병합 전, 후의 색 분포(21색 4색)
후보영역 추출(1) 각 색 면별로 아래의 단계 수행 모폴로지 적용 3x3 구조자의 닫힘(Closing)연산으로 색 병합 후 끊어져 있는 연결요소를 부분적으로 연결 모폴로지 적용 전, 후의 색 면 예
후보영역 추출(2) 연결요소 추출 및 제거 연결요소 추출, 외곽사각형 구성 외곽사각형 위치, 폭/높이, 크기 저장 연결요소의 크기, 외곽사각형의 폭/높이 비율, 외곽사각형의 픽셀의 밀도를 고려한 연결요소 제거 (a) 외곽사각형 구성 (b) 연결요소 제거
후보영역 추출(3) 외곽사각형 결합 및 제거 외곽사각형 사이의 거리, 겹침 정도를 고려하여 결합 외곽사각형의 크기, 결합 전후의 크기 비율, 외곽사각형에 포함된 픽셀 비율을 고려한 제거 (c) 외곽사각형 결합 (d) 외곽사각형 제거
(a) 벽의 일부가 텍스트 영역으로 추출된 경우 후보영역 추출(4) 검 증 추출된 영역의 원 영상에서 수직 에지의 평균 개수가 작은 것 제거 (a) 벽의 일부가 텍스트 영역으로 추출된 경우 (b) 검증 결과
후보영역 추출(5) 각 색 면 결과의 통합 각 색 면에서 추출된 텍스트 후보영역 중 일정 비율 이상으로 겹치는 부분은 하나의 영역으로 추출 (a) 각 색 면 결과 (b) 통합한 결과 통 합
추출 결과 (a) 단순한 영상의 예 (b) 복잡한 영상의 예
명도 정보를 이용한 추출 명도 이미지 텍스트 영역 전 처 리 - 잡영 제거 - 에지 추출 후보 영역 추출 기울기/원근 추정 후보 영역 추출 - 긴 선 추출 및 제거 - 반복적 RLS 적용 검 증 - 연결요소 및 외곽사각형 분석 기울기/원근 보정 텍스트 영역
전처리 이미지 축소 미디언 필터링 Canny 에지 추출 처리 시간 단축, 320x240 3x3 마스크를 이용한 잡영 제거 (b) Canny 에지 추출
후보영역 추출(1) 긴 선 추출/제거 다양한 종류의 긴 선들이 텍스트를 둘러싸고 있는 경우가 많음 정확한 추출을 위해서 긴 선 요소의 제거 필요 에지 추적으로 8, 4 방향 이웃 히스토그램 생성으로 긴 선 추출 긴 선 제거 선 요소의 전체 화소수와 히스토그램 최대 빈의 비율 이용 수직 및 수평의 긴 선, 사각형, 길고 부분적으로 꺾이는 선 제거 긴 선 정보 텍스트 영역의 기울어짐/원근 보정에 사용 1 2 3 4 5 6 7 (a) 에지 추출 (b) 긴 선 제거
후보영역 추출(2) 반복적 RLS 적용 텍스트 영역은 일반적으로 에지 밀도가 높음 에지의 조밀함을 강조하고, 배경과의 연결을 피하기 위해 Run 길이를 증가시키면서 반복적으로 적용 문자의 크기, 간격 등에 따라 에지 간격이 다양하기 때문 수평방향과 수직방향 텍스트 구분 수평방향 위주의 RLS 적용 (a) 긴 선 제거 (b) 반복적 RLS 적용
후보영역 추출(3) 검 증 연결요소 정보 이용 외곽사각형 정보 이용 연결요소의 화소수가 너무 크거나 작은 것 제거 외곽사각형의 연결요소가 차지하는 비율이 작은 것 제거 외곽사각형의 가로/세로 비율, 폭 또는 높이가 아주 작은 것 제거 (a) 강조된 후보영역 (b) 검증 결과 (c) 추출된 영역
기울기/원근 추정(1) 기울기 추정 추출된 긴 선을 이용 선 스무딩(Smoothing): 긴 선에 존재하는 Bump 또는 Hole 등을 부분적으로 제거 직선의 기울기 추정을 위한 좌표 추출 긴 선의 일부에서 다른 방향으로 심하게 꺾이는 선도 존재 4방향 히스토그램에서 최대 빈의 방향에서만 좌표 추출 최소 자승법 적용 기울기, 절편, 최소자승 오차를 구함 최소 자승 오차 값이 큰 것은 심하게 꺾이는 선이거나 굴곡이 심한 곡선으로 추정하여 고려 대상에서 제거함
기울기/원근 추정[2] 선 위치에 따른 기울기 병합 인접한 위치의 기울기가 유사한 선들을 병합 최소자승 오차 값, 기울기, Y-절편 이용 병합된 선은 두 선의 기울기와 Y-절편의 평균으로 설정 1 2 3 4 기울기 Y-절편 Error 1 0.16 -29.58 0.65 2 0.14 -28.11 1.02 3 0.12 32.79 0.48 4 0.07 111.44 0.82 기울기 Y-절편 1,2 0.15 -28.85 3 0.12 32.79 4 0.07 111.44 (a) 추출된 선 (b) 기울기, 절편, 오차 (c) 병합 결과
기울기/원근추정[3] 각 영역의 기울기/원근 추정: 개발중 텍스트 후보 영역의 위치와 주변 선과의 거리를 고려하여 추정 선을 선택 원근 추정: 텍스트 영역 주변의 두 선과 이미지의 양쪽 수직 축과의 만나는 점들의 거리를 이용 ① ③ ② (a) 추출된 선 (b) 추출된 텍스트 영역
추출 결과 (a) 단순한 영상의 예 (b) 복잡한 영상의 예
색 및 명도 추출 결과의 결합 상호 검증 명도 정보: 빛/ 조명 변화에 강함, 색 정보: 배경의 복잡도에 강함 Input image Color Information Gray-level Information Preprocessing Preprocessing Cross checking Color Clustering Extracting Text Candidate Extracting Text Candidate Verification No Skew/Perspective Estimation Same Region? Yes Skew/Perspective Correction Text Location Text
결합 및 검증 결 합 검 증 각 방법의 후보 영역 비교 색 정보를 이용한 검증: 추출된 영역만의 색 병합 결과의 향상을 기대함 후보 영역의 위치와 크기가 비슷하면 하나의 텍스트 영역으로 확정 후보 영역이 일치하지 않으면 다른 방법으로 검증 검 증 색 정보를 이용한 검증: 추출된 영역만의 색 병합 결과의 향상을 기대함 명도 정보를 이용한 검증: 추출된 영역만의 검증 결과가 향상되기를 기대함 (a) 명도 정보를 이용한 검증 (b) 색 정보를 이용한 검증
실험 및 결과 실 험 결 과 다양한 종류의 120개 이미지 사용 단순 및 복잡한 이미지 그룹으로 나누어 평가 (a) 색 정보를 이용한 추출 (b) 명도 정보를 이용한 추출
추출 결과(1) (a) 색 정보를 이용한 추출 (b) 명도 정보를 이용한 추출 (c) 상호 검증 결과
추출 결과(2) (a) 색 정보를 이용한 추출 (b) 명도 정보를 이용한 추출 (c) 상호 검증 결과
향후 계획 2차년: 인간의 시각적 주의 기능을 이용한 정보 선별 및 성능 개선 3차년: 응용시스템 구현 시각적 주의 기능을 이용한 영역 정보 선별 상향식 특징의 검증 및 보완, 상향식 특징에 의한 정보 선별 지도 구성 하향식 지식의 계층적 구성 및 이용: 인식 순위, 인식/검증 여부 결정 등 추출된 영역의 이미지 향상 방법 개발 단계적 이미지 개선 방법 개발, 기울기/원근 보정 3차년: 응용시스템 구현 텍스트 인식 상용 OCR 결합, 성능 평가 후처리(폰트 정보, 영역 언어 정보 등) 기술을 이용한 인식 성능 개선 응용 시스템 구현 프로그램 최적화 수행 현장 시연 및 보완