시각(Vision) 인지(Cognition)의 중요성 컴퓨터의 시각(Vision) 컴퓨터가 직접 자신에 필요한 사항을 감각기를 사용하여 획득(인간이 정보를 특정의 표현기법에 맞게 입력하는 것은 쉽지 않다) 대화(컴퓨터와 인간의 상호작용)의 효율을 향상 키보드 없이 컴퓨터와의 인터페이스 컴퓨터의 시각(Vision) 방대한 정보를 정확하고 빠르게 획득 인공적인 시각 : 컴퓨터와 카메라 + 영상 처리용 하드웨어, 소프트웨어 인간의 시각 : 두뇌와 눈 및 시신경 + 시각신호를 이해하는 지식과 경험, 추론 능력 카메라를 통해 획득한 영상을 처리하고 피사체들의 특성과 상대적 관계를 이해하여 시스템의 지능적 동작을 위해 사용
컴퓨터 시각의 정의 영상의 획득(카메라 입력+표본화, 양자화) ‘영상을 해석하여 인간이 얻은 것과 비슷한 결과를 얻기 위한 기술’ + ‘영상 내의 물체를 명확하고 의미 있게 묘사하는 기술’ 분야에 따라 다양하게 해석 (cf. 영상신호처리: 영상 대 영상 변환중심, 신호 자체의 처리, 활용) 영상의 획득(카메라 입력+표본화, 양자화) 카메라 빛이 카메라로 입사 변환기 2차원 명암 배열로 대응 비디콘: 빛 광감각층 전하생성 전하중화 아날로그 전압파형 출력 단점 : 부피와 무게가 크고, 수명이 짧으며 영상의 왜곡현상이 발생 CCD : 빛 CCD전하 축적 직렬 레지스터에 읽어짐 직렬 레지스터의 출력전압 형태로 출력
표본화(Sampling), 양자화(Quantization) 영상의 해상도 : 비디콘 카메라 : 출력 파형을 얼마나 조밀하게 표본화 하느냐? CCD 카메라 : CCD 요소 배열에 의해 결정 아날로그 영상신호 Sample & Hold A/D 변환 디지털 신호 표본화 양자화 각 화소의 값의 크기 예) 256 단계 어떤 시간 간격으로 신호의 표본을 취하는 것
영상 기초처리 잡음의 제거 평활화(Smoothing) : 주변 화소들과 크게 틀린 화소의 밝기 값을 주변의 것들과 비슷하게 만들어 주는 것 8이웃(8-neighborhood) 화소 : 어떤 화소에 대해 주변 화소의 범위를 8방향의 인접 화소들만 고려한 것 3X3 mask를 적용 평균 마스크(averaging mask) 9개의 화소들의 합 / 9 중심 화소의 값과 대체 전체적인 선명성을 저하 중간값 여과기(median filter) : Mask가 적용되는 영역 내의 화소값들을 sorting하여 중간 순위의 값을 중심 화소의 값과 대체 임펄스 형태의 잡음을 저하시키는 데 탁월 sorting에 많은 처리시간 소요
평활화 예 14 10 9 10 46 1 Averaging Mask 10 Median Filter
경계 검출(Edge Detection) 경계 검출 마스크 사용 영상은 빛의 분포로 구성되므로 화소값이 급격히 변화하는 부분은 명암이 다른 물체나 면이 시작되는 부분, 즉 경계라 한다. 이웃 하는 화소들 사이의 밝기 변화를 계산하여 임의의 임계치 이상이면 경계로 판단 경계 검출 마스크 사용 Prewitt mask : 2차원 영상에서 여러 가지 방향의 경계를 검출할 수 있는 마스크 Sobel mask : 경계 검출 시 약간의 가중치를 준 것 경계 검출용으로 널리 사용 마스크 사용의 장단점 뚜렷하지 못한 경계에서 잡음에 민감 간단, 프로그래밍 용이, 빠른 계산
영상의 이진화 카메라로부터 얻어진 명암영상(gray image)을 이진화 하기 위해 각 화소의 밝기값을 임계치 기준으로 2개의 집합으로 구분 물체(object)와 배경(background) 구분 용이 b(x, y) = 1 if g(x, y) > threshold 0 otherwise (0 x N-1, 0 y M-1) N x M의 배열에서 임의의 좌표 (x, y)에 대해 g(x, y) : 화소의 밝기 b(x, y) : 이진화 작업후의 화소값 이진 영상 : 화소가 0 혹은 1의 값만을 가지므로, 표현이 간단하고, 기억용량의 수요가 적고, 실시간 처리에 유리 예) 3비트 화소값 (교재 그림 10.14 참조) 히스토그램에서 3 또는 4값이 임계치가 될 수 있음 실제 영상에서는 어려움 영역 분할 후, 영역별 임계치 조정
영역 분할(Region Segmentation) 비슷한 특징을 가지는 이웃 화소들을 하나의 영역으로 묶는 것 영상 내의 피사체를 배경과 분리 피사체 내의 면이나 특징있는 부분으로 분리 영역 확장법(region growing) : 하나의 화소로부터 시작하여 비슷한 특성을 가지는 이웃 화소들을 같은 영역으로 통합 다른 영역에 속하는 화소들과 구분되는 번호를 주는 labeling 작업 필요 영역 분할법(region splitting) : 전체 영상을 하나의 영역으로 둔 후, 이질적인 화소들로 새로운 영역을 형성시키며 영상을 나누는 것
영역 확장법의 예 1 2 3 20 21 19 54 56 22 50 53 4 51 17 5 6 23 1 1 1 1 1
특징의 추출(Feature Extraction) 영상에서 물체를 인식하는데 유용한 특징들 평균 밝기값 : 특정 영역의 화소값들의 평균값 최대, 최소 밝기값 : 동일 영역 내에서 최대 화소값, 최소 화소값 면적 : 특정 영역에 속하는 화소의 개수로 정의 둘레 : 해당 영역에 외접하는 화소들의 총 개수로 구하는 것 직경 : 물체의 경계에 존재하며 상호간에 가장 멀리 떨어져 있는 두 화소 사이의 거리 얇기 : (둘레)2 / 면적, 또는 직경 / 면적 등의 특징 사용 무게중심 : 물체의 영역에서 화소들의 x좌표 평균값, y좌표 평균값 형태비 : 물체 영역의 길이/폭 을 말하는 것. 두가지 형태비 모멘트 : 무게 중심 좌표에서 의미있는 방향의 특징을 계산 물체 둘레의 굴곡도 물체내의 구멍(hole) 방향 코드(chain code)
형태의 인식(Recognition) 영상내의 특정의 물체 찾기 또는 그 물체가 무엇인지 알아내는 작업 영상내의 특정의 물체 찾기 또는 그 물체가 무엇인지 알아내는 작업 대상의 원형과 정합 (template matching) 확률적 기법 (Bayesian theorem) 인공 신경회로망 이용 (neural network) 원형 정합(template matching) 물체의 영상이나 처리된 결과를 미리 저장된 표준 모델, 즉 원형과 비교하여 대상을 인식하는 방법 고정된 카메라로 물체 분류 카메라 각도, 거리가 가변이면 오인식 가능성 증대 문자의 인식과 같이 대상이 2차원 평면에 존재하고 크기나 종류의 가변성이 제한된 경우 유용한 기법임
확률적 기법에 의한 인식 Bayes의 정리 사용 물체에서 얻어지는 임의의 특징 x 어떤 물체가 w1에서 wn 패턴 중에서 임의의 wk 로 인식될 확률 P(wk) 특징 x가 주어졌을 때, 패턴 wk 로 인식될 확률 P(wk|x) wk 패턴에 속하는 물체가 특징 x를 가질 확률 P(x|wk) 막연한 통계 : 영상 내에 나타날 수 있을 것으로 예측되는 모든 물체들은 모두 1/n의 가능성 물체의 특징들에 관계없이 항상 동일한 인식은 무리 영상내의 물체의 임의의 특징 x의 측정치 존재 + P(x|wk)를 알 경우 측정치 x로부터 인식될 수 있는 어떤 물체의 확률은 두 물체 w1과 w2에서 Decide w1 if P(x|w1) P(w1) > P(x| w2) P(w2), otherwise decide w2
3차원 시각 (카메라 : 3차원 2차원) 3차원 복원은 많은 정보 필요 사람은 두 눈 사용 두 개 이상의 카메라 영상으로부터 3차원 정보획득 스테레오 시각(stereo vision) 또는 양안시 기법 B간격으로 나란히 배치된 두 대의 카메라 3차원 공간의 한 점 w는 각 카메라 영상 pn(xn, yn)으로 투영 카메라 영상 좌표계 + 광학축 Zn 가정 w는 각 카메라 좌표계에서 wn(Xn, Yn, Zn)로 표현 카메라로 입사되는 광선은 λ거리의 렌즈 통과(바늘 구멍) 스테레오 매칭 : 두 카메라 영상에서 대상의 같은 지점 찾기 매우 어렵고 많은 처리시간 소요 (영역기반, 특징기반)
다면체 표현과 해석 일반적인 3차원 영상 해석의 어려움 간단 모델 사용(구조화된 환경, 박스 영상 가정) + + + + - - 평면에 직선으로만 표현 인간은 쉽게 3차원 구조 이해 물체의 면을 인식하기 꼭지점 형태에 의한 면의 연결 방식 + + + - - + +