제 3 장 신경회로망 (Neural Networks) Slide 1 (of 32)
신경회로망의 연구분류(1) 제 1기(1940년대 - 1960년대): 초기 모방기 생물학적 뉴런의 구조 vs. 인공뉴런 뇌의 구조에 대한 모방이 두드러진 시기 McCulloch and Pitts, neuron 모델화(1943) Weiner, Cybernetics Rosenblatt, Perceptron 생물학적 뉴런의 구조 vs. 인공뉴런 Slide 2 (of 32)
신경회로망의 연구분류(2) 제 2기(1960년대 - 1980년대): 침체기 Minsky, Papert의 신경회로망의 한계성에 대한 연구(1969)로 인해 컴퓨터와 뇌의 연구 분리 Minsky “Perceptron” 에서 신경회로망의 한계성 비판 신뢰할당 문제: 퍼셉트론의 학습동안 잘못된 결정을 할 경우 문제를 일으키는 가중치를 판별하기가 어렵다 XOR 문제의 해결 못함 폰 노이만 컴퓨터의 한계성에 대한 인식으로 부터 점차 발전기로 들어섬 Slide 3 (of 32)
신경회로망의 연구분류(3) 제 3기(1980년대 - 현재): 발전기 Hopfield 교수가 Perceptron에서의 문제점 해결(1982) 신경회로망을 지원하는 H/W의 성능 1000배 이상 향상 순차 처리보다는 병렬정보처리에 대한 움직임 활발 신경망 컴퓨터, 바이오 칩의 개발 네트워크, 멀티미디어 분야의 연구 활발 인터넷의 보급으로 2000년대에는 정보검색에 응용 가능 Bioinformatics(생명공학)에 대한 연구 활발: BT분야 Slide 4 (of 32)
청각모델에 근거한 음성인식 바이오칩 구현사례 < ESR700 Speech Recognition Processor > < ESR700 Block Diagram & Pin Configuration > Slide 5 (of 32)
뇌의 구조 및 기능 인류 진화(그림 3.2) 어류 -> 오스트랄로피테쿠스(원인) -> 호모에렉투스(직립) -> 호모사피엔스(인류) 대뇌피질(cerebral cortex, 이성적인 지배)와 원시적 인 뇌(본능적인 지배)로 구성 인간이 이중적인 성격을 갖는 원인(?) Slide 6 (of 32)
뉴런의 구조 및 특징 뉴런의 특징 정보 전달 능력: 시냅스를 통한 정보 전달 재생 하지 않는 특징: 다수결 동작 원리 뉴런은 사멸하면 다시 재생하지 않음 어린아이와 어른의 뉴런의 개수는 유사 뉴런들의 연결방식이 개수보다 중요함 재생하지 않는 이유: 학습 가능성과의 깊은 관련성 다수결 동작 원리 보통때는 세포 내부 전압 < 세포 외부 전압 흥분시는 세포 내부 전압 > 세포 외부 전압 다른 뉴런 흥분시 자신도 흥분하고 억제시 자신도 억제함 순차 정보 처리형태와의 차이점 Slide 7 (of 32)
신경회로망의 원리 기본 구성 요소(그림 3.5) PDP(Parallel Distributed Processing), Connectionist Model Processing units Activation state Output function Connectivity pattern Propagation rule Activation rule Learning rule Environments Slide 8 (of 32)
신경회로망의 기본 구성요소 wkj oi(t)= fi(ai) wij oj(t)= fj(aj) aj(t)=Fj(aj, netj) ai(t)=Fi(ai, neti) wlj Uj Ui · 활성화 함수(activation function) 1 1 fi(ai) fj(aj) Slide 9 (of 32) -m θ m -m 0 m (Threahold function) (Sigmoid function)
기본 구성 요소(1) Processing Units Pattern One-unit-one concept Input unit Features, letters, words, concepts, abstract element One-unit-one concept Input unit 외부로부터 시스템으로 입력을 받아들이는 처리기 Output unit 시스템으로 부터 출력을 내보내는 처리기 Hidden unit 시스템내에 입출력값이 모두 있으나 외부에 전혀 보이지 않는 처리기 Slide 10 (of 32)
기본 구성 요소(2) Activation State Output Function Connectivity Pattern 연속[0,1] 또는 비연속값{-1, +1}과 {+1, 0, -1} Output Function 이웃 처리기에 영향을 미치는 정도, 활성화 함수 적용 이 값을 통해 신호 전달 Connectivity Pattern 시스템의 임의의 처리기에 대한 반응 정도 Wij : 처리기 Ui로부터 처리기 Uj로의 연결 강도를 의미하는 가중치값으로 이 값이 클수록 흥분성 연결을 의미한다. Slide 11 (of 32)
기본 구성 요소(3) Propagation Rule Activation Rule Learning Rule Net input을 생성하기 위해 가중치와 결합화할 규칙 Activation Rule 특정 처리기에 들어오는 각 net input을 조합하여 그 처리기의 현재 상태로부터 새로운 상태를 구할 수 있는 규칙 Learning Rule 연결 강도를 변화시키는 과정 Example Hebbian Learning Rule(1949) Widrow-Hoff Rule (=Delta Rule) Grossberg learning Rule(1976) Slide 12 (of 32)
신경회로망의 특징 Robustness Fault tolerance Inheritance parallelism Simplicity Classification Slide 13 (of 32)
신경회로망과 기존 패턴분류기와의 차이점 …. …. …. 기존의 패턴 분류기 신경회로망 패턴 분류기 훈련데이터로 부터 측정된 파라미터 가장 근접한 클래스에 대한 심볼출력 심볼입력 일치정도계산 값저장 및 최대값 선택 x0 x1 xn-1 z0 z1 zm-1 y0 y1 yn-1 일치정도계산 최대값 선택 …. …. …. Slide 14 (of 32) 오직 한 클래스에 대한 출력값만이 가장 높다 주어진 출력값과 올바른 클래스로부터 가중치 조절
학습(Learning) 가중치를 조절하는 과정(그림 3.8) Supervised Learning(교사학습) 외부에서 교사신호(teaching input)로써 입력신호에 대한 정답출력을 주는 학습 방법 Unsupervised Learning(무교사학습) 평가기준은 있으나 일일이 교사 신호를 주지 않는 학습 방법 Slide 15 (of 32)
신경회로망 모델 분류 입력형태 학습형태 신경회로망모델 기존의 패턴분류기 이진값 교사학습 Hopfield network Hamming net Optimum classifier 무교사학습 Carpenter/Grossberg network Leader clustering algorithm 연속적인값 Perceptron Gaussian classifier Multilayer perceptron K-means neighbor mixture Kohonen self-organizing feature maps K-means clustering algorithm Slide 16 (of 32)
신경회로망의 기능 연상기능 최근접 데이터의 인출기능 특징 추출기능 조합론적 폭발 문제 해결기능 비상안전 기능 감지 정보처리 기능 제어기능 지식 정보처리 기능 Slide 17 (of 32)
학습법칙에 따른 모델 분류 Learning Rule Model 특 징 Hebbian Rule Boltzman Machine Unsupervised learning Associative Hopfield network Associative memory Delta rule Perceptron Pattern Classification Generalized EBP (Error Back Pattern & linear Delta Rule Propagation network) Classification Slide 18 (of 32)
홉필드 모델(Hopfield Network) 기본 가정 노드간의 결합 강도가 대칭적( ) 비동기적으로 동작하는 병렬 컴퓨터 모델 입력값이 threshold를 넘으면 흥분하고 그 이하이면 억제됨: Hard limit non-linearity function사용 Associative memory(content addressable memory) +1 -1 Slide 19 (of 32)
홉필드 모델의 구조 (b) 홉필드 네트워크 구조 Slide 20 (of 32) (a) 완전연결된 네트워크
홉필드 모델의 제한점 분류에 필요한 클래스의 수에 제한 부정확한 입력패턴일 경우 잘못 분류될 가능성 필요한 클래스 수 : 입력노드수의 15% 이하일 것 (예) 10개 클래스일 경우: 70 × 0.15 10와 5000개의 연결선 필요 부정확한 입력패턴일 경우 잘못 분류될 가능성 에너지 함수 개념 때문 minimum의 패턴과 가까운 패턴이어야 정확한 분류 가능 Slide 21 (of 32)
퍼셉트론(Perceptron) 1957년 Rosenblatt가 제안한 모델 입력패턴이 두개의 클래스 중 하나에 속함을 결정할 때 주로 사용되는 모델 Slide 22 (of 32) (a) 구조 (b) 병렬적 계산과정
퍼셉트론의 한계점 문제점: XOR 문제에서 선형 분리 불가능 (a) 선형 분리 가능의 일반적인 개념 (b) XOR 함수 Slide 23 (of 32) 문제점: XOR 문제에서 선형 분리 불가능
퍼셉트론에서의 비선형 함수 (a) 기본적인 노드에서의 입출력 (b) 3가지 대표적인 비선형함수 Slide 24 (of 32)
여러 패턴들의 결정 형태 Slide 25 (of 32)
다층 퍼셉트론 입력층과 출력층 사이 하나 이상의 계층을 갖는 모델 오류 역전파 알고리즘(Error Back Propagation)이 용함 Generalized Delta rule 이용 Slide 26 (of 32)
다층 퍼셉트론 구조 Slide 27 (of 32)
오류 역전파 알고리즘 일반화된 델타 규칙(GDR: generalized delta rule) 일반화된 LMS 알고리즘 활성화 함수로 sigmoid 함수 이용 알고리즘 (p.99) / 순서도(그림 3.19) 예: 그림 3.20 인 경우 200번 반복한 후 클래스 A와 B 분류 잘됨 Slide 28 (of 32)
오류 역전파 알고리즘의 순서도 Slide 29 (of 32) 시 작 연결강도와 오프셋의 초기화 학습 패턴의 설정 시 작 학습 패턴의 설정 중간층 유니트의 계산 출력층 유니트의 계산 출력층 유니트의 오차 계산 중간층 유니트의 오차 계산 중간층과 출력층 사이의 연결강도 변경 출력층 유니트의 오프셋 변경 입력층과 중간층 사이의 연결강도 변경 중간층 유니트의 오프셋 변경 학습 패턴의 증가 학습패턴 종료? 학습 반복 횟수의 변경 학습반복 종료 횟수? 종 료 예 아니오 Slide 29 (of 32)
Main Steps in EBP Algorithm Forward Pass 1. Present the pattern at the input layer 2. Let the hidden units evaluate their output using the pattern 3. Let the output units evaluate their output using the result in step 2) from the hidden units. Backward Pass 4. Apply the target pattern to the output layer 5. Calculate the 's on the output nodes according to (3) 6. Train each output node using gradient descent (4) 7. For each hidden node, calculate its according to (6) 8. For each hidden node, use the found in step 7) to train according to gradient descent (5) Slide 30 (of 32)
다층 퍼셉트론의 문제점(1) Local Minima 현재 점에서 급경사면을 따라 내려오면서 global minima가 아니면서 미분 값이 0인 local minima에 빠지는 현상 Slide 31 (of 32) (a) 연결강도의 변화에 따른 복잡한 출력의 예 (b) 연결강도와 오차함수
다층 퍼셉트론의 문제점(2) Weight값의 변화 기본적으로 feedforward 방식 많은 반복횟수 실제 생물의 뇌에서는 내부에 많은 루프를 가지고 있어서 feedback을 구성하고 있음 많은 반복횟수 학습 파라메터의 조절 필요 추가 학습시 전체적인 재학습 필요 학습 완료시점 예측이 어렵다 일괄 수정법, 출력값의 제한, 모멘텀 방법,수정 모멘텀 방법 학습계수의 최적화 등 해결방안 현재 개선책 연구 중 Slide 32 (of 32)