Download presentation
Presentation is loading. Please wait.
1
4 장. 신경망 오일석, 패턴인식, 교보문고. © 오일석, 전북대학교 컴퓨터공학
2
들어가는 말 신경망 4.1 절 4.2-4.3 절 1940년대 개발 (디지털 컴퓨터와 탄생 시기 비슷)
인간 지능에 필적하는 컴퓨터 개발이 목표 4.1 절 일반적 관점에서 간략히 소개 절 패턴 인식의 분류 알고리즘으로서 구체적으로 설명 4.2 절: 선형 분류기로서 퍼셉트론 4.3 절: 비선형 분류기로서 다층 퍼셉트론
3
뇌의 정보처리 모방하여 인간에 필적하는 지능 컴퓨터에 도전
4.1.1 발상과 전개 두 줄기 연구의 시너지 컴퓨터 과학 계산 능력의 획기적 발전으로 지능 처리에 대한 욕구 의학 두뇌의 정보처리 방식 연구 얼마간의 성과 (뉴런의 동작 이해 등) 뇌의 정보처리 모방하여 인간에 필적하는 지능 컴퓨터에 도전 인공 신경망 (ANN; Artificial Neural Network)이 대표적
4
4.1.1 발상과 전개 컴퓨터와 두뇌의 비교 폰 노이만 컴퓨터 순차 명령어 처리기 두뇌
뉴런으로 구성 (약 1011개, 약 1014 연결 (시냅스)) 고도의 병렬 명령어 처리기
5
4.1.1 발상과 전개 간략한 역사 1943, McCulloch과 Pitts 최초 신경망 제안
1949, Hebb의 학습 알고리즘 1958, Rosenblatt 퍼셉트론 Widrow와 Hoff, Adaline과 Madaline 1960대, 신경망의 과대 포장 1969, Minsky와 Papert, Perceptrons라는 저서에서 퍼셉트론 한계 지적 퍼셉트론은 선형 분류기에 불과하고 XOR도 해결 못함 이후 신경망 연구 퇴조 1986, Rumelhart, Hinton, 그리고 Williams, 다층 퍼셉트론과 오류 역전파 학습 알고리즘 필기 숫자 인식같은 복잡하고 실용적인 문제에 높은 성능 신경망 연구 다시 활기 찾음 현재 가장 널리 활용되는 문제 해결 도구
6
4.1.2 수학적 모델로서의 신경망 신경망 특성 절반의 성공 학습 가능 뛰어난 일반화 능력 병렬 처리 가능
현실적 문제에서 우수한 성능 다양한 문제 해결 도구 (분류, 예측, 함수 근사화, 합성, 평가, …) 절반의 성공 인간 지능에 필적하는 컴퓨터 만들지 못함 제한된 환경에서 실용적인 시스템 만드는데 크게 기여 (실용적인 수학적 모델로서 자리매김)
7
4.2 퍼셉트론 새로운 개념들 등장 비록 분명한 한계를 가지지만 MLP의 초석이 됨
층 노드와 가중치 학습 활성 함수 비록 분명한 한계를 가지지만 MLP의 초석이 됨 Imagination is more important than knowledge. Albert Einstein ( )
8
4.2.1 구조와 원리 구조 입력층: d+1개의 노드 (특징 벡터 x=(x1,…,xd)T)
출력층: 한 개의 노드 (따라서 2-부류 분류기) 에지와 가중치
9
4.2.1 구조와 원리 노드의 연산 퍼셉트론은 선형 분류기 입력 노드: 받은 신호를 단순히 전달
출력 노드: 합 계산과 활성 함수 계산 퍼셉트론은 선형 분류기
10
4.2.1 구조와 원리 예제 4.1 샘플 a를 인식해 보자. 맞추나? 나머지 b, c, d는?
이 퍼셉트론은 w=(1,1)T, b=-0.5 따라서 결정 직선은
11
4.2.2 학습과 인식 퍼셉트론 학습이란? 예) AND 분류 문제
a=(0,0)T b=(1,0)T c=(0,1)T d=(1,1)T ta= tb= tc= td=1 1 c d ? ? x1 y ? a b x2
12
4.2.2 학습과 인식 패턴 인식에서 일반적인 학습 알고리즘 설계 과정 단계 1과 2 단계 3
단계 1: 분류기 구조 정의와 분류 과정의 수학식 정의 단계 2: 분류기 품질 측정용 비용함수 J(Θ) 정의 단계 3: J(Θ)를 최적화하는 Θ를 찾는 알고리즘 설계 단계 1과 2 단계 3
13
4.2.2 학습과 인식 단계 1 단계 2 식 (4.2) 매개변수 집합 Θ={w, b}
분류기 품질을 측정하는 J(Θ)를 어떻게 정의할 것인가? Y: 오분류된 샘플 집합 J(Θ)는 항상 양수 Y가 공집합이면 J(Θ)=0 |Y|가 클수록 J(Θ) 큼
14
4.2.2 학습과 인식 단계 3 J(Θ)=0인 Θ를 찾아라. 내리막 경사법 (Gradient descent method)
현재 해를 방향으로 이동 학습률 ρ를 곱하여 조금씩 이동
15
4.2.2 학습과 인식 알고리즘 스케치 알고리즘에 필요한 수식들 퍼셉트론 학습 규칙 (델타 규칙) 초기해를 설정한다.
멈춤조건이 만족될 때까지 현재 해를 방향으로 조금씩 이동시킨다. 알고리즘에 필요한 수식들 퍼셉트론 학습 규칙 (델타 규칙)
16
4.2.2 학습과 인식
17
4.2.2 학습과 인식 예제 4.2 ① ② w(0)=(-0.5,0.75)T, b(0)=0.375
d(x)= -0.5x1+0.75x Y={a, b} ② d(x)= -0.1x1+0.75x Y={a}
18
4.2.2 학습과 인식 인식 알고리즘
19
4.2.2 학습과 인식 구현 패턴 모드 학습 알고리즘 초기값 어떻게? 학습률 어떻게? 패턴 모드와 배치 모드
20
4.2.2 학습과 인식 포켓 알고리즘 선형 분리 불가능한 상황
J(Θ)=0이라는 목표를 버리고, J(Θ)를 최소화하는 목표로 수정
22
4.3 다층 퍼셉트론 선형 분리 불가능한 상황 퍼셉트론의 한계
그림 4.5(b)에서 퍼셉트론으로 최대 몇 개까지 맞출 수 있을까?
23
4.3.1 구조와 원리 XOR 문제 퍼셉트론은 75% 정인식률이 한계 이 한계를 어떻게 극복?
두 개의 퍼셉트론 (결정 직선) 사용
24
4.3.1 구조와 원리 두 단계에 걸쳐 문제 해결 단계 1: 원래 특징 공간을 새로운 공간으로 매핑
단계 2: 새로운 공간에서 분류
25
다층 퍼셉트론 (MLP; Multi-layer perceptron)
4.3.1 구조와 원리 다층 퍼셉트론 (MLP; Multi-layer perceptron)
26
4.3.1 구조와 원리 다층 퍼셉트론의 아키텍처 입력층, 은닉층, 출력층 가중치: u와 v
27
4.3.1 구조와 원리 신경망은 일종의 함수
28
전방 계산 (forward computation)
4.3.1 구조와 원리 전방 계산 (forward computation)
29
활성 함수 (activation function)
4.3.1 구조와 원리 활성 함수 (activation function) 시그모이드라는 비선형 함수 사용
30
4.3.1 구조와 원리 예제 4.3 다층 퍼셉트론의 공간 분할 능력 활성 함수에 따른 공간 분할
31
FFMLP (Feed-Forward MLP) 의 아키텍처
4.3.1 구조와 원리 FFMLP (Feed-Forward MLP) 의 아키텍처 은닉층은 몇 개로? 층간의 연결은 어떻게? 각 층의 노드는 몇 개로? 어떤 활성 함수 사용할까?
32
패턴 인식에서 일반적인 학습 알고리즘 설계 과정
4.3.2 학습 MLP의 학습이란? 패턴 인식에서 일반적인 학습 알고리즘 설계 과정 단계 1: 분류기 구조 정의와 분류 과정의 수학식 정의 단계 2: 분류기 품질 측정용 비용함수 J(Θ) 정의 단계 3: J(Θ)를 최적화하는 Θ를 찾는 알고리즘 설계
33
4.3.2 학습 단계 1 단계 2 (비용 함수 정의) (4.12)와 (4.13)의 전방 계산이 분류기의 식
매개변수 집합 Θ={u, v} 단계 2 (비용 함수 정의)
34
4.3.2 학습 단계 3 (최적 해 찾음) (4.16)의 오류를 줄이는 방향으로 Θ를 수정해 나감 라인 5를 어떻게?
35
4.3.2 학습 vjk를 위한 갱신값 Δvjk 의 유도 vjk가 미치는 영향
36
4.3.2 학습 uij를 위한 갱신값 Δuij 의 유도 uij가 미치는 영향
37
4.3.2 학습 오류 역전파 알고리즘
38
4.3.2 학습 예제 4.4 다층 퍼셉트론의 학습
39
4.3.2 학습 예제 4.4
40
4.3.2 학습 예제 4.4
41
4.3.2 학습 예제 4.4
42
4.3.2 학습 오류 역전파 알고리즘의 계산 복잡도 Θ((d+m)pHN) H는 세대 수 많은 시간 소요
예) MNIST 필기 숫자 데이터베이스는 N=60000
43
4.3.3 인식 인식 알고리즘 시간 복잡도 Θ((d+m)p) N에 무관, 빠름
44
4.3.4 구현과 몇 가지 부연 설명 몇 가지 부연 설명 네트워크 아키텍처 (은닉 노드 개수 등) 가중치 초기화
언제 종료할 것인가? 목적 벡터의 표현과 활성 함수 (이진 모드와 양극 모드) 샘플 처리 순서 학습률 국소 최적 점 탈출
45
4.3.4 구현과 몇 가지 부연 설명 매개변수 설정 일반적인 경우에 적용되는 보편 규칙은 없다.
경험과 실험을 통해 설정해야 한다. 신경망 성능이 매개변수에 아주 민감하지는 않기 때문에 어느 정도의 실험과 경험을 통해 설정 가능
Similar presentations