Ch12. Deep Learning (Backpropagation)
2012년에 Hinton 교수 연구실의 Allex 학생이 CNN을 이용하여 획기적으로 성능 개선 2015년에 NS 팀이 우승 3%대의 에러율을 가지고서..
다층 구조인 경우에 미분 값이 역 전파 되면서(체인 규칙에 의해) 매우 값이 작아진다 다층 구조인 경우에 미분 값이 역 전파 되면서(체인 규칙에 의해) 매우 값이 작아진다. 시그모이드 출력들이 연이어 곱해지면서 매우 작은 값이 된다. 다시 말해, 학습이 이루어지지 않는다. 가중치 값의 변화가 일어나지 않는다. 또다시 추운 2차 겨울에 들어선다.
초기 가중치가 0이면 학습이 이루어지지 않는다
RBM을 사용하여 초기 가중치를 정하는 방법 제안, 현재는 잘 사용되지 않음.
Feadforward에서 주어졌던 입력과 같은 값들이 feadbackward에 의해 출력으로 만들어지도록 가중치 조절, 두 값을 비교하여 가중치 조절
초기값을 결정하는 과정이 pretraining 단계
Fan-in과 fan-out을 square root of fan-in으로 나눈 값을 최소 및 최대 범위로 하는 random number을 초기 가중치로 한다
가로축은 number of layers
Lamda = 0.001
학습하는 과정에서 random 하게 일부 노드들을 끊어 버리는 작업