딥러닝의 개념들
Activation
Activation linear sigmoid tanh softmax relu elu softplus softsign hard_sigmoid
Activation linear 입력이 그대로 출력으로 나가는 형태
Activation sigmoid 0~1 사이의 출력 2 category를 예측할 때 출력층에서 사용
Activation tanh -1 ~ 1 사이의 출력 은닉층에 사용
softmax logistic function의 일반화 여러 값을 0~1사이의 값으로 바꾸고 합이 1.0이 되도록 함 Activation softmax logistic function의 일반화 여러 값을 0~1사이의 값으로 바꾸고 합이 1.0이 되도록 함 여러 category를 예측할 때 출력층에 사용
relu 0보다 작을 때는 0, 0보다 클 때는 linear처럼 작동 sigmoid에 비해 학습이 빠른 장점 Activation relu 0보다 작을 때는 0, 0보다 클 때는 linear처럼 작동 sigmoid에 비해 학습이 빠른 장점
Loss
Loss binary_crossentropy categorical_crossentropy mean_squared_error mean_squared_logarithmic_error hinge squared_hinge sparse_categorical_crossentropy kullback_leibler_divergence poisson cosine_proximity mean_absolute_error mean_absolute_percentage_error
cross entropy − 𝑦 log 𝑦 𝑦: 실제 값(0, 1) 𝑦 : 예측 값(확률) Loss cross entropy − 𝑦 log 𝑦 𝑦: 실제 값(0, 1) 𝑦 : 예측 값(확률) 낮은 확률로 예측해서 맞으면 loss가 커짐 binary_crossentropy category가 2개인 경우 categorical_crossentropy 3개 이상인 경우
Loss mean_squared_error − 1 𝑁 𝑦− 𝑦 2 오차제곱의 평균 연속변수를 예측할 때 사용
Optimizer
Optimizer Optimizer SGD Adagrad Adadelta Adamax Nadam Adam RMSprop
경사하강법(gradient descent) Optimizer 경사하강법(gradient descent)
SGD batch gradient descent: 전체 데이터로 경사를 구함 Optimizer SGD batch gradient descent: 전체 데이터로 경사를 구함 stochastic gradient descent: 한 데이터로 경사를 구함 mini-batch gradient descent: 일부 데이터로 경사를 구함
Optimizer 모멘텀(momentum) SGD는 지그재그로 움직이는 경향이 있음 경사를 누적시켜 완만하게 움직이게
Adagrad 학습률(η)을 서서히 감소시키는 방법 gt: t번째 경사 Gt: t번째까지 모든 경사의 제곱합 Optimizer Adagrad 학습률(η)을 서서히 감소시키는 방법 gt: t번째 경사 Gt: t번째까지 모든 경사의 제곱합 ε: 아주 작은 값
Optimizer RMSprop 모든 경사를 더하는 대신 지수이동평균을 사용
Optimizer Adadelta RMSprop + 변화의 단위가 θ의 역수에 비례하는 것을 보정
Optimizer Adam 경사에도 지수이동평균 적용 0으로 편향된 것을 보정 나머지는 Adagrad와 비슷
Optimizer 비교
Optimizer 비교