Regularization 과적합(overfitting) 문제 Machine Learning
예: 선형회귀(집 가격) Price Price Price Size Size Size 과적합(Overfitting): 특징이 너무 많으면, 학습된 가설(hypothesis)은 훈련자료에 아주 잘 일치할 것이다, ( ), 그러나, 새로운 자료에 대한 일반화 (새로운 자료에 대한 가격예측)는 실패한다.
예: 로지스틱 회귀 x1 x2 x1 x2 x1 x2 ( = sigmoid function)
과적합(overfitting) : 집 크기 방의 개수 Price 층의 개수 집의 나이 이웃의 평균 수입 Size 부엌 크기
Addressing overfitting: Options: 특징 개수 줄이기. 사용할 특징들은 인위적으로 선택한다. 모델 선택 알고리즘(later in course). 정규화(Regularization). 모든 특징들을 유지하지만, 파라메타 의 크기/값을 감소시킨다. 각각의 특징들이 를 예측하는데 조금씩 기여하는 많은 특징들을 가질 때 잘 작동된다.
Regularization Cost function Machine Learning
Intuition 우리가 벌칙을 가하여 를 정말 작게 만든다고 가정하자. Price Price Size of house 우리가 벌칙을 가하여 를 정말 작게 만든다고 가정하자.
정규화(Regularization). Housing: Features: Parameters: 파라메타들 에 대하여 작은 값들 파라메타들 에 대하여 작은 값들 “더 단순한” 가설(hypothesis) 과적합될 경향이 더 적음 Housing: Features: Parameters:
Regularization. Price Size of house
정규화된 선형회귀에서, 우리는 다음을 최소화하는 를 선택한다. 만약, 가 지극히 큰 값으로 설정되면 (아마도 우리 문제에 너무 큰, 예를 들어 )? 알고리즘은 잘 동작한다; 를 매우 크게 설정함은 해를 줄 수 없다. 알고리즘은 과적합을 제거하는데 실패한다. 알고리즘은 저적합(underfitting)을 낳는다. (훈련자료에 잘 일치시키는데 실패한다). 경사하강법은 수렴에 실패한다.
정규화된 선형회귀에서, 우리는 다음을 최소화하는 를 선택한다 정규화된 선형회귀에서, 우리는 다음을 최소화하는 를 선택한다 만약, 가 지극히 큰 값으로 설정되면 (아마도 우리 문제에 너무 큰, 예를 들어 )? Price Size of house
Regularized linear regression Regularization Regularized linear regression Machine Learning
Regularized linear regression
Gradient descent Repeat
Normal equation
Non-invertibility (optional/advanced). Suppose , (#examples) (#features) If ,
Regularized logistic regression Regularization Regularized logistic regression Machine Learning
Regularized logistic regression. x1 x2 Cost function:
Gradient descent Repeat
Advanced optimization function [jVal, gradient] = costFunction(theta) jVal = [ ]; code to compute gradient(1) = [ ]; code to compute gradient(2) = [ ]; code to compute gradient(3) = [ ]; code to compute gradient(n+1) = [ ]; code to compute