Download presentation
Presentation is loading. Please wait.
1
Linear Model
2
ML의 주요 기법 KNN Linear Model SVM Kernel Trick Decision Tree Ensemble
3
1인당 GDP와 삶 만족 (1)
4
1인당 GDP와 삶 만족 (2)
5
1인당 GDP와 삶 만족 (3)
6
Linear model 전체 데이터의 추세를 나타내는 하나의 직선(평면)을 찾음 가장 오차가 적은 평면을 선택
global method
7
kNN vs. Linear Model
8
Bias-Variance 문제 오차(Error) = 편향(Bias)2 + 분산(Var)
편향: 모형이 실제 패턴에서 벗어나서 생김 underfitting 분산: 모형이 잡음에 민감해서 생김 overfitting
9
LM에서 Bias-Variance 문제 2차원(평면) 점 2개를 잇는 직선이 반드시 존재
3차원(공간) 점 3개를 포함하는 평면이 반드시 존재 차원이 커지면 어떤 데이터도 선형 모형으로 설명(overfitting) 선형 모형은 Bias ↓, Variance ↑ 심지어 데이터의 오차도
10
BLUE 회귀에서 선형 모형은 RMSE를 최소화 OLS 또는 Least-Square
BLUE(Best Linear Unbiased Estimator) 편향되지 않은 선형 모형 중에는 Variance가 가장 작음 Gauss-Markov 정리
11
LM에서 Bias-Variance 문제 해결책
subset selection shrinkage dimensionality reduction
12
subset selection 일부 차원(변수)만 사용
best subset: 사용할 변수의 수(차원의 크기)를 미리 정한 상태 에서 가장 좋은 조합을 찾음 stepwise: 모형에서 변수를 하나씩 추가(forward)하거나 제외 (backward)해 나가다가 더 이상 좋아지지 않으면 중단
13
shrinkage subset selection은 변수를 통째로 넣거나 뺌
shrinkage는 변수의 영향력을 줄이는(shrink) 방법 딥러닝에서도 많이 사용
14
LM에서 shrinkage method RMSE만 최소화하는 대신 RMSE + (계수의 크기)를 동시에 최적화
15
Lasso q = 1 w의 절대값의 합도 함께 최소화 w를 0으로 만드는 경향이 있음 변수 선택의 기능
16
Lasso
17
Ridge q = 2 w의 제곱의 합도 함께 최소화 대체로 Lasso에 비해 예측력이 좋음 변수 선택 X
18
Ridge
19
Elastic Net RMSE + Lasso + Ridge Lambda: 정규화항의 가중치
Alpha: 정규화항에서 Lasso의 비중 CV로 결정
Similar presentations