Download presentation
Presentation is loading. Please wait.
1
제 2 장 회귀분석 동아대학교 경영정보학과 이정형
2
차례 1. 단순선형회귀모형 1) 회귀모형의 구축 2) 회귀계수의 추정 3) 회귀계수에 대한 해석 2. 다중선형회귀모형 1) 추정된 회귀식의 적합도 검토 2) 표준화 회귀계수 3) 설명변수의 선택 3. 로지스틱 회귀모형 1) 로지스틱 단순회귀모형 2) 로지스틱 다중회귀모형 4. 회귀분석의 특징
3
변수의 형태에 따른 분석방법 분할표분석 (범주형자료분석) 로지스틱회귀분석 로짓분석 범주형 분산분석 (실험계획법) 회귀분석
계량형 (질적자료) (양적자료) 설명변수 반응변수
4
선형회귀모형 회귀분석이란? 설명변수와 반응변수의 관계를 구체적인 함수관계로 나타내고, 설명변수의 값으로부터 반응변수의 값을 예측하는 일련의 과정이다.
5
선형회귀모형 삼두근의 두께(x)와 체지방(y)
6
단순선형회귀모형 자료구조 모형
7
선형회귀모형 모형의 가정 는 서로 독립적으로 을 따른다. 1) 독립성 : 는 서로 독립 2) 정규성 : 3) 불편성 :
는 서로 독립적으로 을 따른다. 1) 독립성 : 는 서로 독립 2) 정규성 : 3) 불편성 : 4) 등분산성 :
8
선형회귀모형 의 원인 설명변수가 반응변수에 대한 충분한 정보를 갖고 있지 않은 경우 → 입력변수들을 충분히 수집
입력변수와 목표변수의 관계가 선형적이지 않은 경우 → 비선형 회귀모형, 의사결정나무모형, 신경망 모형 등과 같은 비선형 모형을 고려 측정오류와 입력오류 → 충분한 검토 후 분석
9
선형회귀모형 회귀계수의 추정방법 최소제곱법 (least squares method : LS method) 최대가능도법
(maximum likelihood method : ML method) 적률추정법 (method of mements : MM)
10
회귀직선 의 추정 최소제곱법 (least squares method)
회귀직선 의 추정 최소제곱법 (least squares method) 모형에서 오차의 제곱합을 최소로 하는 의 값을 구하는 방법
11
회귀직선 의 추정
12
단순선형회귀모형 추정회귀 직선 회귀계수에 대한 해석
회귀계수 은 설명변수 x에 대한 기울기를 나타내는 것으로 이는 x가 1단위 증가할 때 y가 변화하는 양을 나타낸다.
13
단순선형회귀모형 라는 것은 삼두근의 두께가 1(1mm)단위 증가하면 체지방이 단위 증가함을 의미한다.
14
회귀모형의 검토 - 분산분석 SST : 총제곱합(total sum of squares)
SSR : 회귀제곱합(regression sum of squares) 변동량이 회귀식에 의해 발생(회귀식에 의해 설명)되는 변동량 또는 편차제곱합 SSE : 오차제곱합(error sum of squares)
15
회귀모형의 검토 - 회귀계수의 유의성 검증
16
회귀모형의 검토 - 적합도 결정계수 총편차의 제곱합에서 회귀제곱합이 차지하는 비율로 회귀직선의 기여율
결정계수의 값이 1에 가까울수록 산점도에서 점들이 직선 주위에 밀집하여 오차의 추정량 값은 적어짐.
17
잔차분석 회귀모형의 적절성 검토 (표준화) 잔차 에 대한 산점도(散点圖) 이용
모형에서 주어졌던 오차( εi )에 대한 네 가지 가정이 옳은가에 대한 점검 ⇒ 잔차( )에 대한 분석 (표준화) 잔차 에 대한 산점도(散点圖) 이용 ⇒ 를 표준화된 오차항의 관측값처럼 생각하여 오차항의 가정을 검토.
18
잔차분석 (계속) 표준화된 잔차들이 대략 0 에 대하여 대칭으로 나타나고,
설명변수의 값에 따른 잔차의 산포가 크게 다르지 않고, 점들이 특정한 형식을 가지고 나타나지 않고, 모든 관측값이 표준정규분포 N (0 , 1 )에서 ±2 이내에서 나타난다.
19
잔차분석 (계속) Point Cloud Sloping Band
20
잔차분석 (계속) Curved Wedge
21
Normal probability plot
Heavy-tail Light-tail
22
Normal probability plot (계속)
Right-skewed Left-skewed
23
회귀모형의 검토 - 잔차분석
24
독립성 가정의 검토 Durbin-Watson(DW) 검정 DW =0: 양의 자기상관 DW =2: 독립
25
독립성 가정의 검토
26
단순회귀모형 : 정리 산점도 상으로 단순회귀가 적합하며 특이 사항은 없는가?
분산분석에서 두 변수 사이의 직선관계가 의미있는 것으로 판별되었는가? 회귀계수 값은 얼마로 추정되었으며 그 의미는 무엇인가? 주어진 설명변수 값에서 반응변수 평균은 얼마로 추정되며 그 신뢰구간은?
27
예제) Toyota Camry중고차의 주행거리와 가격
중고차가격과 주행거리의 산점도 (단위 : $1000, 1000 mile) 중고차가격 주행거리
28
예제) Toyota Camry중고차의 주행거리와 가격
분산분석표 회귀계수의 추정 Durbin-Watson D Source DF Sum of Squares Mean Square F Value Pr > F Model 1 19.256 180.64 <.0001 Error 98 10.446 0.1066 Total 99 29.702 Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 17.249 0.1821 94.73 <.0001 Odometer -0.067 0.005 -13.44 Durbin-Watson D 2.028 Number of Observations 100 1st Order Autocorrelation -0.028
29
예제) Toyota Camry중고차의 주행거리와 가격
추정 회귀식 회귀계수 의 의미 주행거리가 1000마일 증가하면 중고차 가격은 67달러 감소한다.
30
예제) Toyota Camry중고차의 주행거리와 가격
중고차 판매가격(y ) 변동의 64.83%는 주행거리(x )의 변동에 의해 설명되며, 나머지 중고차 판매가격(y ) 변동의 35.17%는 오차에 기인하여 설명할 수 없다. y값에 대한 예측구간
31
예제) Toyota Camry중고차의 주행거리와 가격
잔차의 분포
32
예제) Toyota Camry중고차의 주행거리와 가격
표준화 잔차의 산점도 표준화 잔차 주행거리
33
예제) Toyota Camry중고차의 주행거리와 가격
정규확률도 중고차 가격 백분율
34
다중선형회귀 모형 다중회귀모형은 종속변수(y )가 k 개의 독립변수들(x1, x2,…,xk )과 어떻게 관련되어 있는지를 분석하기 위해 사용되는 모형
35
다중선형회귀 모형 모형의 가정 는 서로 독립적으로 을 따른다. 회귀계수의 추정
는 서로 독립적으로 을 따른다. 회귀계수의 추정 최소제곱법 (least squares method) : 모형에서 오차의 제곱합을 최소로 하는 의 값을 구하는 방법
36
다중선형회귀 모형 분산분석표 가설 요인 제곱합 자유도 평균제곱 F비 회귀 SSR p MSR MSR/MSE 오차 SSE
n-p-1 MSE 전체 SST n-1
37
다중선형회귀 모형 추정된 회귀식의 적합도 검토 회귀계수에 대한 t-검정 결정계수
38
표준화 회귀계수 설명변수의 상대적 중요도를 비교하기 위한 측도 방법 1 : 변수의 표준화를 이용 방법 2 : 표준편차를 이용
39
변수선택법 1. 앞으로부터 선택법(forward selection)
입력변수를 각 변수의 기여도에 따라 하나씩 추가하면서 선택하는 기법 계산이 빠르다. 한 번 선택된 변수는 제거되지 않는다.
40
변수선택법 2. 뒤로부터 제거법(backward elimination)
모든 변수를 포함하는 완전모형으로부터 불필요한 변수를 하나씩 제거하는 방법 중요한 변수가 모형에서 제외될 가능성이 적다. 한 번 제외된 변수는 다시 선택되지 못한다.
41
변수선택법 3. 단계별 선택법(stepwise method)
각 단계마다 변수의 선택과 제거를 반복하면서 중요한 변수를 찾아내는 방법 중요한 변수를 하나씩 선택하면서 이미 선택된 변수들이 제거될 수 있는지 각 단계마다 검토한다. 모든 가능한 회귀를 통해서 얻은 모형보다 적절치 못한 경우가 있다.
42
변수선택법 4. 모든 가능한 회귀(all possible regression)
가능한 모든 축소모형을 고려하여 가장 좋은 모형을 찾아내는 방법 가장 안전한 방법이다. 입력변수가 많은 경우 탐색시간의 폭발적인 증가로 현실적으로 사용하기 어려운 경우가 있다.
43
변수선택의 기준 결정계수 (coefficient of determination)
수정결정계수 (adjusted coefficient of determination) 맬로우(Mallow)의 아카이케의 정보기준 (Akaike Information Criteria : AIC)
44
다중공선성(multicollinearity )
다중회귀모형에서 독립변수들 사이에 높은 상관관계를 가지는 것. 다중공선성의 존재는 상관관계가 높은 독립변수들의 회귀계수들의 표본오차를 크게 만드는 경향을 갖는다.
45
다중공선성(multicollinearity )
탐지 분산팽창인자(variance inflation factor: VIF) 고유값(eigen value)과 상태지수(condition index) 분산비율(variance proportion) 대책 선형관계가 강한 변수 제거 설명변수의 더 많은 범위에서 자료를 관측 능형회귀(ridge regression) 등의 다른 회귀분석법 이용
46
회귀모형의 수립 종속변수의 선택 잠재적 예측변수들(독립변수들)에 대한 고려 자료 수집 예측 대상은? 종속변수의 측정단위는?
종속변수와 관련이 있는 독립변수들은 무엇인가? 가능한 한 최소의 독립변수들을 선택 다중공선성을 고려 자료 수집 회귀모형에 사용되는 각 변수들에 대하여 최소 6개 이상의 관측치를 수집
47
회귀모형의 수립 (계속) 다수의 가능한 회귀모형들을 선택 회귀모형의 추정을 위해 통계소프트웨어 사용
1차 모형, 2차 모형, 상호작용이 존재하는 모형, 상호작용이 존재하지 않는 모형을 고려 산포도 작성 회귀모형의 추정을 위해 통계소프트웨어 사용 잔차분석 : 회귀가정의 확인 최적의 회귀모형을 선택하기 위해 통계분석의 결과를 활용
48
예제) La Quinta Motor Inn을 위한 입지선택
종속변수 (y) 운영수익비율 : 이윤, 감가상각, 이자지출의 합계를 총수입으로 나눈 비율 독립변수 (x1, x2, x3, x4, x5, x6) x1 : La Quinta Inn로부터 3마일 이내 있는 모텔과 호텔의 객실 수 x2 : 가장 가까운 모텔까지의 거리(마일) x3 : 주변 지역사회에 있는 사무실 공간의 크기 x4 : 대학과 전문대학 등록학생 수 x5 : 가구소득의 중앙값 X6 : 다운타운 중심부까지의 거리(마일)
49
예제) La Quinta Motor Inn을 위한 입지선택
분산분석표 회귀계수의 추정 Source DF Sum of Squares Mean Square F Value Pr > F Model 6 3123.8 520.64 17.14 <.0001 Error 93 2825.6 30.38 Total 99 5949.5 Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 6.993 5.45 <.0001 x1 Nearest 0.0013 -6.07 x2 Office 1.6462 0.6328 2.6 0.0108 x3 Space 0.0198 0.0034 5.8 x4 Enrollment 0.2118 0.1334 1.59 0.1159 x5 Income 0.4131 0.1396 2.96 0.0039 x6 Distance 0.1787 -1.26 0.2107
50
예제) La Quinta Motor Inn을 위한 입지선택
추정 회귀식 회귀식의 적용 다음의 조건들을 가지고 있는 위치에 La Quinta Inn을 만들면 예상되는 운영수익비율 X1 =3815 (3마일 이내에 3815개의 객실이 존재) X2 = (가장 가까운 모텔까지의 거리 0.9마일) X3 =476 (사무실 공간면적은 476,000 ft2) X4 = (전문대학과 대학의 등록학생수는 24,500명) X5 = (가구소득의 중앙값은 $35,000) X6 = (->다운타운 중심부까지의 거리 11.2 마일)
51
예제) La Quinta Motor Inn을 위한 입지선택
회귀식의 적용 (계속) 운영수익비율이 50%이상이면 수익이 발생한다고 결정하면 주어진 이 입지는 수익성이 있다고 할 수 없다. 운영수익비율의 기대치는 33.0%와 41.2% 사이에 속하는 것으로 예측. 이와 같은 신뢰구간은 주어진 특성들을 가진 모든 입지들에 La Quint Inn들을 짓는 경우에 예상되는 평균 운영수익비율이 속하는 구간이다.
52
예제) La Quinta Motor Inn을 위한 입지선택
다중공선성 : VIF Durbin-Watson D Variable Label Variance Inflation Intercept x1 Nearest 1.0304 x2 Office 1.0235 x3 Space 1.0400 x4 Enrollment 1.0305 x5 Income 1.0443 x6 Distance 1.0260 Durbin-Watson D 2.126 Number of Observations 100 1st Order Autocorrelation -0.074
53
예제) La Quinta Motor Inn을 위한 입지선택
잔차의 분포
54
예제) La Quinta Motor Inn을 위한 입지선택
표준화 잔차의 산점도 표준화 잔차 운영수익비율
55
예제) La Quinta Motor Inn을 위한 입지선택
정규확률도
56
예제) 패스트푸드 레스토랑의 입지 선택 패스트푸드 레스토랑 체인의 수익성이 있는 새로운 입지를 판별하기 위한 회귀모형
레스토랑의 주요시장은 중간소득계층의 성인들과 특히 5세와 12세 사이에 있는 자녀 각 지역에는 약 5,000가구가 있고, 레스토랑 A와 3개의 경쟁 레스토랑이 있는 25개 지역을 랜덤하게 선택 변수 y : 레스토랑의 연간 총수입 x1 : 연 평균 가구소득 x2 : 자녀의 평균 연령
57
예제) 패스트푸드 레스토랑의 입지 선택 종속변수와 각 예측변수는 다음과 같은 2차식의 관계를 가질 가능성이 있음
교호작용항을 회귀모형에 포함시키고 추정을 통하여 통계적으로 의미가 있는 지를 검토 모형
58
예제) 패스트푸드 레스토랑의 입지 선택
59
예제) 패스트푸드 레스토랑의 입지 선택 분산분석표 회귀계수의 추정(VIF 포함) Source DF Sum of Squares
Mean Square F Value Pr > F Model 5 368140 73628 36.86 <.0001 Error 19 37956 1997.7 Total 24 406096 Variable DF Parameter Estimate Standard Error t Value Pr > |t| VIF Intercept 1 -1134 320.02 -3.54 0.0022 Income 173.2 28.204 6.14 <.0001 226.82 Age 23.55 32.234 0.73 0.4739 101.28 Incomesq -3.726 0.5422 -6.87 191.38 Agesq -3.869 1.1791 -3.28 0.0039 46.316 (Income)(Age) 1.9673 0.9441 2.08 0.0509 56.509
60
Loglinear 모형과 Logit 모형 분할표를 이용한 검정은 변수들 사이의 연관성을 설명할 수 있을 뿐 어떠한 범주가 중요한 역할을 하는지 알기 어려움 분석 변수의 수가 3개 이상인 범주형 변수들 사이의 관계를 선형모형의 형태로 나타내어 변수들 사이의 관계를 설명
61
Loglinear 모형과 Logit 모형 loglinear model:
분석하고자 하는 변수들이 모두 반응변수인 경우, 즉 변수들이 서로 어떻게 연관되어 있는지에 관심이 있는 경우 logit model: 한 변수를 반응변수로 보고 나머지 변수들을 설명변수로 보아 설명변수들이 반응변수에 어떻게 영향을 미치는지에 관심이 있는 경우 로짓(logit)모형 또는 로지스틱(logistic)모형 및 프로빗(probit)모형을 사용
62
Loglinear 모형과 Logit 모형 logit 모형과 logistic 모형은 혼용되어 쓰이기도 하나, 설명변수들이 범주형인 경우는 로짓모형, 연속적인 경우에는 로지스틱 회귀모형이라고 한다. logit 모형은 ANOVA 모형과 유사하나 반응변수가 연속형이 아니라 범주형이다.
63
로짓모형 (logit model) 두 개의 범주를 갖는(dichotomous) 반응변수를 범주형의 설명변수들로 설명하고자 하는 경우 로그선형모형처럼 각각의 범주를 취하는 값을 선형모형의 형태로 표현하기보다는 두 범주를 취할 확률의 비가 설명변수의 수준에 따라 어떻게 달라지는지를 선형모형으로 표현한 것
64
로지스틱회귀모형 (Logistic reg. model)
반응변수의 범주가 2개(binary)이거나 순서형(ordinal)의 반응범주를 갖는 범주형 자료들을 연속형의 설명변수들을 이용하여 설명하고자 하는 경우 로짓모형(logit model)과의 차이점: 로짓모형(logit model)의 설명변수들이 범주형인데 반해 로지스틱 회귀모형에서는 설명변수들이 연속형
65
로지스틱회귀모형 로지스틱 회귀란? 로지스틱 단순회귀모형 반응변수 (목표변수)가 이항형(binary type)
또는 순서형 (ordinal type)인 경우 로지스틱 단순회귀모형 확률에 대한 로짓변환 (logit transform) 을 고려하여 분석
66
로지스틱회귀모형 logit(p)의 형태
67
로지스틱회귀모형 로지스틱 회귀의 문제점 확률의 값이 [0,1]의 범위를 벗어남 오차가 회귀분석의 가정을 충족하지 못함
68
로지스틱회귀모형 연결함수 (link function) Logit (logistic model)
Probit (probit model) Complementary log-log (Gompertz model)
69
로지스틱회귀모형 로지스틱 다중회귀모형
70
로지스틱회귀모형 회귀계수의 의미 Odds
71
로지스틱회귀모형 회귀계수의 의미 오즈비 (Odds ratio) 가 1단위 증가하는데 따른 odds ratio
입력변수가 분류결정에 미치는 영향의 정도를 계량화하는데 사용 오즈비>1 : 입력변수가 목표변수에 양의 방향으로 영향을 미침 오즈비<1 : 입력변수가 목표변수에 음의 방향으로 영향을 미침
72
예제) 레스베이터 수요 예측
73
수요 예측 1. 수요 예측의 이론적 배경 구매의도 분석: 소비자들에게 신제품을 구매 또는 사용할 가능성을 물어본 후 이 결과로부터 얻어낸 주관적 추정치를 과거의 경험 등을 통해서 신제품을 구매할 확률로 환산 레스베이터의 구매의도 조사결과에서 레스베이터 도입에 대한 업체들의 부정적 의견으로 구매의도 분석을 통한 통계적 예측기법 적용할 수 없음 따라서 피난구설치의 법제화, 안정적 기술수준의 확보, 적정 가격의 책정을 감안한 시나리오를 수립하여 수요 확산모형에 의한 수요 예측을 실행
74
수요 예측 2. 수요예측모형 신제품 또는 시장진입 초기제품일 경우 시장전략상 신상품에 대한 성장잠재기를 갖게 되므로 이 기간 동안은 전체적 구조가 S자형 곡선으로 나타남 따라서 수요확산 모형의 일종인 시간경향 모형법 (Time Trend Model)을 적용하여 수요를 예측 시간경향 모형법 : 자료가 시간에 따른 뚜렷한 경향을 지니고 있을 때 주로 사용하는 방법으로 산업구조의 변화와 같이 일정한 추세를 보이는 자료의 예측에 적합 시간경향 모형법은 시간적인 경향만을 추출해 내기 때문에 전 시점의 자료의 급작스런 감소나 증가에 영향을 받지 않아 예측 오차가 생길 우려가 있음 정확한 예측을 위해 시간 경향을 제거한 자료에 대하여 자기회귀 모형법 (Autoregre- ssive Model)을 적용하는 STEPAR법 (Stepwise Autoregressive Method)의 기본 모형식을 기반으로 계수 형태를 추정하여 모형을 완성 추정된 모형을 기초로 초고층 아파트의 건설현황을 연도별로 예측
75
수요 예측 3. 주택수급현황 지역의 주택시장 상황과 소득수준에 따른 다양한 수요에 대응하는 지속적인 주택공급으로 주택부족 문제를 근원적으로 해소해 가는 추세 주택수요는 2008년을 고비로 감소세로 전환되며 이는 주택수요 중심계층인 40, 50대 연령의 감소에 기인 연령구성 및 소득변동에 따른 수요와 멸실주택 등을 감안할 경우 2010년 이후 주택수요는 연평균 44만호 내외가 될 것으로 전망 2010년 이후 연평균 48만호를 공급하여 수급불균형을 조기에 해소
76
수요 예측 4. 수요예측의 가정 국토해양부는 2010년 이후 주택공급이 48만호로 계획하고 있으며 현재 주택 보급율이 높아 향후 아파트 공급량은 감소할 것으로 전망 아파트 1개 동 당 평균 120가구로 가정 사업개시 초기 연도 레스베이터 적정 구매율 즉 공급계획량을 Nagative측면 1%, 3%, 5% (Positive측면)로 정함. 향후 아파트 시장은 공급량의 90%이상이 20층 이상 고층 아파트 건설 추세로 전망 - 민간업체가 주도하는 재개발, 재건축 시장은 경제성, 수익성을 고려하여 20층 이상 아파트 건축이 주요 트렌드이며 초고층은 수익성이 낮아 향후 물량이 감소 추세를 보일 것으로 전망하고 있음 -신도시 위주의 아파트 공급에서 향후는 도심 내 집약적 20층 이상 고층 아파트 건립 추세 전망 (5) 사업개시 연도부터 5개 년간을 수요 예측
77
수요 예측 5. 수요 예측 결과 Negative 측면 1% 3% Positive 측면 5% 1차 연도 1.0% 3.0%
가. 설치비율 Negative 측면 1% 3% Positive 측면 5% 1차 연도 1.0% 3.0% 5.0% 2차 연도 6.0% 7.8% 9.8% 3차 연도 10.2% 11.6% 13.4% 4차 연도 13.5% 14.6% 15.5% 5차 연도 15.7% 16.5% 17.1% 공급량 사업연도
78
수요 예측
79
수요 예측 나. 설치대수/ 판매 계획량 Negative 1% 3% Positive 5% 1차 연도 36/180 108/540
[단위 : 대수/억원] Negative 1% 3% Positive 5% 1차 연도 36/180 108/540 180/900 2차 연도 216/1,080 281/1,405 352/1,760 3차 연도 367/1,835 419/2,095 482/2,410 4차 연도 486/2,430 525/2,625 558/2,790 5차 연도 565/2,825 595/2,975 617/3,085 공급량 사업연도
80
수요 예측
81
가장 이상적인 수요 예측/매출액 단위 : 억원
82
회귀분석의 특징 보편성 해석상의 편리 적절한 입력변수의 선택 비선형성 교호작용탐색의 어려움
여러 분야에서 사용, 통계 S/W 이용, 일반 연구자들에게 잘 알려짐 해석상의 편리 적절한 입력변수의 선택 비선형성 회귀모형의 단순성과 해석의 편리함은 선형성 교호작용탐색의 어려움
Similar presentations