제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리

Slides:



Advertisements
Similar presentations
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
Advertisements

제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
제13장 로지스틱회귀분석.
재료수치해석 HW # 박재혁.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
3일차 - 가설검정.
공차 및 끼워맞춤.
수치해석 6장 예제문제 환경공학과 천대길.
제12주 회귀분석 Regression Analysis
제 19 장 유의성 검정 가설검정의 원리 귀무가설과 대립가설 검정통계량과 유의수준 제1종 오류와 제2종 오류 유의성 검정절차
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
6장. printf와 scanf 함수에 대한 고찰
상관함수 correlation function
Tail-recursive Function, High-order Function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
행렬 기본 개념 행렬의 연산 여러가지 행렬 행렬식 역행렬 연립 일차 방정식 부울행렬.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
Keller: Stats for Mgmt & Econ, 7th Ed
프로그래밍 개요
Linear Mixed Model을 이용한 분석 결과
(independent variable)
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
응용 : 조세의 경제적 비용 © 2007 Thomson South-Western.
Metal Forming CAE Lab., Gyeongsang National University
두 모집단에 대한 검정.
단순회귀분석 (Simple Linear Regression Analysis)
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
논문작성을 위한 연구모형 설정 양동훈.
Thevenin & Norton 등가회로 1등 : 임승훈 - Report 05 - 완소 3조 2등 : 박서연
미분방정식.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승
Sampling Distributions
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
비열.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
제 11 장 독점 PowerPoint® Slides by Can Erbil
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
계량경제학 1.관광수요의 결정요인 2.관광수입과 환율의 상관 관계..
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
기체상태와 기체분자 운동론!!!.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
문제의 답안 잘 생각해 보시기 바랍니다..
6 객체.
(Analysis of Variation, ANOVA)
Presentation transcript:

제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리 최우추정량 3절 다중회귀모형의 적합도 평가 결정계수 정보기준

제4장 다중회귀분석 4절 다중회귀분석의 검정과 신뢰구간 추정 계수에 대한 유의성 검정 계수에 대한 신뢰구간 추정 다중회귀모형에 대한 유의성 검정 5절 더미변수 및 추세변수 더미변수 추세변수 6절 모형설정 오류와 기준 적합한 변수의 누락 부적합한 변수의 추가 모형설정 기준 4장 실증분석- 영화수요의 결정 요인

1절 다중회귀모형과 기본가정 1. 다중회귀모형 → 종속변수의 변화를 설명하기 위해 한 개의 독립변수를 설정한 단순회귀모형을 개의 독립변수를 가지는 회귀모형으로 확장한 것 종속변수와 독립변수의 관계는 인 부분회귀계수(partial regression coefficient)에 의해 결정 → 를 제외한 나머지 부분회귀계수의 의미는 중요 혹은

1절 다중회귀모형과 기본가정 는 다른 독립변수들의 값은 변하지 않고 번째 독립변수 가 취하는 값만 에서 로 1단위 증가할 때 종속변수 의 기대 변화량을 나타냄 예) 문화오락비 가 소득 뿐만 아니라 물가 상승률 에 의해서도 영향을 받는다면 다중회귀모형 를 설정 <그림 4-1> 회귀평면

1절 다중회귀모형과 기본가정 다중회귀모형은 벡터와 행렬에 의해 다음과 같이 함축적으로 표현됨 → 는 각각 벡터, 는 행렬, 는 → 는 각각 벡터, 는 행렬, 는 모수(parameter) 벡터 즉,

1절 다중회귀모형과 기본가정 다중회귀모형에 대한 기본가정 1. 확률변수 는 비확률적이다. 1. 확률변수 는 비확률적이다. 2. 오차항 는 평균 0을 가지는 확률변수이다. 3. 오차항 는 모든 에 대하여 동일한 분산을 지닌다.   → 동분산 또는 균분산(homoskedasticity) 가정 4. 오차항 는 서로 상관되어 있지 않다.   → 비자기상관(no autocorrelation) 가정

1절 다중회귀모형과 기본가정 5. 독립변수들 간에 완전한 선형관계가 성립되지 않는다. 이 가정을 비다중공선성(no multicollinearity) 가정이라고 한다. 반면에 동시에 0이 아닌 에 대해서 이 성립하는 경우가 있다면 독립변수들 사이에 다중공선성(multicollinearity)이 있다고 한다. 6. 가설검정을 위해 오차항 는 정규분포를 따라야 한다.

1절 다중회귀모형과 기본가정 다중회귀모형의 경우 5번째 가정이 추가되는 이유는 최소제곱추정값이 유일하게 존재하지 않는 특수한 경우를 배제하는 데 있음 예) 두 개의 독립변수 과 를 가지는 다중회귀모형에서 독립변수 사이에 완전한 공선성(collinearity)이 존재하여 다음과 같은 선형관계가 성립된다고 하자 이 경우 대신 로 대체할 수 있으며 다중회귀모형은 다음과 같이 다시 쓸 수 있음

1절 다중회귀모형과 기본가정 → 완전한 공선성이 존재하여도 최소제곱법에 의해 의 추정값을 구할 수 있음 → 완전한 공선성이 존재하여도 최소제곱법에 의해 의 추정값을 구할 수 있음 → 원래의 회귀계수 과 에 대한 유일한 추정값을 결정할 수 없음 → 각 독립변수가 종속변수에 미치는 영향인 개별효과(separate effect)를 추정하는 것이 불가능해짐 예) 동분산과 비자기상관에 대한 가정은 으로 간단히 표현 → 는 항등행렬 오차항의 정규분포 가정은 으로 표현

2절 추정방법 다중회귀모형을 벡터와 행렬의 형태로 표현하면 잔차는 1. 최소제곱추정량과 가우스-마코프 정리 이 되며, 최소제곱법은 이 잔차 제곱의 합을 최소화하는 모수를 구하는 것 → 다음 이차형식(quadratic form)의 목적함수를 최소화하는 추정량 을 구하는 것

2절 추정방법 이 식은 다시 다음과 같이 표현될 수 있음 → 최소제곱추정량: 이 목적함수를 최소화하는 일차조건(FOC): 이 식은 다시 다음과 같이 표현될 수 있음 → 최소제곱추정량: → 최소제곱추정량과 잔차를 이용하여 추정된 회귀모형 을 다시 표현

2절 추정방법 투사행렬(projection matrix): → 가 두 개의 독립변수로 구성된다면 는 를 평면에 대해 수직 투사한 것 최소제곱추정량 에서 대신 을 대입하면 을 얻을 수 있음

2절 추정방법 이므로 최소제곱추정량의 기대값은 이 된다. → 최소제곱추정량은 불편추정량. 최소제곱추정량의 공분산은 이므로 최소제곱추정량의 기대값은 이 된다. → 최소제곱추정량은 불편추정량. 최소제곱추정량의 공분산은 이 된다. 여기서

2절 추정방법 단순회귀모형에 대한 기본가정이 만족되면 최소제곱추정량은 불편추정량이며 최소분산을 가지는 최우수 선형불편추정량(BLUE)이 됨을 이미 살펴보았음 마찬가지로 다중회귀모형에서도 다중회귀모형에 대한 기본가정이 만족되면 최소제곱추정량은 BLUE 가우스-마르코프(Gauss-Markov) 정리 다중회귀모형의 기본가정들이 만족되는 경우 최소제곱추정량은 선형불편추정량들 중 가장 작은 분산을 가진다.

2절 추정방법 2. 최우추정량 오차항의 정규분포와 독립적 가정에 의해 오차항의 우도함수(likelihood function)를 벡터와 행렬의 형태로 표현 계산의 편의를 위해 우도함수에 대수를 취한 을 구하고, 이 대수우도함수를 극대화시키는 모수들 의 추정값을 구하는 방법이 최우추정량

2절 추정방법 를 안다고 가정 → 단순회귀모형의 경우와 마찬가지로 을 극대화시키는 해를 구하는 것은 다음 극소화 문제의 해를 구하는 것과 동일 → 이 최소화 문제의 해를 구하는 것은 최소제곱법과 일치하므로 오차항이 정규분포를 갖는다는 가정하에 최우추정량 은 최소제곱추정량과 동일함

2절 추정방법 → 최우추정량의 기대값은 → 최우추정량은 불편추정량, 최우추정량의 공분산도 최소제곱추정량과 동일

2절 추정방법 에 대한 최우추정량은 대수우도함수를 극대화시키는 을 구하는 것이므로 에 대한 대수우도함수의 편미분이 에 대한 최우추정량은 대수우도함수를 극대화시키는 을 구하는 것이므로 에 대한 대수우도함수의 편미분이 0이라는 일차조건으로부터 구해짐 에 대한 최우추정량을 각각 이라고 하면

3절 다중회귀모형의 적합도 평가 1. 결정계수 ◈ 다중회귀분석에서 결정계수 → 모든 독립변수의 종속변수에 대한 설명력을 나타냄 → 종속변수의 표본변동은 종속변수의 관측값과 종속변수의 평균의 편차로 추정될 수 있으며 임 총표본변동 = 설명된 변동 + 설명 안된 변동 혹은 총제곱합(SST) = 회귀제곱합(SSR) + 잔차제곱합(SSE)

3절 다중회귀모형의 적합도 평가 결정계수는 단순회귀모형과 같이 SST에 대한 SSR의 비율에 의해 결정 SSE를 자유도로 나누어 준 MSE가 잔차의 분산 이며 오차항의 분산 의 불편추정량

3절 다중회귀모형의 적합도 평가 ◈ 단순회귀모형에서 잔차의 자유도 → n개의 잔차 중에서 두 개의 모수 와 을 추정해야 하므로 n에서 2를 뺀 n-2 ◈ 다중회귀모형에서 잔차의 자유도 → 와 K개의 모수를 추정해야 하므로 n에서 K+1을 뺀 n-K-1

3절 다중회귀모형의 적합도 평가 독립변수의 개수가 커지면 종속변수의 변동을 독립변수들이 잘 설명하는 것처럼 나타남 → 이유 : 설명변수가 회귀모형에 추가될 때 SST에 영향을 미치지 않지만, 이 설명변수가 실제 종속변수의 변동을 잘 설명하지 못하는 경우조차도 SSE를 감소시키게 되어 의 값이 증가되기 때문 ◈ 조정결정계수(adjusted coefficient of determination) → 같은 종속변수와 서로 다른 수의 독립변수를 가지는 회귀모형의 적합도를 비교하는 경우 문제점이 발생 → H. Theil은 이러한 문제점을 해결하기 위해 독립변수의 수를 고려한 결정계수를 제창

3절 다중회귀모형의 적합도 평가 → 조정결정계수는 보통 로 표기 → 조정결정계수는 보통 로 표기 → SSE 대신 오차항 분산의 불편추정값 SSE/(n-K-1)을 사용 → SST 대신 종속변수 분산의 불편추정값 SST/(n-1)을 사용 → 독립변수의 수가 증가할 경우 n-K-1이 작아지게 되어 SSE가 충분히 작아지지 않으면 값이 거의 변함이 없게 됨

3절 다중회귀모형의 적합도 평가 2. 정보기준(information criterion) → 적합도 측정지표로 모형의 설명력을 높이기 위해 모형을 무조건 크게 하는(즉, 독립변수의 수를 증가시키는) 경우 일종의 제약을 가하게 함으로써 모형의 설명력과 크기를 동시에 고려할 수 있음

3절 다중회귀모형의 적합도 평가 → , 는 독립변수의 수, 은 표본크기 → 실제 모형분석에 는 SIC가 가장 일반적으로 사용 → , 는 독립변수의 수, 은 표본크기 → 실제 모형분석에 는 SIC가 가장 일반적으로 사용 → 0과 1 사이의 값을 취하는 결정계수와 달리 정보기준은 어떤 값도 취할 수 있음 → 정보기준이 작을수록 모형의 적합도가 높음을 의미 → 단, 정보기준도 작은 모형보다 큰 모형을 선호하는 경향을 완전히 배제하지 못함

4절 다중회귀분석의 검정과 신뢰구간 추정 다중회귀모형의 모수인 부분회귀계수에 대한 추론은 단순회귀모형에서처럼 확률변수 가 t-분포를 갖는다는 사실에 근거를 둠 → 자유도 : n-K-1 예) 2개의 독립변수를 갖는 다중회귀모형의 경우 자유도 : n-1-1= n-2 5개의 독립변수를 갖는 다중회귀모형의 경우 자유도 : n-5-1= n-6

4절 다중회귀분석의 검정과 신뢰구간 추정 는 n-K-1 자유도의 t-분포를 가짐 1. 계수에 대한 유의성 검정 다중회귀모형에 대한 기본가정이 성립된다면, 귀무가설 이 참일 때 확률변수 는 n-K-1 자유도의 t-분포를 가짐 → 유의수준 %를 이용한 다중회귀모형의 계수 에 대한 유의성 검정은 다음과 같이 가설설정 을 하고 t-검정통계량인 이 임계값 보다 크거나 보다 작으면 귀무가설을 기각

4절 다중회귀분석의 검정과 신뢰구간 추정 2. 계수에 대한 신뢰구간 추정 단순회귀모형의 계수에 대한 신뢰구간 추정의 경우와 마찬가지로 다중회귀모형의 계수 에 대한 신뢰구간 추정에 대한 신뢰구간은 회귀모형의 기본가정이 성립될 때 이 된다는 사실을 이용하여 추정할 수 있음

4절 다중회귀분석의 검정과 신뢰구간 추정 <그림 4-4>

4절 다중회귀분석의 검정과 신뢰구간 추정 ◈ 신뢰구간의 의미 → 여러 표본자료를 이용하여 계수에 대한 추정을 계속 반복하면 의 추정값들 중 %가 신뢰구간에 포함된다는 것 에 대한 % 신뢰구간

4절 다중회귀분석의 검정과 신뢰구간 추정 3. 다중회귀모형에 대한 유의성 검정 ◈ t-검정 → 모든 부분회귀계수에 대한 결합검정을 동시에 수행 못함 ◈ 다중회귀모형에 대한 유의성 검정 → 종속변수 의 변동을 회귀공간이 얼마나 설명할 수 있는지 검정하는 것을 의미 → 모든 독립변수들의 모임이 종속변수와 선형관계가 없다는 결합검정을 수행해야 함 → 귀무가설, 을 설정하고, 이에 대한 대립가설, K개의 모수 중 적어도 하나는 0이 아니다, 에 대해 검정

4절 다중회귀분석의 검정과 신뢰구간 추정 → 이 귀무가설이 참이라면 회귀모형은 이 되어 독립변수의 관측값이 무엇이든 종속변수의 기대치는 상수 가 됨. 이 경우 모든 독립변수들의 결합이 종속변수에 아무런 영향을 주지 못함

4절 다중회귀분석의 검정과 신뢰구간 추정 ◈ 귀무가설의 검정 → SSR과 SSE를 각각의 자유도로 나눈 MSR과 MSE의 비율을 계산한 F비로 가설검정을 할 수 있음 이 분자자유도 K와 분모자유도 n-K-1인 F-분포를 가지므로 이 검정통계량이 임계값 보다 크면 귀무가설은 기각

4절 다중회귀분석의 검정과 신뢰구간 추정 다중회귀모형에 대한 유의성 검정 K개의 모수 중 적어도 하나는 0이 아니다. 가설설정- K개의 모수 중 적어도 하나는 0이 아니다. 검정통계량- 여기서 는 분자 자유도, 은 분모 자유도이다. 결정규칙- 검정통계량이 임계값 보다 크면 귀무가설을 기각. 는 유의수준을 나타낸다. 이고 이므로 가 됨

4절 다중회귀분석의 검정과 신뢰구간 추정 따라서, 검정통계량 은 결정계수를 이용하여 구할 수도 있음 따라서, 검정통계량 은 결정계수를 이용하여 구할 수도 있음 이 결과를 이용하면 결정계수 값으로 다중회귀모형에 대한 유의성을 검정할 수 있음 <그림 4-5> F-검정의 결정규칙

5절 더미변수 및 추세변수 1. 더미변수(dummy variable) → 질적효과를 고려할 수 있는 독립변수 → 더미변수는 질이나 속성의 유무를 나타내는데 사용 예1) 모든 조건이 동일하여도 사원들의 초임이 학력에 따라 차이가 존재한다는 질적효과를 고려하기 위해 더미변수를 사용하는 경우 → 대졸이상의 사원은 높은 초임을 받는데 반해 대졸 미만의 사원은 낮은 초임을 받는다고 가정. 임금과 근무 연수의 관계는 다음과 같은 두 회귀식에 의해 표현됨 (대졸 이상 사원의 경우) (대졸 미만 사원의 경우) 여기서 = 1인당 월 임금, = 근무 연수, .

5절 더미변수 및 추세변수 앞의 두 회귀식을 하나로 결합하면 여기서 는 더미변수로 이며, 임 <그림 4-6> 학력 차이로 초임이 다른 경우 임금과 근무 연수의 관계 앞의 두 회귀식을 하나로 결합하면 여기서 는 더미변수로 (대졸 이상 사원의 경우) (대졸 미만 사원의 경우) 이며, 임

5절 더미변수 및 추세변수 → 더미변수는 두 개의 값 중 어느 하나를 취하는 질적변수로 보통 질적 사실이 관측되면 1, 아니면 0을 취함 → 더미변수에 대응되는 회귀계수 에 대한 유의성 검정(t 검정)에 의해 학력별로 초임에 차이가 존재하는지 여부를 판단할 수 있게 됨 → 고학력 사원과 저학력 사원 간의 초임에 차이가 존재하지 않는다면 은 0에 근접하면 귀무가설은 채택. 반대로 차이가 존재한다면 이라는 귀무가설은 기각

5절 더미변수 및 추세변수 예2) 학력에 따라 임금 상승률에도 차이가 존재하게 됨 → 회귀식의 기울기에도 차이가 발생하게 되어 임금과 근무 연수의 관계를 나타내는 회귀식은 다음과 같이 기울기도 다른 두 회귀식에 의해 표현됨 <그림 4-7> 학력 차이로 초임과 상승률이 다른 경우 임금과 근무 연수의 관계

5절 더미변수 및 추세변수 이 두 회귀식을 하나로 결합하면 여기서 는 더미변수로 이며, 임 여기서 는 더미변수로 이며, 임 → 기울기 더미변수에 대응되는 회귀계수 에 대한 유의성 검정(t 검정)에 의해 학력별로 임금상승률에도 차이가 존재하는지 여부를 판단할 수 있게 됨

5절 더미변수 및 추세변수 더미변수를 사용하는 경우 완전한 다중공선성의 문제가 발생되지 않도록 주의해야 함 → 만일 고학력 그룹과 저학력 그룹의 질적 차이를 고려하기 위해 다음과 같이 두 개의 더미 를 사용한다면 또는 의 관계가 성립 → 완전한 다중공선성의 문제를 초래하게 되어 회귀계수를 추정할 수 없게 됨

5절 더미변수 및 추세변수 k개 그룹의 질적 차이를 구분하는 경우 k-1개의 더미변수를 사용해야 함 예) 기업의 규모별 차이를 대기업, 중기업, 소기업으로 나누어 고려하는 경우 다음과 같이 두 개의 더미변수를 사용

5절 더미변수 및 추세변수 → 더미변수에 1이나 0을 부과하는 데는 특별한 원칙이 없으나, 0을 부과하는 그룹이 항상 비교의 기준 됨 → 학력별 초임 차이를 고려한 회귀식에서 대졸 미만 사원의 경우 이라면 대졸 미만 사원의 회귀식의 상수항이 기준이 되어 대졸이상 사원의 회귀식의 상수항과 비교가 되는 것

5절 더미변수 및 추세변수 2. 추세변수 많은 경제변수들은 시간이 지남에 따라 증가하거나 감소하는 추세를 지님 예) 시간이 지남에 따라 증가하는 추세 : 소비지출, 여성의 경제활동 참가율, 화폐공급량, 1인당 GDP등 시간이 지남에 따라 감소하는 추세 : 출산율, 농가인구 등 이런 변수들을 회귀모형의 독립변수로 사용하는 경우 변수의 추세를 고려할 수 있는 추세변수(trend variable) f(t)를 독립변수로 추가하는 것이 바람직함

5절 더미변수 및 추세변수 가장 단순한 추세변수의 형태로 시간의 선형 함수 혹은 비선형 함수 를 사용할 수 있음 혹은 비선형 함수 를 사용할 수 있음 예) 케인즈(Keynes)의 소비함수에 추세를 반영한 다음과 같은 회귀모형을 설정할 수 있음 → 와 는 소비지출과 가처분소득 → 는 추세변수 : 소비지출이 시간이 지남에 따라 증가하는 경향을 반영하게 됨

6절 모형설정 오류와 기준 ◈ 모형설정 오류(model specification error) → 현실적으로 경제현상을 설명해주는 올바른 회귀모형이 무엇인지 알지 못하기 때문에 중요한 설명변수들을 누락하거나 부적합한 변수를 첨가하는 오류 → 가우스-마르코프 정리가 적용되지 않게 되어 최소제곱추정량이 최우수 선형불편추정량(BLUE)이 되지 못함

6절 모형설정 오류와 기준 1. 적합한 변수의 누락 회귀모형을 설정하는 경우 중요한 설명변수가 누락되면 모형의 적합도가 낮아질 뿐만 아니라 최소제곱추정량에 의한 추정이 잘못되는 문제가 발생됨 예) 종속변수의 변화를 설명하기 위한 올바른 회귀모형은 다음과 같이 두 변수를 포함하는 경우라고 가정 하지만 회귀모형을 추정하기 위해 두 번째 변수를 누락하여 잘못 설정된 모형(misspecified model) 을 사용하였다고 가정

6절 모형설정 오류와 기준 이 경우 의 최소제곱추정값은 이 됨 → 대신 올바른 회귀모형으로부터 를 대입하여 정리하면 이 경우 의 최소제곱추정값은 이 됨 → 대신 올바른 회귀모형으로부터 를 대입하여 정리하면 이 됨. 여기서 으로 의 회귀계수임. 위 식의 양변에 기대값을 취하면 으로 은 불편추정량이 아님

6절 모형설정 오류와 기준 누락변수 편의(omitted variable bias) → 두 변수 가 서로 독립이 아니면 은 만큼 편의가 발생함 → 표본의 크기가 커져도 이 편의는 사라지지 않기 때문에 은 일치추정량이 아님 → 회귀모형에서 중요한 설명변수가 누락되면 오차항의 분산에 대한 추정량과 의 분산에 대한 추정량에 편의가 존재하게 되어 t-검정통계량이 잘못되기 때문에 계수에 대한 올바른 유의성 검정을 수행할 수 없게 됨

6절 모형설정 오류와 기준 2. 부적합한 변수의 추가 부적합한 변수를 회귀모형에 추가하여 추정하는 경우 발생하게 되는 문제. 즉, 올바른 회귀모형은 이지만 부적합한 변수 를 포함한 모형을 설정하였다고 가정 이 잘못 설정된 모형의 두 계수에 대한 최소제곱추정값은

6절 모형설정 오류와 기준 , 에 의해 → 중요한 설명변수가 누락되면 편의가 발생하는 경우와는 다르게 두 계수에 대한 최소제곱추정량은 불편추정량 → 모형설정 오류로 인해 의 분산에 대한 추정량이 이 아니라

6절 모형설정 오류와 기준 → 는 두 변수 의 상관계수 → 는 두 변수 의 상관계수 → 두 변수가 서로 독립이 아니면 올바른 모형을 추정하였을 때보다 의 분산이 커지는 비효율성이 발생. 최소제곱추정량은 더 이상 최우수 선형불편추정량(BLUE)이 되지 못함 3. 모형설정 기준 실증분석에서 올바른 모형을 설정하는 것은 매우 중요함 → 모형설정 오류가 발생하면 최소제곱추정량이 더 이상 최우수 선형불편추정량(BLUE)이 되지 못하기 때문 → 모형설정 오류를 판단할 기준이 필요함

6절 모형설정 오류와 기준 <부적합한 변수가 회귀모형에 추가되었는지 판단하기 위한 방법> - 개별 계수에 대한 유의성 검정(t-검정)과 두 개 이상의 계수에 대한 유의성 검정(F-검정)을 수행하여 부적합한 변수가 포함되었는지 판단 - 일반적 모형에서 유의성이 낮다고 예상되는 변수부터 순차적으로 줄여가면서 조정결정계수( )가 가장 크거나 정보기준(AIC 혹은 SIC)가 가장 작은 모형을 설정

6절 모형설정 오류와 기준 다음과 같은 기준에 의해 변수누락에 의한 모형설정 오류의 발생가능성을 의심할 수 있음 조정결정계수( )가 예상보다 낮다. Durbin-Watson 통계량을 계산하였을 때 심한 자기상관이 존재한다. t-검정통계량의 추정값이 예상보다 낮다. 계수의 부호가 예상이나 경제이론과 다르다.

4장 실증분석 – 영화수요의 결정 요인 → 우리나라의 영화 관람은 1960년대가 가장 활발 → 1970년대 영화수요는 급격히 감소하게 되었음 → 최근 한국영화의 계속적인 흥행으로 인해 우리나라 의 영화 관람은 약 30년간의 침체를 벗어나 재도약 <그림 4-8> 영화 총관람객 수(단위: 만명)

4장 실증분석 – 영화수요의 결정 요인 우리나라도 영화산업이 발전되면서 영화수요는 어떤 요인들에 의해 결정되는지 실증적인 분석이 이루어지고 있음 → 영화의 수요는 영화 관람료, 대체재(연극, 뮤지컬, 서커스, TV, DVD, 케이블 방송 등)의 가격, 1인당 국민소득, 영화공급, 스크린 수 등에 의해 결정 본 실증분석에서는 자료수집이 가능한 변수를 중심으로 다음과 같은 회귀모형을 설정

4장 실증분석 – 영화수요의 결정 요인 은 1인당 영화관람 횟수, 은 평균관람 요금, 는 스크린 수, 는 1인당 처분가능국민소득(단위: 천만원)이며, 이 수요모형의 적합성을 높이기 위해 에 자연로그를 취하였음 1. 영화수요 모형 추정 최소제곱추정을 위해 ETEX에서 ‘회귀 분석’ → ‘선형모형 추정’ → ‘보통최소제곱(OLS) 추정’을 차례로 선택 대화상자에서 각 데이터 범위를 입력 실행 버튼을 클릭

4장 실증분석 – 영화수요의 결정 요인 최소제곱추정 결과는 → 조정결정계수는 0.7039로 자료를 어느 정도 적합하고 있음 → 모형의 유의성 검정에서 F-통계량(= 35.0706)이 1% 유의수준의 임계값 4.31보다 크기 때문에 유의성이 없다는 귀무가설은 기각

4장 실증분석 – 영화수요의 결정 요인 → t-검정통계량에 의하면 평균관람 요금과 1인당 처분가능국민소득 변수는 통계적으로 유의성이 있으나 스크린 수는 통계적으로 유의성이 없음 → 실증분석 결과 영화관람 요금이 감소하거나 국민소득이 증가하면 영화관람 횟수는 증가하는 것으로 나타남

4장 실증분석 – 영화수요의 결정 요인 2. 모형설정의 오류로 인한 편의(bias) 적합한 변수가 누락된 모형설정의 오류가 어떤 문제를 야기하는지 알아보기 위해 1인당 처분가능국민소득 변수를 제외한 모형을 설정해보자. <그림 4-10> 적합한 변수가 누락된 경우 최소제곱추정 결과

4장 실증분석 – 영화수요의 결정 요인 적합한 변수가 누락된 모형을 최소제곱추정한 결과는 → 적합한 변수가 누락되는 경우 최소제곱추정량은 편의 추정량이 됨 → 두 모형의 최소제곱추정값을 비교해보면 영화수요의 변화를 설명하는 데 중요한 1인당 처분가능국민소득 변수가 누락됨으로 인해 영화관람 요금과 스크린 계수에 대한 추정값에 편의가 발생

4장 실증분석 – 영화수요의 결정 요인 → 1인당 처분가능국민소득 변수가 포함된 모형에서 유의성이 없었던 스크린 변수는 모형설정의 오류로 인해 유의성이 있는 모형으로 잘못 추정되고 있음 → 이런 모형설정의 오류는 조정결정계수 와 F-통계량의 감소, AIC 혹은 SIC 추정값의 증가, 오차항의 자기상관 증가(Durbin-Watson 통계값이 0에 보다 가까워짐) 등에 의해 탐지될 수 있음