단순(선형)회귀분석
n개의 관찰 값 : 두 변수 X와 Y 예 : 서강대 학생 50명의 키와 몸무게 측정 키 : X, 몸무게 : Y 학생 X Y 175 70 167 53 100 183 85
모수들(parameters) 간에 선형관계 단순선형 회귀분석 두 개 또는 그 이상의 변수 간의 함수관계를 추정하는 방법 모수들(parameters) 간에 선형관계 설명변수가 1개인 경우 예 독립변수 :1개 모수들이 선형관계
모집단 일반적으로 모든 점들이 직선상에 있지 않다. (즉 일반적으로 )
: 교란항(disturbance term) 일반적으로 , 왜 ? (1) 생략된 변수들 때문 (2) Model misspecification (3) 인간행위의 무작위성 (4) 의 측정오차
가정 (1) (2) 와 상관없이 모두 같은 분산을 갖는다. (3) 표본에서 교란항의 공분산은 모두 영이다. (4)
일 때 Y값은 여기 어디에 나타남 그러나 기대값으로는 ; 분포의 분산이 모두 동일
예 : 다음과 같은 조건이 주어져 있다고 하자. and 25 20 15 10 5
<표본 회귀선> ; 모집단 회귀선 ; 표본 회귀선 ; 회귀계수 ; 잔차(residual) 표본을 이용하는 경우의 회귀선과 모집단 전체의 회귀선 간에는 차이가 발생할 수 있다. 궁극적으로는 모수인 와 를 알고자 하나 표본을 추출하여 와 를 이용하여 모수인 와 를 추측하게 된다.
(1) 와 를 구하는 공식을 어떻게 도출해야 하는가 ? (2) 도출된 공식(estimator)은 ? (3) 이 공식은 어떠한 성격을 가지고 있는가 ? 이 공식은 확률변수 분산공식의 도출 (4) 설명력 ? (5) 실제 자료를 이용하여 구하는 점 추정치 (6) 가설검정 (7) 여러 가지 현실 예
1. 최소 이승법 [(Ordinary) Least Squared Method] “OLS 추정법”이라고도 불리운다. 와 를 구하는 공식을 어떻게 도출해야 하는가 ?
표본(sample)
(1) 가능한 들이 작도록 와 를 구하여야 하는가 ? 즉 No ! (2) No ! 의 의미 ? 을 지난다.
을 지나는 모든 직선은 의 조건을 만족시킨다. 즉 AB의 직선이 된다는 보장이 없다.
따라서 이 하나의 조건이 되지만 또 다른 조건이 필요 ! 미지수 2개 : 식이 2개 필요한데 1개의 식만 주어진 것임 (3) ; 최소 이승법 여기서
2. 공식의 도출 where and ; 미지수 2개, 식 2개
(1) or (1’) (1) (1’’)
(2) or (2’)
(1’) (2’) 를 소거하기 위해 양변을 n으로 나누면 or or
From (1’’) 따라서 추정량들(estimators) or
3. 도출된 공식의 특성은 ? 와 의 특성 ? (1) Linear estimator(선형 추정량) : 확률변수 혹은 와 선형관계 : fixed
따라서 와 는 들과 선형관계에 있다. (2) Unbiased estimator(불편 추정량) : population : sample
(3) Best estimator (최량 추정량) 선형 불편 추정량 중에서 가장 분산이 작은 추정량이다. (도출은 생략) Linear estimator Unbiased estimator Best estimator BLUE(Best Linear Unbiased Estimator)
Note:
를 대신에 이용(증명은 생략)
4. 설명력 ? 관찰치의 값들의 차이 = 설명변수인 에 의해 설명되어지는 부분( = A) 관찰치의 값들의 차이 = 설명변수인 에 의해 설명되어지는 부분( = A) + 설명변수 에 의해 설명되지 않는 부분(= B) 상대적으로 A의 부분 > B부분 설명력이 높다 상대적으로 A의 부분 < B부분 설명력이 낮다
(a) (b) 어느 직선의 방정식이 점들을 보다 더 설명을 잘 할 수 있다고 보는가 ?
설명변수에 의해 설명되지 않는 부분 설명변수에 의해 설명되는 부분
설명력을 나타낼 수 있는 기준으로 삼을 수 있는 공식은 ? 만약 단순히 합하면 (항상) 따라서 제곱을 하여 합한다.
잔차변동 (Error Sum of Squares;ESS) 회귀변동 (Regression Sum of Squares; RSS) 전변동 (Total Sum of Squares; TSS) TSS = RSS + ESS ; 결정계수 설명력을 측정하는 공식
두 변수 X, Y (n = 31) (1) a, b = ?
(2)
(3)
5. 실제 자료의 적용? Excel을 이용한 자료의 예
6. 신뢰구간 및 가설검정 도출과정은 생략
<신뢰구간>
<가설검정> 예 : 의미 : 설명변수 X가 들어가야 하는 변수인가 ? (1) 이 맞다면 (2) 5%의 유의수준에서 기각역의 임계값 = (3) 즉 설명변수 X가 Y를 설명하는데 필요
Capital Asset Pricing Model(CAPM) : 예 7. 여러 가지 현실 예 식품 지출비와 소득간의 관계 : 예 햄버거 가격과 소비량간의 관계 : 예 Capital Asset Pricing Model(CAPM) : 예 을 추정하고 에 대한 가설 검정
소득과 세금간의 관계: 예 평균세율과 한계세율 광고가 기업수비에 미치는 영향 : 예