회귀분석(Regression)
회귀분석은 독립변수가 종속변수에 미치는 인과적 영향(causal effects)을 통계적으로 추정하기 위한 목적으로 사용된다. 인과관계의 기본조건들 X와 Y간에 연관성이 존재하여야 한다. X가 Y에 비하여 시간적으로 선행되어야 한다. X와 Y간에 관계에 영향을 미치는 제3의 변수가 없어야 한다. X와 Y간에 관찰된 관계에 대한 이론적, 논리적 근거가 존재하여야 한다. ** 회귀분석도 위의 인과관계를 완벽하게 만족하는 것은 아니지만, 여타의 기법들에 비하여 비교적 인과관계에 가까운 결과를 제시한다.
회귀분석의 기본논리 이름 발병개원수(X) 삶의 질(Y) 김길동 1 1.2 박길동 4 2.5 이길동 6 3.1 조길동 8 4.6 홍길동 9 4.9 이상에서 발병 기간이 길수록 삶의 질이 점점 높다는 것을 대략 알 수 있다. 하지만 이상의 경우는 사례수가 5명의 자료일 뿐 모집단 S병원의 전체 뇌졸중 환자들의 경우에도 이와 같은 사실이 유지되는지의 여부는 별도의 통계검증법 을 적용하기 이전에는 확인 할 수 없다. 회귀분석은 이처럼 특정한 변수(X)가 특정한 변수(Y)에 미치는 인과적 영향을 통계적으로 검증하려는 목적으로 사용
S병원 뇌졸중 환자들의 발병개월수 및 삶의 질에 대한 가상적 점산도 d Y y D=y-Y 점산도내에 분포된 모든 점들의 정중간을 관통하는 선을 말하는데, 이러한 선을 추정적으로 구성한 직선이다.
이상의 선이 지니는 특별한 통계적 속성이란? X값과 Y값이 실제로 만나는 각 지점에서 이 선(혹은 추정치)까지의 거리의 절대합이 최소화되는 선이라는 사실이다. ei=yi-Yi 를 최소화 시키기 위한 최적의 선을 최소자승회귀선(Ordinary Least Squares Regression Line 혹은 OLS Regression Line)이라고 부른다.
최소자승회귀선이란? X를 바탕으로 Y를 추정하고 예측함에 있어서 오차(ei)를 최소화시키는 최적의 선을 의미하며, 보다 구체적으로는 관찰값(yi)과 추정치(Yi)의 차(혹은 거리)의 자승합을 최소화시키는 최적의 선을 의미하는 것이다. 결론적으로 표본자료로 부터 최소자승회귀선을 찾아내고 찾아낸 최소자승회귀선을 근거로 통계적 유의도검증을 행하는 것이 회귀분석을 행하는 구체적 목적이라고 말할 수 있을 것이다. 최소자승회귀선은 표본자료에 나타난 X의 Y에 대한 인과적 영향을 제시하는 통계치를 포함하고 있는데, 이 통계치가 과연 모집단에서도 유의미한가를 검증하는 것이 바로 회귀분석의 목적이다.
최소자승 기준 실제로는 일직선으로 나타나지 않는 X와 Y 값들에 대해, 회귀분석은 이들 값들을 가장 적절하게 대변하는 직선을 만들어 낸다. 이 직선은 관찰값들을 최대한 반영할 수 있어야 하는데, 그러자면 실제 관찰값들과 최소한의 차이를 내게 하는 직선을 구해야 한다. 이 과정에서 동원되는 것이 최소자승 기준이다.
최소자승회귀선 구하기 최소자승의 기준 우리가 구하고자 하는 식은; Y=a + bX 라는 형태를 취하는 하나의 직선을 대수적으로 구하는 것이다. 기울기b와 절편 a를 구할 공식을 찾아내어야 하는 것이다. 위의 그래프에서 편차 d들을 가급적이면 최소화 시티는 것이다. 편차들의 총합계인 ∑d를 최소화시키려 들 수 있을지 모른다. 그러나 어떤 점들은 직선 위에 있고, 또 어떤 점들은 아래에 있으니, 이들을 합하면 거의 ‘0’으로 수렴하게 된다. 이런 문제를 해결하기 위해서 편차들을 모두 양수가 되도록 제곱한 다음, 그것을 전부 더한다.
최소제곱 공식 최소제곱 기울기 b를 구하는 공식은 B=∑(X-Xbar)(Y-Ybar) / ∑(X-Xbar)square 기울기는 Y축의 변화량을 X축의 변화량으로나누는 것이다. 자료 편차형 곱 X Y x=X-Xbar y=Y-Ybar xy x자승 100 40 200 50 300 400 70 500 65 600 700 80 Mean=400 Mean=60 16,500 280,000
기울기 b의 의미 직선의 기울기는 X 방향의 오른쪽으로 한 단위 이동시켰을 때 일어나는 Y의 높이의 변화이다. 즉, 위의 계산식의 회귀식을 구하면, Y=36.4 + .059 X이다. -X의 값을 75에서 76으로 1 단위 증가시켰다고 하면, 원래 Y=36.4+ .059(75) 새로운 Y=36.4+ .059(75+1) =36.4+ .059(75)+.059 =원래 Y + .059 이다. 즉, Y는 X값이 1 증가함에 따라 .059가 증가되었는데, 이것은 바로 b인 것이다.
회귀식 및 기울기
회귀분석의 모형 회귀분석은 종속변수를 추정하기 위하여 모두 몇 가지 독립변수가 사용되었는가에 따라 단순 회귀분석 및 중다회귀분석으로 구분한다.
회귀분석과 선형회귀 선형함수를 사용하는 목적은 회귀분석은 선형회귀는 그것을 기준으로 변수들간에 어느 정도의 오류들이 나타나는지를 계산해 내기 위한 것 선형함수에 비추어 보아서 오류들이 지나칠 때는 두 변수는 서로 관계가 없다고 판단하며, 선형함수에 가깝게 관찰값들이 나타난다면 두 변수는 서로 관계가 있다고 판단하는 것이다. 회귀분석은 함수를 이용하여 두 변수간의 관계를 분석하기 위한 방법 선형회귀는 두 변수간의 함수적 관계를 선형관계로 나타내는 것
여기에서 주어진 관찰값에서 얻어지는 회귀방정식이 정확하게 산출된 것이라면, 21.16은 최소자승 기준에 적합한 최소한의 오류값이 되어야 한다.
모집단에 대한 추정 앞의 추정에서 X의 Y에 대한 인과적 영향을 제시하는 byx는 다만 표본자료에서 나타난 영향일 뿐 모집단인 S병원 전체 환자의 경우에도 그 같은 인과적 영향이 존재하는지의 여부는 통계적 검증을 행하기 이전에는 확일 할 수가 없는 문제이다. 이를 설명하기 위해서 모집단에 대한 회귀선으로 표현하면 다음과 같다. 분포에서 구해진 byx의 통계적 유의도에 대한 검증으로 축소되는데, 구체적으로 이 같은 검증이 어떤 방식으로 진행되는가를 알아보기 위하여 회귀분석의 절차 를 살펴보도록 하겠다.
회귀분석의 절차
회귀분석에서 표본통계치를 산출하는 방식 회귀분석에서는 표본자료에서 구해진 byx값을 바탕으로 t-표본통계치를 산출하여 t-검증을 행한다. 구체적으로 t-표본통계치가 어떻게 산출되는지를 살펴보기 위해선 회귀분석의 기본논리에 대해 알아야 한다.
변량분석의 논리 이용 변량분석에서 독립변수에 의해서 설명되어지는 처리효과와 그렇지 못한 오차를 파악하기 위하여 표본변량을 계산하는 공식의 분자에 해당하는 (Y-Ybar)를 두 가지 상호 독립적인 부분으로 구분하여 설명하였었다. 회귀분석에서도 이와 비슷한 논리로 설명이 가능하다.
집단내이산 집단간이산 전체이산 전체자승합(SST) [ 0 ] 집단내자승(SSW) 집단간자승(SSB) SST=SSW+SSB
전체자승합(SSTotal) 회귀자승합(SSRegression) 오차자승합(SSError)
1. SSerror 는 종속변수(Y)의 변량 가운데 모형에 설정된 독립변수(X)에 의하여 설명되어지지 않는 오차를 의미하고, 2. SSregression은 설정된 독립변수에 의하여 설명되어지는 종속변수의 변량 3. SStotal 은 모형에 설정된 독립변수에 의하여 설명되어지지 않는 부분(SSerror)과 설명되어지는 부분(SS regression)의 합을 의미한다.
회귀분석의 요약 표
이상의 논리들을 통해서 구해진 각종 값들을 바탕으로 회귀분석의 byx에 대한 유의도 검증을 행할 수 있는데, 구체적으로 t-표본통계치는 다음의 공식으로 계산된다.
회귀모형의 전제조건들 모든 Xi에 대하여 동일한 분산 σ²을 갖는다 모든 분포들의 평균들은 모집단의 회귀선으로 알려진, 하나의 직선, Yi의 기대값=μi=α+βXi 상에 놓이게 된다. 모집단 모수들인 α와 β가 그 선을 결정짓는데, 그것들은 표본 정보로부터 추정된다. 무작위 변수 Yi는 통계적으로 독립적이다. 예를 들어, 만일 Y1이 크게 나타났다 해도, Y2가 크게 나타나도록 기대할 이유가 없는 것이다. 다시 말해, Y2는 Y1과 통계적으로 관계가 없다.
추출된 표본은 무작위추출과정을 거친 것 모형에 설정된 독립변수와 종속변수 모두 연속형 변수이어야 한다. 독립변수와 종속변수 사이에는 단선적 관계가 존재하여야 한다. 각각의 X 값들(Xi)에 해당하는 Y 값들(Yi)은 모두 정규분포를 형성하여야 한다. 독립변수를 바탕으로 종속변수를 추정하는 과정에서 생겨나는 오차(ei)는 평균이 ‘0’이고, 일정한 변량을 지니는 정규분포를 형성하여야 한다.
Lab Regression
회귀분석의 기본논리 이름 발병개원수(X) 삶의 질(Y) 김길동 1 1.2 박길동 4 2.5 이길동 6 3.1 조길동 8 4.6 홍길동 9 4.9 이상에서 발병 기간이 길수록 삶의 질이 점점 높다는 것을 대략 알 수 있다. 하지만 이상의 경우는 사례수가 5명의 자료일 뿐 모집단 S병원의 전체 뇌졸중 환자들의 경우에도 이와 같은 사실이 유지되는지의 여부는 별도의 통계검증법 을 적용하기 이전에는 확인 할 수 없다. 회귀분석은 이처럼 특정한 변수(X)가 특정한 변수(Y)에 미치는 인과적 영향을 통계적으로 검증하려는 목적으로 사용
가설검증의 일반적 절차 H0을 진술한다. H1을 진술한다. 알파-오류를 설정한다. 표본 통계치를 계산한다. 기각치를 구한다. 통계적 결론을 내린다. 실질적 결론을 내린다.
R² 정의 독립변수와 종속변수간의 관계의 강도를 파악하고, 독립변수에 의하여 설명되어지는 종속변수의 변량을 특정한 수치로 제시하는 것이 가능하다. 이를 구하는 공식은, R² = SSregression/SStotal=1-(SSerror/SStotal) 이를 결정계수(Coefficient of Determination)이라고 부른다.
상관관계계수는 R²에 루트근호를 붙인 값을 일컬어 상관관계계수라고 부르며, 이는 라는 기호로 표현되고 주로 다음의 공식이 이용된다. γxy = sxy/sx sy X와 Y 사이에 연관관계의 강도를 제시하는 상관관계 수치로써, 인과관계를제시하는 통계치는 아니다. -1에서부터 +1까지의 수치를 지니는데, -1이면 X와 Y간에 완벽한 부적 상관관계가 존재함을 뜻하고, 0이면 상관관계가 존재하지 않음을 뜻하며, +1이면 X와 Y 사이에는 정적 상관관계가 존재함을 나타낸다.