회귀분석(Regression).

Slides:



Advertisements
Similar presentations
소명의식 기본심리욕구 소명실행 1) 삶의 만족 2) 심리적 안 녕 자아수용 긍정적 대인관계 자율성 환경에 대한 통제 삶의 목적 개인적 성장 자율성 유능성 관계성 일 가치감 일 목적지향 천직의식 기여와 헌신동기 이타행동 가설 1. 소명의식은 삶의 만족에 영향을 미칠 것이다.
Advertisements

Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.
재료수치해석 HW # 박재혁.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
공차 및 끼워맞춤.
회귀분석(Regression).
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
2007 겨울 통계강좌 중급과정 제9강 중다회귀분석의 해석 및 응용.
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
상관함수 correlation function
Missing Value.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
제4장 제어 시스템의 성능.
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
1.4 중첩된 한정기호 (Nested Quantifiers) 이산수학 (Discrete Mathematics)
Keller: Stats for Mgmt & Econ, 7th Ed
군집 분석.
27장. 모듈화 프로그래밍.
(independent variable)
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
회귀분석(Regression).
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
학과 : 국제개발 협력 대학원 과목명 : 국제 경영학과 담당 교수 : 백종희 학번 : 성명 : 샤르마 샤르원 발표 일 : 제 2 장 경제학 연구의 방법 경제학 들어가기
Fitting / Matrix / Excel
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
미분방정식.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
01 로그의 정의 ⑴ 일 때, 양수 에 대하여 을 만족시키는 실수 는 오직 하나 존재한다. 이때 를
Sampling Distributions
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
자녀의 심리적 안정도에 미치는 부모요인 분석.
Support Vector Machine
1. 접선의 방정식 2010년 설악산.
계량경제학 1.관광수요의 결정요인 2.관광수입과 환율의 상관 관계..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
기체상태와 기체분자 운동론!!!.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 12장  원가추정 강사: 정재을 과목: 원가회계.
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
추리통계학의 기본개념.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
수치해석 ch3 환경공학과 김지숙.
2007 겨울 통계강좌 중급과정 제12강 판별함수 분석의 이해 및 실전.
9장. spss statistics 20의 데이터 변수계산
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 3. 부등식의 영역에서 최대, 최소(5/5) 부등식 영역 수업계획 수업활동.
전류의 세기와 거리에 따른 도선 주변 자기장 세기 변화에 대한 실험적 고찰
문제의 답안 잘 생각해 보시기 바랍니다..
(Analysis of Variation, ANOVA)
Survey Sampling Sangji University.
피보나치수열에 대하여 한림초 5학년 신동오.
Presentation transcript:

회귀분석(Regression)

회귀분석은 독립변수가 종속변수에 미치는 인과적 영향(causal effects)을 통계적으로 추정하기 위한 목적으로 사용된다. 인과관계의 기본조건들 X와 Y간에 연관성이 존재하여야 한다. X가 Y에 비하여 시간적으로 선행되어야 한다. X와 Y간에 관계에 영향을 미치는 제3의 변수가 없어야 한다. X와 Y간에 관찰된 관계에 대한 이론적, 논리적 근거가 존재하여야 한다. ** 회귀분석도 위의 인과관계를 완벽하게 만족하는 것은 아니지만, 여타의 기법들에 비하여 비교적 인과관계에 가까운 결과를 제시한다.

회귀분석의 기본논리 이름 발병개원수(X) 삶의 질(Y) 김길동 1 1.2 박길동 4 2.5 이길동 6 3.1 조길동 8 4.6 홍길동 9 4.9 이상에서 발병 기간이 길수록 삶의 질이 점점 높다는 것을 대략 알 수 있다. 하지만 이상의 경우는 사례수가 5명의 자료일 뿐 모집단 S병원의 전체 뇌졸중 환자들의 경우에도 이와 같은 사실이 유지되는지의 여부는 별도의 통계검증법 을 적용하기 이전에는 확인 할 수 없다. 회귀분석은 이처럼 특정한 변수(X)가 특정한 변수(Y)에 미치는 인과적 영향을 통계적으로 검증하려는 목적으로 사용

S병원 뇌졸중 환자들의 발병개월수 및 삶의 질에 대한 가상적 점산도 d Y y D=y-Y 점산도내에 분포된 모든 점들의 정중간을 관통하는 선을 말하는데, 이러한 선을 추정적으로 구성한 직선이다.

이상의 선이 지니는 특별한 통계적 속성이란? X값과 Y값이 실제로 만나는 각 지점에서 이 선(혹은 추정치)까지의 거리의 절대합이 최소화되는 선이라는 사실이다. ei=yi-Yi 를 최소화 시키기 위한 최적의 선을 최소자승회귀선(Ordinary Least Squares Regression Line 혹은 OLS Regression Line)이라고 부른다.

최소자승회귀선이란? X를 바탕으로 Y를 추정하고 예측함에 있어서 오차(ei)를 최소화시키는 최적의 선을 의미하며, 보다 구체적으로는 관찰값(yi)과 추정치(Yi)의 차(혹은 거리)의 자승합을 최소화시키는 최적의 선을 의미하는 것이다. 결론적으로 표본자료로 부터 최소자승회귀선을 찾아내고 찾아낸 최소자승회귀선을 근거로 통계적 유의도검증을 행하는 것이 회귀분석을 행하는 구체적 목적이라고 말할 수 있을 것이다. 최소자승회귀선은 표본자료에 나타난 X의 Y에 대한 인과적 영향을 제시하는 통계치를 포함하고 있는데, 이 통계치가 과연 모집단에서도 유의미한가를 검증하는 것이 바로 회귀분석의 목적이다.

최소자승 기준 실제로는 일직선으로 나타나지 않는 X와 Y 값들에 대해, 회귀분석은 이들 값들을 가장 적절하게 대변하는 직선을 만들어 낸다. 이 직선은 관찰값들을 최대한 반영할 수 있어야 하는데, 그러자면 실제 관찰값들과 최소한의 차이를 내게 하는 직선을 구해야 한다. 이 과정에서 동원되는 것이 최소자승 기준이다.

최소자승회귀선 구하기 최소자승의 기준 우리가 구하고자 하는 식은; Y=a + bX 라는 형태를 취하는 하나의 직선을 대수적으로 구하는 것이다. 기울기b와 절편 a를 구할 공식을 찾아내어야 하는 것이다. 위의 그래프에서 편차 d들을 가급적이면 최소화 시티는 것이다. 편차들의 총합계인 ∑d를 최소화시키려 들 수 있을지 모른다. 그러나 어떤 점들은 직선 위에 있고, 또 어떤 점들은 아래에 있으니, 이들을 합하면 거의 ‘0’으로 수렴하게 된다. 이런 문제를 해결하기 위해서 편차들을 모두 양수가 되도록 제곱한 다음, 그것을 전부 더한다.

최소제곱 공식 최소제곱 기울기 b를 구하는 공식은 B=∑(X-Xbar)(Y-Ybar) / ∑(X-Xbar)square 기울기는 Y축의 변화량을 X축의 변화량으로나누는 것이다. 자료 편차형 곱 X Y x=X-Xbar y=Y-Ybar xy x자승 100 40 200 50 300 400 70 500 65 600 700 80 Mean=400 Mean=60 16,500 280,000

기울기 b의 의미 직선의 기울기는 X 방향의 오른쪽으로 한 단위 이동시켰을 때 일어나는 Y의 높이의 변화이다. 즉, 위의 계산식의 회귀식을 구하면, Y=36.4 + .059 X이다. -X의 값을 75에서 76으로 1 단위 증가시켰다고 하면, 원래 Y=36.4+ .059(75) 새로운 Y=36.4+ .059(75+1) =36.4+ .059(75)+.059 =원래 Y + .059 이다. 즉, Y는 X값이 1 증가함에 따라 .059가 증가되었는데, 이것은 바로 b인 것이다.

회귀식 및 기울기

회귀분석의 모형 회귀분석은 종속변수를 추정하기 위하여 모두 몇 가지 독립변수가 사용되었는가에 따라 단순 회귀분석 및 중다회귀분석으로 구분한다.

회귀분석과 선형회귀 선형함수를 사용하는 목적은 회귀분석은 선형회귀는 그것을 기준으로 변수들간에 어느 정도의 오류들이 나타나는지를 계산해 내기 위한 것 선형함수에 비추어 보아서 오류들이 지나칠 때는 두 변수는 서로 관계가 없다고 판단하며, 선형함수에 가깝게 관찰값들이 나타난다면 두 변수는 서로 관계가 있다고 판단하는 것이다. 회귀분석은 함수를 이용하여 두 변수간의 관계를 분석하기 위한 방법 선형회귀는 두 변수간의 함수적 관계를 선형관계로 나타내는 것

여기에서 주어진 관찰값에서 얻어지는 회귀방정식이 정확하게 산출된 것이라면, 21.16은 최소자승 기준에 적합한 최소한의 오류값이 되어야 한다.

모집단에 대한 추정 앞의 추정에서 X의 Y에 대한 인과적 영향을 제시하는 byx는 다만 표본자료에서 나타난 영향일 뿐 모집단인 S병원 전체 환자의 경우에도 그 같은 인과적 영향이 존재하는지의 여부는 통계적 검증을 행하기 이전에는 확일 할 수가 없는 문제이다. 이를 설명하기 위해서 모집단에 대한 회귀선으로 표현하면 다음과 같다. 분포에서 구해진 byx의 통계적 유의도에 대한 검증으로 축소되는데, 구체적으로 이 같은 검증이 어떤 방식으로 진행되는가를 알아보기 위하여 회귀분석의 절차 를 살펴보도록 하겠다.

회귀분석의 절차

회귀분석에서 표본통계치를 산출하는 방식 회귀분석에서는 표본자료에서 구해진 byx값을 바탕으로 t-표본통계치를 산출하여 t-검증을 행한다. 구체적으로 t-표본통계치가 어떻게 산출되는지를 살펴보기 위해선 회귀분석의 기본논리에 대해 알아야 한다.

변량분석의 논리 이용 변량분석에서 독립변수에 의해서 설명되어지는 처리효과와 그렇지 못한 오차를 파악하기 위하여 표본변량을 계산하는 공식의 분자에 해당하는 (Y-Ybar)를 두 가지 상호 독립적인 부분으로 구분하여 설명하였었다. 회귀분석에서도 이와 비슷한 논리로 설명이 가능하다.

집단내이산 집단간이산 전체이산 전체자승합(SST) [ 0 ] 집단내자승(SSW) 집단간자승(SSB) SST=SSW+SSB

전체자승합(SSTotal) 회귀자승합(SSRegression) 오차자승합(SSError)

1. SSerror 는 종속변수(Y)의 변량 가운데 모형에 설정된 독립변수(X)에 의하여 설명되어지지 않는 오차를 의미하고, 2. SSregression은 설정된 독립변수에 의하여 설명되어지는 종속변수의 변량 3. SStotal 은 모형에 설정된 독립변수에 의하여 설명되어지지 않는 부분(SSerror)과 설명되어지는 부분(SS regression)의 합을 의미한다.

회귀분석의 요약 표

이상의 논리들을 통해서 구해진 각종 값들을 바탕으로 회귀분석의 byx에 대한 유의도 검증을 행할 수 있는데, 구체적으로 t-표본통계치는 다음의 공식으로 계산된다.

회귀모형의 전제조건들 모든 Xi에 대하여 동일한 분산 σ²을 갖는다 모든 분포들의 평균들은 모집단의 회귀선으로 알려진, 하나의 직선, Yi의 기대값=μi=α+βXi 상에 놓이게 된다. 모집단 모수들인 α와 β가 그 선을 결정짓는데, 그것들은 표본 정보로부터 추정된다. 무작위 변수 Yi는 통계적으로 독립적이다. 예를 들어, 만일 Y1이 크게 나타났다 해도, Y2가 크게 나타나도록 기대할 이유가 없는 것이다. 다시 말해, Y2는 Y1과 통계적으로 관계가 없다.

추출된 표본은 무작위추출과정을 거친 것 모형에 설정된 독립변수와 종속변수 모두 연속형 변수이어야 한다. 독립변수와 종속변수 사이에는 단선적 관계가 존재하여야 한다. 각각의 X 값들(Xi)에 해당하는 Y 값들(Yi)은 모두 정규분포를 형성하여야 한다. 독립변수를 바탕으로 종속변수를 추정하는 과정에서 생겨나는 오차(ei)는 평균이 ‘0’이고, 일정한 변량을 지니는 정규분포를 형성하여야 한다.

Lab Regression

회귀분석의 기본논리 이름 발병개원수(X) 삶의 질(Y) 김길동 1 1.2 박길동 4 2.5 이길동 6 3.1 조길동 8 4.6 홍길동 9 4.9 이상에서 발병 기간이 길수록 삶의 질이 점점 높다는 것을 대략 알 수 있다. 하지만 이상의 경우는 사례수가 5명의 자료일 뿐 모집단 S병원의 전체 뇌졸중 환자들의 경우에도 이와 같은 사실이 유지되는지의 여부는 별도의 통계검증법 을 적용하기 이전에는 확인 할 수 없다. 회귀분석은 이처럼 특정한 변수(X)가 특정한 변수(Y)에 미치는 인과적 영향을 통계적으로 검증하려는 목적으로 사용

가설검증의 일반적 절차 H0을 진술한다. H1을 진술한다. 알파-오류를 설정한다. 표본 통계치를 계산한다. 기각치를 구한다. 통계적 결론을 내린다. 실질적 결론을 내린다.

R² 정의 독립변수와 종속변수간의 관계의 강도를 파악하고, 독립변수에 의하여 설명되어지는 종속변수의 변량을 특정한 수치로 제시하는 것이 가능하다. 이를 구하는 공식은, R² = SSregression/SStotal=1-(SSerror/SStotal) 이를 결정계수(Coefficient of Determination)이라고 부른다.

상관관계계수는 R²에 루트근호를 붙인 값을 일컬어 상관관계계수라고 부르며, 이는 라는 기호로 표현되고 주로 다음의 공식이 이용된다. γxy = sxy/sx sy X와 Y 사이에 연관관계의 강도를 제시하는 상관관계 수치로써, 인과관계를제시하는 통계치는 아니다. -1에서부터 +1까지의 수치를 지니는데, -1이면 X와 Y간에 완벽한 부적 상관관계가 존재함을 뜻하고, 0이면 상관관계가 존재하지 않음을 뜻하며, +1이면 X와 Y 사이에는 정적 상관관계가 존재함을 나타낸다.

중다회귀분석의 기초개념 중다회귀분석은 회귀계수인 베타(β) 계수를 산출하고 이를 통해 각 독립변인들이 상대적으로 종속변인을 얼마나 잘 예측하고 설명하는가를 경험적으로 검증하게 해준다. 회귀계수인 β 계수의 목적은 측정을 통해 얻은 Y의 실제값과 독립변인들을 통해 예측되는 Y의 실제값 간의 차이를 최소화하는 것으로, 보통 편차제곱의 합을 통해 차이가 최소화되는 직선을 얻는다(최소자승의 원리) 관찰된 Y값과 예측되는 Y값 간의 상관을 최적화하는 것으로, 최소자승을 통해 편차가 최소화될 때 예측되는 Y값과 관찰된 Y값의 상관이 가장 높아지며, 이를 통해 독립변인의 효과를 파악할 수 있게 된다. 여러 개의 독립변인이 있을 때 어떤 변인이 값의 차이를 최소화시키는가에 따라 상대적 기여도가 결정된다.

예제 가정번호 보유통장수 통장보유평균 편차(오차) 편차제곱 1 6 8 2 4 5 3 9 7 10 -2 11 -3 -1 합 80 10 -2 11 -3 -1 합 80 30

사용목적 변인간의 관계성을 검증한다. 독립변인의 상대적 기여도를 검증한다. 독립변인을 통제한 효과를 검증한다. 독립변인들이 종속변인을 설명하는 것이 우연적인 것인가를 검증함으로써 회귀모형의 적합성을 판단한다(R²=0인가의 여부를 판단). 독립변인의 상대적 기여도를 검증한다. 비표준화계수와 표준화계수의 차이? 독립변인을 통제한 효과를 검증한다. 몇 개의 독립변인의 효과를 통제한 상태에서 연구자가 보고자 하는 변인의 순수한 효과를 검증할 수 있다. 새로운 독립변인을 추가하여 그 효과를 검증한다. 독립변인의 상호작용효과를 검증한다. 여러 회귀모델간의 비교가 가능하다.

기본가정 사례수는 최소한 독립변인의 20배 이상이어야 한다. 결측치가 포함되어 있으면 훨씬 많은 사례수가 있어야 한다 종속변인이 편포(skewed distribution)되어 있어도 정상성을 확보하기 위해서 많은 사례수가 있어야 한다. 단계적회귀분석(stepwise regression)을 실시하기 위해서는 약 1:40의 비율이 되어야 한다.

반응이나 응답의 극단치는 반드시 잡아내야한다. 회귀분석에서 극단치가 발견되면 그 영향을 제거하기 위해서 극단치를 포함한 사례는 제외하거나 극단치를 포함한 변인을 제외하거나 점수분포가 정상성을 이루도록 자료를 적절히 변환시켜주어야 한다. 그래픽적 방법 Mahalanobis의 거리; 독립변인의 평균으로부터 떨어진 거리를 표준화시킨 값으로, 이 값이 크다는 것은 독립변인의 분포에서 멀리 떨어져 있음을 나타낸다. Cook의 거리; 영향이 있다고 판단되는 사례를 제거하였을 때의 잔차의 변화를 보여준다. 값이 크다는 것은 분석에서 영향을 주는 극단치일 가능성이 높아지고, 이 값이 [1]보다 크면 극단치일 가능성이 높다. 유의도가 제시된다(p<0.05이면 극단치). 극단치를 제외시키고 회귀분석을 한 후와 이전의 값을 상호 비교분석해서 극단치를 처리여부를 결정한다.

잔차의 정상성과 선형성, 동변량성 및 독립성을 만족시켜라. 관찰된 종속변인과 예측된 종속변인 간의 차이 즉, 잔차(residual)가 예측된 종속변인 점수에 대해 정상분포하여야 하고, 잔차는 예측된 종속변인 점수와 직선적 관계를 가져야 하며, 예측된 종속변인 점수의 잔차는 모든 예측변인에 대해 동일하여야 한다. 독립성은 연속적으로 수집된 자료의 오차항의 독립성은 Durbin-Watson의 d 통계치를 통해 판단할 수 있다. 이 통계치가 유의미하면, 오차가 자기상관을 갖는 것이다(잔차가 독립적이지 않음). 완전정적 상관= [0] 완전부적 상관= [4] 상관이 없을 때= [2] 정도의 값을 갖는다. 따라서 2에 접근하면 오차항의 자기 상관이 없는 것으로 판단한다.

독립변인간에 상관을 체크하라(다중공선성) 실제 회귀계수가 계산되는 과정에서 독립변인의 역상관행렬이 포함되는데, 이때 완전히 상관이 일치한 변인을 통해서는 역행렬을 구할 수 없게 된다. 상관이 높은 경우는 신뢰할 수 없는 역행렬이 산출된다. 이런 상관이 지나치게 높은 경우, 즉 독립변인간의 다중공선성(multicollinearity)이 존재하는 경우에는 종속변인을 설명하는 개별 변인의 변량을 해석하는 것이 모호해지며, 회귀계수를 비교하는 것이 무의미해진다. 이를 해결하는 방법은 독립변인간의 기초 상관행렬을 통해 변인간 관계성을 파악한다. 이를 통해서 여러 변인간의 다중공선상을 구체적으로 파악하기는 어려우나 다중공선상이 존재하는 지의 여부를 판단할 수 있다. 공차한계의 원리; 1에 접근하면 변인간에 다중공선상이 없다. 상승변량(VIF) 값; 각 회귀계수의 변량 증가분을 의미하기 때문에 다중공선성의 지수로 적합하다. 그 값이 [1]에 접근하면 다중공선성이 없는 것으로 판단하는데, 만일 값이 [10]이상이 되면 다중공선성이 있는 것으로 간주된다.

중다회귀분석 대인매력에 대한 중다회귀분석 연구 매력=B0+B1(외모평가)+B2(유머능력)+B3(성격)+B4(지능)

중다회귀분석 Lab