회귀분석(Regression).

Slides:



Advertisements
Similar presentations
소명의식 기본심리욕구 소명실행 1) 삶의 만족 2) 심리적 안 녕 자아수용 긍정적 대인관계 자율성 환경에 대한 통제 삶의 목적 개인적 성장 자율성 유능성 관계성 일 가치감 일 목적지향 천직의식 기여와 헌신동기 이타행동 가설 1. 소명의식은 삶의 만족에 영향을 미칠 것이다.
Advertisements

재료수치해석 HW # 박재혁.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
• 수학 • 6학년 나단계 • 7. 연비>1/9 홈 두 수의 대응 관계를 , 를 사용한 식으로 나타내기 수업활동 수업계획.
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
ANOVA-test.
회귀분석(Regression).
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
컴퓨터 프로그래밍 기초 [Final] 기말고사
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
- 1변수 방정식의 solution 프로그램 (Bisection method, Newton-Raphson method)
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
1.4 중첩된 한정기호 (Nested Quantifiers) 이산수학 (Discrete Mathematics)
Keller: Stats for Mgmt & Econ, 7th Ed
프로그래밍 개요
군집 분석.
(independent variable)
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
회귀분석(Regression).
Metal Forming CAE Lab., Gyeongsang National University
두 모집단에 대한 검정.
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
학과 : 국제개발 협력 대학원 과목명 : 국제 경영학과 담당 교수 : 백종희 학번 : 성명 : 샤르마 샤르원 발표 일 : 제 2 장 경제학 연구의 방법 경제학 들어가기
Fitting / Matrix / Excel
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
미분방정식.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
01 로그의 정의 ⑴ 일 때, 양수 에 대하여 을 만족시키는 실수 는 오직 하나 존재한다. 이때 를
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 2. 연립부등식의 영역 (3/5) 부등식 영역 수업계획 수업활동.
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 1. 부등식의 영역(2/5) 부등식 영역 수업계획 수업활동.
이차방정식과 이차함수의 관계 이차함수의 그래프와 축의 위치 관계 이차방정식 의 그래프와 축이 만나는 점의 좌표는 이차방정식
Sampling Distributions
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
Support Vector Machine
원의 방정식 원의 방정식 x축, y축에 접하는 원의 방정식 두 원의 위치 관계 공통접선 원과 직선의 위치 관계
1. 접선의 방정식 2010년 설악산.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 12장  원가추정 강사: 정재을 과목: 원가회계.
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
추리통계학의 기본개념.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 3. 부등식의 영역에서 최대, 최소(5/5) 부등식 영역 수업계획 수업활동.
전류의 세기와 거리에 따른 도선 주변 자기장 세기 변화에 대한 실험적 고찰
Survey Sampling Sangji University.
피보나치수열에 대하여 한림초 5학년 신동오.
Presentation transcript:

회귀분석(Regression)

회귀분석은 독립변수가 종속변수에 미치는 인과적 영향(causal effects)을 통계적으로 추정하기 위한 목적으로 사용된다. 인과관계의 기본조건들 X와 Y간에 연관성이 존재하여야 한다. X가 Y에 비하여 시간적으로 선행되어야 한다. X와 Y간에 관계에 영향을 미치는 제3의 변수가 없어야 한다. X와 Y간에 관찰된 관계에 대한 이론적, 논리적 근거가 존재하여야 한다. ** 회귀분석도 위의 인과관계를 완벽하게 만족하는 것은 아니지만, 여타의 기법들에 비하여 비교적 인과관계에 가까운 결과를 제시한다.

회귀분석의 기본논리 이름 발병개원수(X) 삶의 질(Y) 김길동 1 1.2 박길동 4 2.5 이길동 6 3.1 조길동 8 4.6 홍길동 9 4.9 이상에서 발병 기간이 길수록 삶의 질이 점점 높다는 것을 대략 알 수 있다. 하지만 이상의 경우는 사례수가 5명의 자료일 뿐 모집단 S병원의 전체 뇌졸중 환자들의 경우에도 이와 같은 사실이 유지되는지의 여부는 별도의 통계검증법 을 적용하기 이전에는 확인 할 수 없다. 회귀분석은 이처럼 특정한 변수(X)가 특정한 변수(Y)에 미치는 인과적 영향을 통계적으로 검증하려는 목적으로 사용

S병원 뇌졸중 환자들의 발병개월수 및 삶의 질에 대한 가상적 점산도 d Y y D=y-Y 점산도내에 분포된 모든 점들의 정중간을 관통하는 선을 말하는데, 이러한 선을 추정적으로 구성한 직선이다.

이상의 선이 지니는 특별한 통계적 속성이란? X값과 Y값이 실제로 만나는 각 지점에서 이 선(혹은 추정치)까지의 거리의 절대합이 최소화되는 선이라는 사실이다. ei=yi-Yi 를 최소화 시키기 위한 최적의 선을 최소자승회귀선(Ordinary Least Squares Regression Line 혹은 OLS Regression Line)이라고 부른다.

최소자승회귀선이란? X를 바탕으로 Y를 추정하고 예측함에 있어서 오차(ei)를 최소화시키는 최적의 선을 의미하며, 보다 구체적으로는 관찰값(yi)과 추정치(Yi)의 차(혹은 거리)의 자승합을 최소화시키는 최적의 선을 의미하는 것이다. 결론적으로 표본자료로 부터 최소자승회귀선을 찾아내고 찾아낸 최소자승회귀선을 근거로 통계적 유의도검증을 행하는 것이 회귀분석을 행하는 구체적 목적이라고 말할 수 있을 것이다. 최소자승회귀선은 표본자료에 나타난 X의 Y에 대한 인과적 영향을 제시하는 통계치를 포함하고 있는데, 이 통계치가 과연 모집단에서도 유의미한가를 검증하는 것이 바로 회귀분석의 목적이다.

최소자승 기준 실제로는 일직선으로 나타나지 않는 X와 Y 값들에 대해, 회귀분석은 이들 값들을 가장 적절하게 대변하는 직선을 만들어 낸다. 이 직선은 관찰값들을 최대한 반영할 수 있어야 하는데, 그러자면 실제 관찰값들과 최소한의 차이를 내게 하는 직선을 구해야 한다. 이 과정에서 동원되는 것이 최소자승 기준이다.

최소자승회귀선 구하기 최소자승의 기준 우리가 구하고자 하는 식은; Y=a + bX 라는 형태를 취하는 하나의 직선을 대수적으로 구하는 것이다. 기울기b와 절편 a를 구할 공식을 찾아내어야 하는 것이다. 위의 그래프에서 편차 d들을 가급적이면 최소화 시티는 것이다. 편차들의 총합계인 ∑d를 최소화시키려 들 수 있을지 모른다. 그러나 어떤 점들은 직선 위에 있고, 또 어떤 점들은 아래에 있으니, 이들을 합하면 거의 ‘0’으로 수렴하게 된다. 이런 문제를 해결하기 위해서 편차들을 모두 양수가 되도록 제곱한 다음, 그것을 전부 더한다.

최소제곱 공식 최소제곱 기울기 b를 구하는 공식은 B=∑(X-Xbar)(Y-Ybar) / ∑(X-Xbar)square 기울기는 Y축의 변화량을 X축의 변화량으로나누는 것이다. 자료 편차형 곱 X Y x=X-Xbar y=Y-Ybar xy x자승 100 40 200 50 300 400 70 500 65 600 700 80 Mean=400 Mean=60 16,500 280,000

기울기 b의 의미 직선의 기울기는 X 방향의 오른쪽으로 한 단위 이동시켰을 때 일어나는 Y의 높이의 변화이다. 즉, 위의 계산식의 회귀식을 구하면, Y=36.4 + .059 X이다. -X의 값을 75에서 76으로 1 단위 증가시켰다고 하면, 원래 Y=36.4+ .059(75) 새로운 Y=36.4+ .059(75+1) =36.4+ .059(75)+.059 =원래 Y + .059 이다. 즉, Y는 X값이 1 증가함에 따라 .059가 증가되었는데, 이것은 바로 b인 것이다.

회귀식 및 기울기

회귀분석의 모형 회귀분석은 종속변수를 추정하기 위하여 모두 몇 가지 독립변수가 사용되었는가에 따라 단순 회귀분석 및 중다회귀분석으로 구분한다.

회귀분석과 선형회귀 선형함수를 사용하는 목적은 회귀분석은 선형회귀는 그것을 기준으로 변수들간에 어느 정도의 오류들이 나타나는지를 계산해 내기 위한 것 선형함수에 비추어 보아서 오류들이 지나칠 때는 두 변수는 서로 관계가 없다고 판단하며, 선형함수에 가깝게 관찰값들이 나타난다면 두 변수는 서로 관계가 있다고 판단하는 것이다. 회귀분석은 함수를 이용하여 두 변수간의 관계를 분석하기 위한 방법 선형회귀는 두 변수간의 함수적 관계를 선형관계로 나타내는 것

여기에서 주어진 관찰값에서 얻어지는 회귀방정식이 정확하게 산출된 것이라면, 21.16은 최소자승 기준에 적합한 최소한의 오류값이 되어야 한다.

모집단에 대한 추정 앞의 추정에서 X의 Y에 대한 인과적 영향을 제시하는 byx는 다만 표본자료에서 나타난 영향일 뿐 모집단인 S병원 전체 환자의 경우에도 그 같은 인과적 영향이 존재하는지의 여부는 통계적 검증을 행하기 이전에는 확일 할 수가 없는 문제이다. 이를 설명하기 위해서 모집단에 대한 회귀선으로 표현하면 다음과 같다. 분포에서 구해진 byx의 통계적 유의도에 대한 검증으로 축소되는데, 구체적으로 이 같은 검증이 어떤 방식으로 진행되는가를 알아보기 위하여 회귀분석의 절차 를 살펴보도록 하겠다.

회귀분석의 절차

회귀분석에서 표본통계치를 산출하는 방식 회귀분석에서는 표본자료에서 구해진 byx값을 바탕으로 t-표본통계치를 산출하여 t-검증을 행한다. 구체적으로 t-표본통계치가 어떻게 산출되는지를 살펴보기 위해선 회귀분석의 기본논리에 대해 알아야 한다.

변량분석의 논리 이용 변량분석에서 독립변수에 의해서 설명되어지는 처리효과와 그렇지 못한 오차를 파악하기 위하여 표본변량을 계산하는 공식의 분자에 해당하는 (Y-Ybar)를 두 가지 상호 독립적인 부분으로 구분하여 설명하였었다. 회귀분석에서도 이와 비슷한 논리로 설명이 가능하다.

집단내이산 집단간이산 전체이산 전체자승합(SST) [ 0 ] 집단내자승(SSW) 집단간자승(SSB) SST=SSW+SSB

전체자승합(SSTotal) 회귀자승합(SSRegression) 오차자승합(SSError)

1. SSerror 는 종속변수(Y)의 변량 가운데 모형에 설정된 독립변수(X)에 의하여 설명되어지지 않는 오차를 의미하고, 2. SSregression은 설정된 독립변수에 의하여 설명되어지는 종속변수의 변량 3. SStotal 은 모형에 설정된 독립변수에 의하여 설명되어지지 않는 부분(SSerror)과 설명되어지는 부분(SS regression)의 합을 의미한다.

회귀분석의 요약 표

이상의 논리들을 통해서 구해진 각종 값들을 바탕으로 회귀분석의 byx에 대한 유의도 검증을 행할 수 있는데, 구체적으로 t-표본통계치는 다음의 공식으로 계산된다.

회귀모형의 전제조건들 모든 Xi에 대하여 동일한 분산 σ²을 갖는다 모든 분포들의 평균들은 모집단의 회귀선으로 알려진, 하나의 직선, Yi의 기대값=μi=α+βXi 상에 놓이게 된다. 모집단 모수들인 α와 β가 그 선을 결정짓는데, 그것들은 표본 정보로부터 추정된다. 무작위 변수 Yi는 통계적으로 독립적이다. 예를 들어, 만일 Y1이 크게 나타났다 해도, Y2가 크게 나타나도록 기대할 이유가 없는 것이다. 다시 말해, Y2는 Y1과 통계적으로 관계가 없다.

추출된 표본은 무작위추출과정을 거친 것 모형에 설정된 독립변수와 종속변수 모두 연속형 변수이어야 한다. 독립변수와 종속변수 사이에는 단선적 관계가 존재하여야 한다. 각각의 X 값들(Xi)에 해당하는 Y 값들(Yi)은 모두 정규분포를 형성하여야 한다. 독립변수를 바탕으로 종속변수를 추정하는 과정에서 생겨나는 오차(ei)는 평균이 ‘0’이고, 일정한 변량을 지니는 정규분포를 형성하여야 한다.

Lab Regression

회귀분석의 기본논리 이름 발병개원수(X) 삶의 질(Y) 김길동 1 1.2 박길동 4 2.5 이길동 6 3.1 조길동 8 4.6 홍길동 9 4.9 이상에서 발병 기간이 길수록 삶의 질이 점점 높다는 것을 대략 알 수 있다. 하지만 이상의 경우는 사례수가 5명의 자료일 뿐 모집단 S병원의 전체 뇌졸중 환자들의 경우에도 이와 같은 사실이 유지되는지의 여부는 별도의 통계검증법 을 적용하기 이전에는 확인 할 수 없다. 회귀분석은 이처럼 특정한 변수(X)가 특정한 변수(Y)에 미치는 인과적 영향을 통계적으로 검증하려는 목적으로 사용

가설검증의 일반적 절차 H0을 진술한다. H1을 진술한다. 알파-오류를 설정한다. 표본 통계치를 계산한다. 기각치를 구한다. 통계적 결론을 내린다. 실질적 결론을 내린다.

R² 정의 독립변수와 종속변수간의 관계의 강도를 파악하고, 독립변수에 의하여 설명되어지는 종속변수의 변량을 특정한 수치로 제시하는 것이 가능하다. 이를 구하는 공식은, R² = SSregression/SStotal=1-(SSerror/SStotal) 이를 결정계수(Coefficient of Determination)이라고 부른다.

상관관계계수는 R²에 루트근호를 붙인 값을 일컬어 상관관계계수라고 부르며, 이는 라는 기호로 표현되고 주로 다음의 공식이 이용된다. γxy = sxy/sx sy X와 Y 사이에 연관관계의 강도를 제시하는 상관관계 수치로써, 인과관계를제시하는 통계치는 아니다. -1에서부터 +1까지의 수치를 지니는데, -1이면 X와 Y간에 완벽한 부적 상관관계가 존재함을 뜻하고, 0이면 상관관계가 존재하지 않음을 뜻하며, +1이면 X와 Y 사이에는 정적 상관관계가 존재함을 나타낸다.