Keller: Stats for Mgmt & Econ, 7th Ed

Slides:



Advertisements
Similar presentations
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Advertisements

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
Keller: Stats for Mgmt & Econ, 7th Ed
제13장 로지스틱회귀분석.
재료수치해석 HW # 박재혁.
제14장 요인분석.
제 2 장 회귀분석 동아대학교 경영정보학과 이정형.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석.
표본분포 Sampling Distribution
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
공차 및 끼워맞춤.
Machine Learning & Data Mining
회귀분석(Regression).
회귀분석(Regression).
수치해석 6장 예제문제 환경공학과 천대길.
제12주 회귀분석 Regression Analysis
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
· 제 14 장 상관관계분석과 회귀분석 상관관계분석
제 11 장 서비스 수요 예측.
상관함수 correlation function
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
단순회귀분석 단순회귀분석의 개요 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만, 단순선형회귀분석(simple linear regression; 이하 단순회귀분석)은 두 변수간의 인과관계(casual relationship)를 조사하는 방법임. 독립변수(예측변수)
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
Linear Mixed Model을 이용한 분석 결과
(independent variable)
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
회귀분석(Regression).
생산 분석을 위한 확률 및 통계 현대로템 직무능력 향상 교육 - 1주차
Keller: Stats for Mgmt & Econ, 7th Ed 다중회귀분석 Multiple Regression
두 모집단에 대한 검정.
단순회귀분석 (Simple Linear Regression Analysis)
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
P 직선상에서 속력이 일정한 운동.
Sampling Distributions
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
통계해석 및 오차의 제거.
Support Vector Machine
1. 접선의 방정식 2010년 설악산.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 12장  원가추정 강사: 정재을 과목: 원가회계.
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
실험의 목적 저울 사용법의 익힘 무게법 분석의 기초 일정무게로 건조하기. BaCl2 • 2H2O 의 수분함량 측정Determination of water in Barium Chloride Dihydrate.
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
X-13-ARIMA 프로그램 사용법.
문제의 답안 잘 생각해 보시기 바랍니다..
(Analysis of Variation, ANOVA)
Survey Sampling Sangji University.
Presentation transcript:

Keller: Stats for Mgmt & Econ, 7th Ed February 24, 2019 켈러의 경영경제통계학 제15장 단순선형회귀분석과 상관관계분석 Simple Linear Regression and Correlation Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.

회귀분석(Regression Analysis)… -회귀분석은 구간변수들 간의 관계를 분석하기 위한 통계기 법 이다. -회귀분석은 다른 변수들 (독립변수들/independent variables - >종속변수와 관련되어 있다고 여겨지는 변수들)에 기초하여 한 변수(종속변수 /dependent variable ->관심있는 변수)의 값 을 예측하기 위해 사용된다. “일반적으로 종속변수는 Y 로 나타내고 독립변수들은 X1, X2, …, Xk 로 나타낸다.” ->제15장에서는 Y와 X의 선형관계 (종속변수가 1개이고 독립변수가 1개인 경우의 두 변수간 선형관계) , 즉 단순선형회귀모형에 대하여 논 의한다.

15.1 확정적 모형과 확률적 모형… >종속변수와 독립변수들 간의 관계를 수학적으로 표현한 식 을 모형(model)이라고 한다. 확정적 모형(Deterministic Model) : 독립변수들의 값들이 종속변수의 값을 완전히 결정하는 모형. (2) 확률적 모형(Probabilistic Model): 독립변수들의 값 들과 임의성(randomness)이 종속변수의 값을 결정하는 모형.

단순선형회귀모형 -독립변수가 1개이고 종속변수와 선형관계를 가지는 회귀모형을 단순선형회귀모형(simple linear regression model. )이라고 부르고 다음과 같이 나타 낸다…. independent Variable(독립변수 dependent Variable(종속변수) y-intercept y-절편 slope of the line 직선의 기울기 error term 오차항

단순선형회귀모형 -회귀계수 와 은 모수(population parameters )로 일 반적으로 알려져 있지 않고 데이터로부터 추정된다 … y rise run =slope (=rise/run) =y-intercept x

15.2 회귀계수의 추정… -단순선형회귀모형의 모수 와 는 각각 표본데이터 를 통과하는 직선의 절편과 기울기에 의해서 추정된다. 표본데이터를 통과하는 직선의 절편 과 기울기 는 표본의 점과 직선 간의 차이를 제곱하여 합한 값을 최소 화하는 직선을 구하는 최소자승법(least squares method)에 의해 구해진다. -최소자승법에 의해 구해진 직선의 식을 다음과 같이 나타 낸다.

15.2 회귀계수의 추정… -최소자승법에 의해 구해진 직선의 식 ( ) 은 최소자승선 또는 회귀선이라고 부른다. -> 와 은 가 최소가 되도록 계산된 다.

15.3 오차항의 필요조건… -회귀분석이 타당하기 위해 오차항은 다음과 같은 조 건을 충족해야 한다. 오차항의 확률분포는 정규분포이다. 2. 오차항의 기대치는 0이다. 3. 오차항의 표준편차는 이고 는 x의 값에 관 계없이 일정한 상수이다. 4. 임의의 특정한 y값과 관련된 오차항의 값은 다른 y 값과 관련된 오차항의 값과 독립이다.

15.4 선형회귀모형의 평가… -최소자승법은 변수들간에 관계가 존재하기 않거나 또 는 비선형관계를 가지고 있는 경우에도 항상 직선식 을 제공한다. -따라서 최소자승선의 회귀계수를 구하는 것에 더하여 최소자승선이 데이터를 얼마나 잘 나타내고 있는지를 평가할 필요가 있다. 선형회귀모형의 추정결과에 대한 평가는 추정치의 표준오차, 기울기의 t- 검정, 결정계 수 에 의하여 이루어진다. 이와 같은 평가방법은 오차제곱합(Sum of Squares for Errors (SSE))에 기 초하여 이루어진다.

추정치의 표준오차(Standard Error of Estimate) -오차항은 평균이 0이고 표준편차가 인 정규분포를 따 른다. 만일 이 크면 일부 오차항은 클 것이고 이것은 회 귀모형의 적합도가 불량하다는 것을 의미한다. -추정치의 표준오차는 데이터로부터 구해지는 의 추정 치이고 다음과 같이 구해진다. -> 의 값이 작다는 것은 SSE가 작다는 것을 의미하며 이것은 회귀모형의 적합도가 양호하다는 것을 의미한다.

추정치의 표준오차(Standard Error of Estimate) -추정치의 표준오차는 종속변수의 표본평균과 비교하 여 상대적으로 작으면 회귀모형은 비교적 양호한 것으 로 평가된다. ->추정치의 표준오차가 ” 또는 “크다”는 절대기준은 없다. 따라서 추정치의 표준오차는 회귀모형의 타당성을 평가하 는 절대척도로 사용될 수 없다.

(2) 기울기의 검정(Testing the Slope)… -두 변수간에 선형관계가 존재하지 않으면, 회귀선의 기 울기가 0이라고 기대된다. -따라서 두 변수간에 선형관계가 존재하는지를 검토하 기 원하면, 회귀선의 기울기(β1)이 0이 아닌지를 검정하 여야 한다. -따라서 기울기의 검정을 위한 가설은 다음과 같이 설정 된다.

기울기의 검정(Testing the Slope)… <기울기의 검정을 위한 검정통계량> ->오차항의 필요조건들이 충족되면 확률변수 은 평균이 이고 표준편차 인 정규분포를 따른다. ->따라서 의 표준오차 추정량은 이므로

기울기의 검정(Testing the Slope)… ->따라서 귀무가설이 옳다는 전제 하에서 기울기의 검 정을 위한 검정통계량은… -기각역은… - 에 대한 신뢰구간추정량은…

(3) 결정계수(Coefficient of Determination)…

결정계수(Coefficient of Determination)… -y의 변동은 회귀선에 의해 설명되는 변동과 오차에 기인하 여 설명되지 않는 변동으로 분해된다. y의 변동(TSS) = SSE + SSR ->SSE= Sum of Squares for Error ->오차에 기인하여 설명되지 않은 y의 변동을 측정한다. ->SSR= Sum of Squares for Regression ->독립변수 X의 변동에 의해 설명되는 y의 변동을 측정한다. -따라서 ->결정계수는 y의 변동 중에서 회귀선에 의해 설명되는 변동의 비율이다.

결정계수(Coefficient of Determination)… 예제15.5 Toyota Camry 중고차 가격과 주행거리 간의 선형강도 측정..결정 계수의 계산

결정계수(Coefficient of Determination)… -R2 의 값=0.6483. -> 중고차 판매가격(y) 변동의 64.83% 는 주행거리(x)의 변동에 의해 설명된다는 것을 의미. 나 머지 중고차 판매가격(y) 변동의 35.17%는 오차에 기인 하며 설명되지 않는다. -일반적으로 R2 ,의 값이 1에 가까울수록 모형은 더 양호 하게 데이터를 적합시킨다. R2 = 1: x와 y간에 완벽한 선형관계 존재 (->모든 데이터가 회귀선상에 존재) R2 = 0: x와 y간에 선형관계가 존재하지 않음

상관계수(Coefficient of Correlation)의 검정 -상관계수는 두 변수간의 선형관계를 검정하기 위해 사용되 는 통계량이다. -모상관계수는 로 나타낸다. 모상관계수는 알려져 있지 않 기 때문에 표본데이터로부터 계산되는 표본상관계수 에 의 해 추정된다. -표본상관계수는 모상관계수가 0인지, 즉 를 검정하기 위해 사용된다.

상관계수(Coefficient of Correlation)의 검정 -모상관계수에 대한 가설은 다음과 같이 설정된다… -검정통계량은… (두 변수가 이변량 정규분포를 따르면..t-통계량은 자유도가 n-2인 Student t 분포를 따른다)

15.6 회귀모형의 진단 -회귀분석을 수행하기 위한 3가지 필요조건들은… • 오차항(오차변수)은 정규분포를 따른다. • 오차항(오차변수)는 일정한 분산을 가진다. • 오차항들은 서로 독립이다. -이와 같은 조건들의 위배 여부를 어떻게 진단할 수 있 는가? Residual Analysis에 의해 진단 잔차분석은 실제 종속변수 값과 회귀식에 의해 추정되는 종 속변수 값간의 차이 (잔차)를 검토하면서 필요조건의 위배 여부를 진단한다….

잔차분석(Residual Analysis)… Excel은 회귀분석의 한 부분으로 잔차들을 계산한다. (Excel을 이용한 회귀분석수행시 잔차와 표준잔차를 선택) -이와 같은 잔차들을 사용하여 오차변수가 정규분포를 따르는지, 오차변수의 분산이 일정한지, 오차들이 서 로 독립인지를 검토한다.

(1) 비정규분포(Nonnormality)… - 잔차들의 히스토그램을 그리고 평균이 0에 가깝고 종 모양의 모습을 가지는지를 확인…

(2) 이분산(Heteroscedasticity)… 를 x축으로 나타내고 잔차를 y축에 나타내면서 (y의 추정치, 잔차)= 들의 산포도를 그리고 의 값에 대하여 잔차들이 일정하게 분포되어 있는 지를 확인한다. 이분산을 나타내는 잔차의 산포도 ->

이분산(Heteroscedasticity)… 동분산을 나타내는 잔차의 산포도 ->

(3) 오차항의 비독립성… -시계열데이터의 경우 오차항들이 동태적으로 상관관 계를 가지면 오차항들은 자기상관 (autocorrelation) 또 는 계열상관(serial correlation) 을 가진다고 말한다. -시간에 대하여 잔차들을 그래프로 그려봄으로써 자기 상관을 진단할 수 있다. 이와 같은 그래프에 일정한 패 턴이 나타나면 오차항의 독립성 조건이 위배되어 있 다고 진단한다.

오차항의 비독립성… 양의 잔차들이 일정한 기간동안 나타나고 이어서 음의 잔차들이 일정한 기간동안 나타난다(오차항의 독립성) 양의 잔차와 음의 잔차가 0주위에서 교대로 나타난다(자기상관존재)

회귀모형의 진단순서… 이론적 기반에 기초한 회귀모형의 개발 -> 종속변수와 독립변수의 선택. 2. 변수들에 대한 데이터 수집 3. 산포도를 그려서 선형모형의 적정성 검토 -> 이상치의 탐색. 4. 회귀식의 결정. 5. 잔차의 계산과 필요조건의 확인. 6. 선형회귀모형의 적합도 평가. 7. 선형회귀모형의 적합도 평가에 기초하여 종속변수에 대한 예측.