경영data분석 상관관계(단순상관,다중상관,부분상관계수) 회귀분석(단순회귀, 다중회귀, Path Analysis,

Slides:



Advertisements
Similar presentations
제13장 로지스틱회귀분석.
Advertisements

재료수치해석 HW # 박재혁.
제14장 요인분석.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석.
표본분포 Sampling Distribution
4.3.3 초기하분포 (Hypergeometric distribution)
PASW 17.0 활용하기 일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
수치해석 6장 예제문제 환경공학과 천대길.
자료분석 및 통계활용.
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
2007 겨울 통계강좌 중급과정 제9강 중다회귀분석의 해석 및 응용.
비모수 분석 및 복습.
최현진 정경대학 정치외교학과 국제정치론 2014 가을학기 제1주(2) 최현진 정경대학 정치외교학과
· 제 14 장 상관관계분석과 회귀분석 상관관계분석
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가?
상관함수 correlation function
예: Spherical pendulum 일반화 좌표 : θ , Ф : xy 평면으로부터 높이 일정한 량 S 를 정의하면
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
상관관계 양윤권.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
단순회귀분석 단순회귀분석의 개요 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만, 단순선형회귀분석(simple linear regression; 이하 단순회귀분석)은 두 변수간의 인과관계(casual relationship)를 조사하는 방법임. 독립변수(예측변수)
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
1.4 중첩된 한정기호 (Nested Quantifiers) 이산수학 (Discrete Mathematics)
Keller: Stats for Mgmt & Econ, 7th Ed
마케팅 조사론 Marketing Research.
Linear Mixed Model을 이용한 분석 결과
(independent variable)
10장: 상관관계분석 (Correlation Analysis)
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
회귀분석(Regression).
2장. 변수와 타입.
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
단순회귀분석 (Simple Linear Regression Analysis)
Multiple regression analysis
논문작성을 위한 연구모형 설정 양동훈.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
Sampling Distributions
자녀의 심리적 안정도에 미치는 부모요인 분석.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
계량경제학 1.관광수요의 결정요인 2.관광수입과 환율의 상관 관계..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
문제의 답안 잘 생각해 보시기 바랍니다..
(Analysis of Variation, ANOVA)
Presentation transcript:

경영data분석 상관관계(단순상관,다중상관,부분상관계수) 회귀분석(단순회귀, 다중회귀, Path Analysis, Dummy regression, Interaction regression etc.)

상관관계 분석

상관관계 (CORRELATION) (A) (B) (C) (D) 사용목적 - 변수들 간의 관련성을 분석하기 위해 사용(모든 변수는 비율, 등간척도) - 상관관계분석은 한 변수가 다른 변수와 관련성을 가지고 있는지의 여부와 관련성이 있다면 어느 정도 있는지를 알아볼 수 있는 분석 - 예제: 가계소득과 지출과의 관계 / 골프의 여가선용과 외화낭비와의 관계 / 키와 앉은키의 관계 기본원리 (A) (B) (C) (D) X 소득의 분산 Y 소비액의 Y X Y X XY 공분산(16%) r(상관관계수)=0.4 r2(결정계수,설명력)=0.16 r=0.6 r2=0.36 r=0.9 r2=0.81 r=1 r2=1 - 특정변수의 분산 중에서 다른 변수와 같이 변화하는 분산(공분산)이 어느 정도 인가 - 공통으로 변화하는 공분산이 클수록 상관도는 높아짐 - 상관계수는 r로 표시하며 -1 ≤ r ≤ +1 를 갖는다. - 상관관계의 강도를 나타내는것이 상관계수이며, 상관계수의 제곱을 결정계수라 한다. - 결정계수는 설명력을 나타내는데 (B)의 예를 통해 보면 소득이 소비액을 설명해 주는 정도는 36%(0.6*0.6=0.36=36%)가 된다.

상관관계 (CORRELATION) 상관관계의 종류 X Y 기본 모형 ρ=Cov(X,Y) / σX σy Where, Cov(X,Y):변수 X와 Y의 모집단 공분산 σX :변수X의 모집단 표준편차 σy :변수Y의 모집단 표준편차 (A) 단순상관계수(simple correlation) X Y X1 X2 X3 (B) 다중상관계수(multiple correlation) (C) 부분상관계수(partial correlation) 통제 r=SXY / (SX*SY) Where, SXY : 변수X와 Y의 표본공분산 SX : 변수X의 표본 표준편차 SY : 변수Y의 표본 표준편차

상관관계 (CORRELATION) 상관계수 결과 해석 종류 - Pearson의 R : 모수 통계에서 상관계수 - kendall의 tau –b (타우) : 비모수 통계에서의 상관계수 (순위상관계수/ 변수가 서열변수 일 경우 사용) - spearman의 R :비모수 통계에서의 순위상관계수 Test of Significance - two-tailed : 가설검정에서 관련성의 방향을 미리 정하지 않은 경우 사용하며 기본설정 - one-tailed : 두 변인간의 관련성의 방향을 미리 설정하는 경우 - Flag significant correlation : 유의수준이 있는 항목을 * 표시 (* : 0.05이하 /** :0.01이하/***:0.000) 상관계수와 변수들간의 관련정도 (1) 1.0 ~ 0.7 (-1.0 ~ -0.7) : 매우 강한 관련성 (2) 0.69 ~ 0.4 (-0.69 ~ -0.4) : 상당한 관련성 (3) 0.39 ~ 0.2 (-0.39 ~ 0.2) : 약간의 관련성 (4) 0.19 ~ 0.0 (-0.19 ~ 0.0) : 관련성 거의 없음 ! 주의 : 상관계수의 유의도는 결과표에 *로 표시가 되며, 연구분야에 따라서는 위의 구분이 맞지 않는 경우가 있음.

Pearson’s 상관관계 (CORRELATION) 분석 – 상관분석 – 이변량 상관계수 결과 해석 - 가설 : H0 :자동차 중량과 연비와 관련성이 없다(상관도가 0이다) Ha : 자동차 중량과 연비와 상관성이 있을 것이다.

편상관관계 (Partial CORRELATION) 분석 – 상관분석 – 편상관계수 사용목적 - 편상관관계 분석은 여러 변수 사이의 상관계수를 구했을 때, 변수들 사이에 공통으로 영향을 미치는 영향관계를 제거한 후 상관관계를 보는것을 의미한다. - 예제: 자동차 연비와 중량과의 관계에서 기통수의 영향을 제거한 후 분석

회귀분석

회귀분석 (Regression) 사용목적 - 변수들간의 상호관계를 분석하고 특정변수(독립변수)의 변화로 부터 다른 변수(종속변수)의 변화를 예측하기 위해 사용 - 종속변수에 영향을 미치는 독립변수를 규명하고 이들 변수들에 의해 하나의 선형방정식을 도출한다. 도출된 선형방정식을 회귀식(regression equation)이라 한다. - 예 : 자동차 연비에 영향을 미치는 요인은 무엇인가?(종속변수:자동차연비/독립변수:영향을 주는 요인(중량 등) 기본 모형 - 단순회귀분석(simple regression) Y = β0 + β1X1 + ε - 다중회귀분석(multiple regression) Y = β0 + β1X1 + β2X2 + ….. + βnXn + ε where, Y : 종속변수(dependent variable) X : 독립변수,설명변수(independent variable) β0 : 절편(intercept)

• 회귀분석 (Regression) 최소자승법(Ordinary Least Square : OLS) - 실제 관측치와 모형에 의한 예측치와의 거리인 잔차(residual)를 최소화하는 방법으로 회귀분석의 계수를 계산 기본 가정 Y = β0 + β1X1 + ε 에서 - X와 Y는 선형 종속관계이다. - 설명변수 X는 비확률변수이다 - 오차항의 기대값은 0이고, 모두 동일분산을 갖고, 정규분포를 이루며 서로 독립적이다. • Y-Y ^ - Y = β0 + β1X1

회귀분석 (Regression) 회귀분석(분석 – 회귀분석 – 선형)

회귀분석 결과해석 회귀분석 모형의 적합도 - 회귀계수의 모형 적합도는 회귀분석의 결과에서 분산분석표를 해석한다. 회귀분석 모형의 적합도 - 회귀계수의 모형 적합도는 회귀분석의 결과에서 분산분석표를 해석한다. - 분산분석 표를 보면 F=739.503, 유의확률 0.000 으로 회귀분석 모형이 의미 있음을 보여준다. 독립변수의 설명력 - R=807 R2=0.651(독립변수(차량중량)가 종속변수(연비)를 약 65% 설명력을 가지고 있다.

회귀분석 결과해석 회귀계수의 의미 해석 - 독립변수(차 중량)의 유의성은 t값으로 검증한다.(t=-27.194. 유의확률=0.000) - 유의성이 있다고 검증되면 계수를 확인한다.(표준화,비표준화 계수) - 비표준화 계수는 데이터의 단위를 고려하지 않고 회귀계수를 구한값이고, 표준화 계수는 종속변수, 독립변수들 간의 단위가 맞지 않아 해석상의 문제가 발생하는 경우 데이터를 모두 Z-score로 바꾼 다음 회귀분석을 실행한 결과이다. - 상수항은 회귀방정식의 절편을 나타낸다. - 결국 회귀방정식은 다음과 같다. 자동차 연비 = 45.492 – 0.00742(차중량) - (해석) 자동차연비는 차 중량과 관계가 있으며 차 중량을 줄임으로써 연비향상을 가져올 수 있다.

Assumptions 오차항들 간의 상관관계 - 설정된 모형의 가정의 적절성 여부는 잔차항들이 서로 독립이며 정규분포를 하느지를 살펴보면 된다. - 잔차를 검정하는 것은 DURBIN-WATSON 통계량을 이용한다. DURBIN-WASTON 통계량의 기준값은 2로써 2에 가까울 수록 정규분포에 가까우며 0이나 4에 가까울수록 잔차들간에는 상관 관계가 있어 모형이 적합하다고 할 수 없다. - DW=2 (자기상관이 존재하지 않는다) - DW=0(양의 자기상관이 존재) - DW=4(음의 자기상관이 존재)

Assumptions 다중 공선성(multicollinearity) - 회귀식에 투입된 독립변수들 간에 상관도가 높아서 어느 하나의 변수가 순수하게 설명력을 개선해 주는 정도가 매우 적게 나타나는 경우 - 확인 방법 .독립변수들 간에 상관계수를 계산한다. .회귀분석에서 공선성 진단을 실시한다. .회귀식을 계산하는데 단계별 진입방법을 선택하여 공선성이 존재하는 독립변수의 투입을 막는다.

Assumptions 다중 공선성(multicollinearity) 계속 엔진크기(0.997)와 기통수(0.344)는 유의하지 않는것을 알 수 있다. 즉 종속변수인 연비를 설명하는 변수로 적합하지 않는다는 것이다. 이것은 변수의 선정이 잘못 되었을 수도 있으나 독립변수들간에 다중 공선성이 존재하여 이미 다른 독립변수들이 이 변수들의 설명력을 대신하고 있다고 볼 수도 있다. -공선성진단표를 보면 5번째 차원에서 엔진크기(0.93)과 기통수(0.61)로 매우 높은 수치가 나와있고 이 변수들간에 다중 공선성이 존재할 가능성이 높다는것을 시사한다.

공선성 통계량 해석 공차한계(tolerance) - 독립변수들간의 다중상관관계(multiple correlation)를 나타내는 통계량으로 (1-R2 ) 으로 계산 - “공차한계 ≥0.1” 면 다중공선성 문제가 없는 것으로 판단 2. 분산팽창지수(variance inflation factor: VIF) - 공차한계의 역수 - “분산팽창지수≤ 10”면 다중공선성 문제가 없는 것으로 판단

회귀분석 결과해석 독립변수 투입방법 입력(enter) : 모든 독립변수를 한꺼번에 투입한다. 단계별(stepwise) : 회귀식의 설명력을 높이는 방법으로 변수를 투입 또는 제거한다.(가장 많이 사용) 제거 : 모든 변수를 제거한 모형을 구성 후진 : 선택된 독립변수가 의미없는 순서로 하나씩 제거되어 모형을 구성 전진 : 의미있는 독립변수들이 하나씩 순서대로 모형에 첨가

회귀분석 결과해석 독립변수 투입방법 계속

회귀분석 결과해석 독립변수 투입방법 계속

문제) Many colleges and universities develop regression models for predicting the grade-point average (GPA) of incoming freshmen. The predicted GPA can then be used to make admission decisions. Although most models use many independent variables to predict GPA, we will illustrate by choosing two variables: x1 = Verbal score on college entrance examination (percentile) x2 = Mathematics score on college entrance examination (percentile) The data in the table are obtained for a random sample of forty freshmen at one college. VERBAL MATH GPA x1 x2 y 81 68 57 100 54 82 75 58 55 49 64 66 80 83 93 74 51 87 99 86 98 76 59 61 85 72 3.49 2.89 2.73 1.54 2.56 3.43 3.59 2.86 1.46 2.11 2.69 2.16 2.60 3.30 3.75 2.70 3.15 2.28 2.92 2.48 79 50 65 56 97 77 39 70 90 84 62 69 52 78 67 95 89 3.45 2.76 1.90 3.01 1.48 2.98 2.58 3.27 3.47 1.30 1.22 3.23 3.82 2.93 2.83 3.84 3.33 3.06

Dummy변수를 사용하는 경우 회귀분석 사용목적 - 방법 : 각 국가별로 종속변수(연비)에 영향을 미치는 국가코드(명목척도)를 독립변수로 사용할 경우 / 미국(1) 유럽(2) 일본(3) 으로 코딩이 되어 있다. 항상 더미변수는 (명목변수의 척도-1)개가 필요하다. 기존의 변수 dummy1 dummy2 미국 유럽 1 일본

Dummy변수를 사용하는 경우 회귀분석 결과해석 모형 Y = β0 + β1D1 + β2D2 - 미국의 경우 dummy1, dummy2가 모두 0이었으므로 연비 = 20.084 - 유럽의 경우 dummy1=1, dummy2=0 이므로 연비 = 20.084 + 7.808D1 - 일본의 경우 dummy1=0, dummy2=1 이므로 연비 = 20.084 + 10.367D2 - 결과적으로 미국을 기준으로 연비는 유럽 7.808 , 일본 10.367 더 높다.

The following data were obtained. 문제) " A company that services two brands of microcomputers would like to be able to predict the amount of time it takes a service person to perform preventive maintenance on each brand. They belive the following predictive model is appropriate." y = β0 + β1x1 + β2x2 + ε where y = Maintenance time x1 = 1 if brand A 0 if brand B x2 = Service person's number of months of experience in preventive maintenance "Ten different service people were randomly selected and each was randomly assigned to perform preventive a maintenance on either a brand A or brand B microcomputer." The following data were obtained. MAINTENANCE TIME BRAND EXPERIENCE (hours) (months) 2.0 1 2 1.8 4 0.8 12 1.1 1.0 8 1.5 1.7 6 1.2 5 1.4 9 7

PATH ANALYSIS 사용목적 - 아래와 같은 연구모형의 경우 차중량은 연비와의 관계에서는 독립변수이지만 실린더,엔진크기,마력의 입장에서는 종속변수이다. 이런 모형의 경우 PATH분석을 실행한다. - PATH분석은 회귀분석 명령에 없다. 각 단계별로 회귀분석을 실시하면 된다. 즉, (1) 차 중량 = 실린더 + 엔진크기 + 마력 (2) 연비 = 차중량 실린더 차중량 연비 엔진크기 마력

PATH ANALYSIS 계속 결과해석 - 1단계에서 차 중량 = 1397.778 + 6.541(엔진크기) + 2.915(마력) - 2단계에서는 연비 = 45.492 -0.007(차중량) 임을 알 수 있다. - 직접효과 : 각 계수 (예, 차중량은 6.541만큼 엔진크기에 영향을 받는다) - 간접효과 : 각 연결 계수를 곱해서 사용. 즉, 엔진크기가 연비에 얼마정도의 간접효과를 미치는가의 경우는 6.541 * (-0.007) = -0.045787의 영향력이 있다.

상호작용효과의 회귀분석 사용목적 - 강화효과와 조절효과를 포함하는 모형 - 강화효과 : 독립변수의 종속변수에 대한 영향력(흡연)이 어떠한 조건(음주와 동시에 흡연)에 의해 더 강해지는것 - 조절효과 : 독립변수의 종속변수에 대한 영향력(의약품 효과)이 어떠한 조건(음주와 동시에 투약)에 의해 더 약해지는것 - 회귀분석에서의 상호작용효과 (a) y= a+ b1X1 + b2X2 (b) y= a+ b1X1+ b2X2+ b3X1 X2 (a)에서 추정된 종속변수(= y)를 건강이라고 하고 x1는 흡연량, x2는 음주량이라고 가정하면, b1는 흡연이 건강에 미치는 독립적인 영향, b2는 음주가 건강에 미치는 독립적인 영향 (b)의 는 흡연(=x1 )과 음주(=x2 )를 동시에 하는 경우(= x1x2)의 영향력

상호작용효과의 회귀분석(계속) - 상호작용효과분석시 다중공선성 제거방법 <편차변환(centering)> : 상호관계를 표현하기 위해 새로 만들어진 독립변수(= x1x2)와 기존의 독립변수들(x1 , x2)간에 존재할 수밖에 없는 다중공선성의 문제가 발생 등간척도나 비율척도의 수준으로 측정된 연속(continuous) 독립변수의 경우 상호작용을 표시하는 새 변수(예:x1x2 )를 구성하기 전에 상호작용을 구성하는 원 변수들(= x1, x2)에서 각각의 평균을 차감한 편차점수(= x1-x1의 평균 ,x2 - x2의 평균)를 구성하는 것 * 변수의 편차변환 후 회귀분석을 수행 ⇒ 변환 후의 회귀계수와 변환전의 회귀계수는 동일 ⇒ 변환 후의 독립변수들간의 상관관계를 제거 *편차변환 후의 상호작용효과 회귀분석 Y= a + b1x1 + b2x2 + b3x1x2 Where, x1 = (x1 - x1의 평균) x2 = (x2 - x2의 평균) x1x2 = (x1 - x1의 평균)(x2 – x2의 평균)

문제 A collector of antique grandfather clocks believes that the price received for the clocks at an antique auction increases with the age of the clocks and with the number of bidders. Thus, the following model is hypothesized: y = a + b1x1 + b2x2 where y = Auction price x1 = Age of clock (years) x2 = Number of bidders AGE NUMBER OF BIDDERS AUCTION PRICE x1 x2 Y($) 127 115 150 156 182 132 137 113 117 153 126 13 12 7 9 6 11 10 15 8 1235 1080 845 1522 1047 1979 1822 1253 1297 946 1713 1024 1147 1092 1152 1336 170 162 184 143 159 108 175 179 111 187 194 168 14 5 2131 1550 1884 2041 854 1483 1055 1545 729 1792 1175 1593 785 744 1356 1262

문제 계속 Suppose the collector, having observed many auctions, believes that the rate of increase of the auction price with age will be driven upward by a large number of bidders. Thus, instead of a relationship like that shown in Fig(a), in which the rate of increase in price with age is the same for any number of bidders, the collector believes the relationship is like that shown in Fig(b). Note that as the number of bidders increases from five to fifteen, the slope of the price versus age line increases. When the slope of the relationship between y and one independent variable (x1) depends on the value of a second independent variable (x2), as is the case here, we say that x1 and x2 interact. A model that accounts for this type of interaction is written y = a + b1x1 + b2x2 + b3x1x2 Price (y) Price (y) Note: All lines have the same slope x2=15 bidders x2=15 bidders x2=10 bidders x2=10 bidders x2=5 bidders x2=5 bidders Age of clock (x1) Age of clock (x1) Fig(a) No interaction between x1 and x2 Fig(b) interaction between x1 and x2