Presentation is loading. Please wait.

Presentation is loading. Please wait.

경영data분석 상관관계(단순상관,다중상관,부분상관계수) 회귀분석(단순회귀, 다중회귀, Path Analysis,

Similar presentations


Presentation on theme: "경영data분석 상관관계(단순상관,다중상관,부분상관계수) 회귀분석(단순회귀, 다중회귀, Path Analysis,"— Presentation transcript:

1 경영data분석 상관관계(단순상관,다중상관,부분상관계수) 회귀분석(단순회귀, 다중회귀, Path Analysis,
Dummy regression, Interaction regression etc.)

2 상관관계 분석

3 상관관계 (CORRELATION) (A) (B) (C) (D) 사용목적
- 변수들 간의 관련성을 분석하기 위해 사용(모든 변수는 비율, 등간척도) - 상관관계분석은 한 변수가 다른 변수와 관련성을 가지고 있는지의 여부와 관련성이 있다면 어느 정도 있는지를 알아볼 수 있는 분석 - 예제: 가계소득과 지출과의 관계 / 골프의 여가선용과 외화낭비와의 관계 / 키와 앉은키의 관계 기본원리 (A) (B) (C) (D) X 소득의 분산 Y 소비액의 Y X Y X XY 공분산(16%) r(상관관계수)=0.4 r2(결정계수,설명력)=0.16 r=0.6 r2=0.36 r=0.9 r2=0.81 r=1 r2=1 - 특정변수의 분산 중에서 다른 변수와 같이 변화하는 분산(공분산)이 어느 정도 인가 - 공통으로 변화하는 공분산이 클수록 상관도는 높아짐 - 상관계수는 r로 표시하며 ≤ r ≤ 를 갖는다. - 상관관계의 강도를 나타내는것이 상관계수이며, 상관계수의 제곱을 결정계수라 한다. - 결정계수는 설명력을 나타내는데 (B)의 예를 통해 보면 소득이 소비액을 설명해 주는 정도는 36%(0.6*0.6=0.36=36%)가 된다.

4 상관관계 (CORRELATION) 상관관계의 종류 X Y 기본 모형 ρ=Cov(X,Y) / σX σy
Where, Cov(X,Y):변수 X와 Y의 모집단 공분산 σX :변수X의 모집단 표준편차 σy :변수Y의 모집단 표준편차 (A) 단순상관계수(simple correlation) X Y X1 X2 X3 (B) 다중상관계수(multiple correlation) (C) 부분상관계수(partial correlation) 통제 r=SXY / (SX*SY) Where, SXY : 변수X와 Y의 표본공분산 SX : 변수X의 표본 표준편차 SY : 변수Y의 표본 표준편차

5

6 상관관계 (CORRELATION) 상관계수 결과 해석 종류 - Pearson의 R : 모수 통계에서 상관계수
- kendall의 tau –b (타우) : 비모수 통계에서의 상관계수 (순위상관계수/ 변수가 서열변수 일 경우 사용) - spearman의 R :비모수 통계에서의 순위상관계수 Test of Significance - two-tailed : 가설검정에서 관련성의 방향을 미리 정하지 않은 경우 사용하며 기본설정 - one-tailed : 두 변인간의 관련성의 방향을 미리 설정하는 경우 - Flag significant correlation : 유의수준이 있는 항목을 * 표시 (* : 0.05이하 /** :0.01이하/***:0.000) 상관계수와 변수들간의 관련정도 (1) 1.0 ~ 0.7 (-1.0 ~ -0.7) : 매우 강한 관련성 (2) 0.69 ~ 0.4 (-0.69 ~ -0.4) : 상당한 관련성 (3) 0.39 ~ 0.2 (-0.39 ~ 0.2) : 약간의 관련성 (4) 0.19 ~ 0.0 (-0.19 ~ 0.0) : 관련성 거의 없음 ! 주의 : 상관계수의 유의도는 결과표에 *로 표시가 되며, 연구분야에 따라서는 위의 구분이 맞지 않는 경우가 있음.

7 Pearson’s 상관관계 (CORRELATION)
분석 – 상관분석 – 이변량 상관계수 결과 해석 - 가설 : H0 :자동차 중량과 연비와 관련성이 없다(상관도가 0이다) Ha : 자동차 중량과 연비와 상관성이 있을 것이다.

8 편상관관계 (Partial CORRELATION)
분석 – 상관분석 – 편상관계수 사용목적 - 편상관관계 분석은 여러 변수 사이의 상관계수를 구했을 때, 변수들 사이에 공통으로 영향을 미치는 영향관계를 제거한 후 상관관계를 보는것을 의미한다. - 예제: 자동차 연비와 중량과의 관계에서 기통수의 영향을 제거한 후 분석

9 회귀분석

10 회귀분석 (Regression) 사용목적
- 변수들간의 상호관계를 분석하고 특정변수(독립변수)의 변화로 부터 다른 변수(종속변수)의 변화를 예측하기 위해 사용 - 종속변수에 영향을 미치는 독립변수를 규명하고 이들 변수들에 의해 하나의 선형방정식을 도출한다. 도출된 선형방정식을 회귀식(regression equation)이라 한다. - 예 : 자동차 연비에 영향을 미치는 요인은 무엇인가?(종속변수:자동차연비/독립변수:영향을 주는 요인(중량 등) 기본 모형 - 단순회귀분석(simple regression) Y = β0 + β1X1 + ε - 다중회귀분석(multiple regression) Y = β0 + β1X1 + β2X2 + ….. + βnXn + ε where, Y : 종속변수(dependent variable) X : 독립변수,설명변수(independent variable) β0 : 절편(intercept)

11 • 회귀분석 (Regression) 최소자승법(Ordinary Least Square : OLS)
- 실제 관측치와 모형에 의한 예측치와의 거리인 잔차(residual)를 최소화하는 방법으로 회귀분석의 계수를 계산 기본 가정 Y = β0 + β1X1 + ε 에서 - X와 Y는 선형 종속관계이다. - 설명변수 X는 비확률변수이다 - 오차항의 기대값은 0이고, 모두 동일분산을 갖고, 정규분포를 이루며 서로 독립적이다. Y-Y ^ - Y = β0 + β1X1

12 회귀분석 (Regression) 회귀분석(분석 – 회귀분석 – 선형)

13 회귀분석 결과해석 회귀분석 모형의 적합도 - 회귀계수의 모형 적합도는 회귀분석의 결과에서 분산분석표를 해석한다.
회귀분석 모형의 적합도 - 회귀계수의 모형 적합도는 회귀분석의 결과에서 분산분석표를 해석한다. - 분산분석 표를 보면 F= , 유의확률 으로 회귀분석 모형이 의미 있음을 보여준다. 독립변수의 설명력 - R=807 R2=0.651(독립변수(차량중량)가 종속변수(연비)를 약 65% 설명력을 가지고 있다.

14 회귀분석 결과해석 회귀계수의 의미 해석 - 독립변수(차 중량)의 유의성은 t값으로 검증한다.(t= 유의확률=0.000) - 유의성이 있다고 검증되면 계수를 확인한다.(표준화,비표준화 계수) - 비표준화 계수는 데이터의 단위를 고려하지 않고 회귀계수를 구한값이고, 표준화 계수는 종속변수, 독립변수들 간의 단위가 맞지 않아 해석상의 문제가 발생하는 경우 데이터를 모두 Z-score로 바꾼 다음 회귀분석을 실행한 결과이다. - 상수항은 회귀방정식의 절편을 나타낸다. - 결국 회귀방정식은 다음과 같다. 자동차 연비 = – (차중량) - (해석) 자동차연비는 차 중량과 관계가 있으며 차 중량을 줄임으로써 연비향상을 가져올 수 있다.

15 Assumptions 오차항들 간의 상관관계
- 설정된 모형의 가정의 적절성 여부는 잔차항들이 서로 독립이며 정규분포를 하느지를 살펴보면 된다. - 잔차를 검정하는 것은 DURBIN-WATSON 통계량을 이용한다. DURBIN-WASTON 통계량의 기준값은 2로써 2에 가까울 수록 정규분포에 가까우며 0이나 4에 가까울수록 잔차들간에는 상관 관계가 있어 모형이 적합하다고 할 수 없다. - DW=2 (자기상관이 존재하지 않는다) - DW=0(양의 자기상관이 존재) - DW=4(음의 자기상관이 존재)

16 Assumptions 다중 공선성(multicollinearity)
- 회귀식에 투입된 독립변수들 간에 상관도가 높아서 어느 하나의 변수가 순수하게 설명력을 개선해 주는 정도가 매우 적게 나타나는 경우 - 확인 방법 .독립변수들 간에 상관계수를 계산한다. .회귀분석에서 공선성 진단을 실시한다. .회귀식을 계산하는데 단계별 진입방법을 선택하여 공선성이 존재하는 독립변수의 투입을 막는다.

17 Assumptions 다중 공선성(multicollinearity) 계속
엔진크기(0.997)와 기통수(0.344)는 유의하지 않는것을 알 수 있다. 즉 종속변수인 연비를 설명하는 변수로 적합하지 않는다는 것이다. 이것은 변수의 선정이 잘못 되었을 수도 있으나 독립변수들간에 다중 공선성이 존재하여 이미 다른 독립변수들이 이 변수들의 설명력을 대신하고 있다고 볼 수도 있다. -공선성진단표를 보면 5번째 차원에서 엔진크기(0.93)과 기통수(0.61)로 매우 높은 수치가 나와있고 이 변수들간에 다중 공선성이 존재할 가능성이 높다는것을 시사한다.

18 공선성 통계량 해석 공차한계(tolerance) - 독립변수들간의 다중상관관계(multiple correlation)를 나타내는 통계량으로 (1-R2 ) 으로 계산 - “공차한계 ≥0.1” 면 다중공선성 문제가 없는 것으로 판단 2. 분산팽창지수(variance inflation factor: VIF) - 공차한계의 역수 - “분산팽창지수≤ 10”면 다중공선성 문제가 없는 것으로 판단

19 회귀분석 결과해석 독립변수 투입방법 입력(enter) : 모든 독립변수를 한꺼번에 투입한다.
단계별(stepwise) : 회귀식의 설명력을 높이는 방법으로 변수를 투입 또는 제거한다.(가장 많이 사용) 제거 : 모든 변수를 제거한 모형을 구성 후진 : 선택된 독립변수가 의미없는 순서로 하나씩 제거되어 모형을 구성 전진 : 의미있는 독립변수들이 하나씩 순서대로 모형에 첨가

20 회귀분석 결과해석 독립변수 투입방법 계속

21 회귀분석 결과해석 독립변수 투입방법 계속

22 문제) Many colleges and universities develop regression models for predicting the grade-point average (GPA) of incoming freshmen. The predicted GPA can then be used to make admission decisions. Although most models use many independent variables to predict GPA, we will illustrate by choosing two variables: x1 = Verbal score on college entrance examination (percentile) x2 = Mathematics score on college entrance examination (percentile) The data in the table are obtained for a random sample of forty freshmen at one college. VERBAL MATH GPA x1 x2 y 81 68 57 100 54 82 75 58 55 49 64 66 80 83 93 74 51 87 99 86 98 76 59 61 85 72 3.49 2.89 2.73 1.54 2.56 3.43 3.59 2.86 1.46 2.11 2.69 2.16 2.60 3.30 3.75 2.70 3.15 2.28 2.92 2.48 79 50 65 56 97 77 39 70 90 84 62 69 52 78 67 95 89 3.45 2.76 1.90 3.01 1.48 2.98 2.58 3.27 3.47 1.30 1.22 3.23 3.82 2.93 2.83 3.84 3.33 3.06

23 Dummy변수를 사용하는 경우 회귀분석 사용목적
- 방법 : 각 국가별로 종속변수(연비)에 영향을 미치는 국가코드(명목척도)를 독립변수로 사용할 경우 / 미국(1) 유럽(2) 일본(3) 으로 코딩이 되어 있다. 항상 더미변수는 (명목변수의 척도-1)개가 필요하다. 기존의 변수 dummy1 dummy2 미국 유럽 1 일본

24 Dummy변수를 사용하는 경우 회귀분석 결과해석 모형 Y = β0 + β1D1 + β2D2
- 미국의 경우 dummy1, dummy2가 모두 0이었으므로 연비 = - 유럽의 경우 dummy1=1, dummy2=0 이므로 연비 = D1 - 일본의 경우 dummy1=0, dummy2=1 이므로 연비 = D2 - 결과적으로 미국을 기준으로 연비는 유럽 , 일본 더 높다.

25 The following data were obtained.
문제) " A company that services two brands of microcomputers would like to be able to predict the amount of time it takes a service person to perform preventive maintenance on each brand. They belive the following predictive model is appropriate." y = β0 + β1x1 + β2x2 + ε where y = Maintenance time x1 = 1 if brand A 0 if brand B x2 = Service person's number of months of experience in preventive maintenance "Ten different service people were randomly selected and each was randomly assigned to perform preventive a maintenance on either a brand A or brand B microcomputer." The following data were obtained. MAINTENANCE TIME BRAND EXPERIENCE (hours) (months) 2.0 1 2 1.8 4 0.8 12 1.1 1.0 8 1.5 1.7 6 1.2 5 1.4 9 7

26 PATH ANALYSIS 사용목적 - 아래와 같은 연구모형의 경우 차중량은 연비와의 관계에서는 독립변수이지만 실린더,엔진크기,마력의 입장에서는 종속변수이다. 이런 모형의 경우 PATH분석을 실행한다. - PATH분석은 회귀분석 명령에 없다. 각 단계별로 회귀분석을 실시하면 된다. 즉, (1) 차 중량 = 실린더 + 엔진크기 + 마력 (2) 연비 = 차중량 실린더 차중량 연비 엔진크기 마력

27 PATH ANALYSIS 계속 결과해석 - 1단계에서 차 중량 = (엔진크기) (마력) - 2단계에서는 연비 = (차중량) 임을 알 수 있다. - 직접효과 : 각 계수 (예, 차중량은 6.541만큼 엔진크기에 영향을 받는다) - 간접효과 : 각 연결 계수를 곱해서 사용. 즉, 엔진크기가 연비에 얼마정도의 간접효과를 미치는가의 경우는 * (-0.007) = 의 영향력이 있다.

28 상호작용효과의 회귀분석 사용목적 - 강화효과와 조절효과를 포함하는 모형
- 강화효과 : 독립변수의 종속변수에 대한 영향력(흡연)이 어떠한 조건(음주와 동시에 흡연)에 의해 더 강해지는것 - 조절효과 : 독립변수의 종속변수에 대한 영향력(의약품 효과)이 어떠한 조건(음주와 동시에 투약)에 의해 더 약해지는것 - 회귀분석에서의 상호작용효과 (a) y= a+ b1X1 + b2X2 (b) y= a+ b1X1+ b2X2+ b3X1 X2 (a)에서 추정된 종속변수(= y)를 건강이라고 하고 x1는 흡연량, x2는 음주량이라고 가정하면, b1는 흡연이 건강에 미치는 독립적인 영향, b2는 음주가 건강에 미치는 독립적인 영향 (b)의 는 흡연(=x1 )과 음주(=x2 )를 동시에 하는 경우(= x1x2)의 영향력

29 상호작용효과의 회귀분석(계속) - 상호작용효과분석시 다중공선성 제거방법 <편차변환(centering)>
: 상호관계를 표현하기 위해 새로 만들어진 독립변수(= x1x2)와 기존의 독립변수들(x1 , x2)간에 존재할 수밖에 없는 다중공선성의 문제가 발생 등간척도나 비율척도의 수준으로 측정된 연속(continuous) 독립변수의 경우 상호작용을 표시하는 새 변수(예:x1x2 )를 구성하기 전에 상호작용을 구성하는 원 변수들(= x1, x2)에서 각각의 평균을 차감한 편차점수(= x1-x1의 평균 ,x2 - x2의 평균)를 구성하는 것 * 변수의 편차변환 후 회귀분석을 수행 ⇒ 변환 후의 회귀계수와 변환전의 회귀계수는 동일 ⇒ 변환 후의 독립변수들간의 상관관계를 제거 *편차변환 후의 상호작용효과 회귀분석 Y= a + b1x1 + b2x2 + b3x1x2 Where, x1 = (x1 - x1의 평균) x2 = (x2 - x2의 평균) x1x2 = (x1 - x1의 평균)(x2 – x2의 평균)

30 문제 A collector of antique grandfather clocks believes that the price received for the clocks at an antique auction increases with the age of the clocks and with the number of bidders. Thus, the following model is hypothesized: y = a + b1x1 + b2x2 where y = Auction price x1 = Age of clock (years) x2 = Number of bidders AGE NUMBER OF BIDDERS AUCTION PRICE x1 x2 Y($) 127 115 150 156 182 132 137 113 117 153 126 13 12 7 9 6 11 10 15 8 1235 1080 845 1522 1047 1979 1822 1253 1297 946 1713 1024 1147 1092 1152 1336 170 162 184 143 159 108 175 179 111 187 194 168 14 5 2131 1550 1884 2041 854 1483 1055 1545 729 1792 1175 1593 785 744 1356 1262

31 문제 계속 Suppose the collector, having observed many auctions, believes that the rate of increase of the auction price with age will be driven upward by a large number of bidders. Thus, instead of a relationship like that shown in Fig(a), in which the rate of increase in price with age is the same for any number of bidders, the collector believes the relationship is like that shown in Fig(b). Note that as the number of bidders increases from five to fifteen, the slope of the price versus age line increases. When the slope of the relationship between y and one independent variable (x1) depends on the value of a second independent variable (x2), as is the case here, we say that x1 and x2 interact. A model that accounts for this type of interaction is written y = a + b1x1 + b2x2 + b3x1x2 Price (y) Price (y) Note: All lines have the same slope x2=15 bidders x2=15 bidders x2=10 bidders x2=10 bidders x2=5 bidders x2=5 bidders Age of clock (x1) Age of clock (x1) Fig(a) No interaction between x1 and x2 Fig(b) interaction between x1 and x2


Download ppt "경영data분석 상관관계(단순상관,다중상관,부분상관계수) 회귀분석(단순회귀, 다중회귀, Path Analysis,"

Similar presentations


Ads by Google