Download presentation
Presentation is loading. Please wait.
1
회귀분석(Regression)
2
목적 한 변수가 다른 변수들과 어떠한 관계가 있는지 (영향을 미치는지, 인과관계가 있는지 등)를 분석하고
한 변수의 값을 가지고 다른 변수의 값을 예언하고자 할 때 사용. 회귀계수(Regression Coefficient)는 예언의 값(계수) 즉, 상관관계와 비슷 하다 하지만 회귀분석은 두 변수간(또는 둘 이상)의 관계에 대해 Y’=bX+a 라는 직선의 방정식을 구함으로써 훨씬 더 정확하게 예측할 수 있음
3
1. 회귀분석의 기본개념 회귀분석=회귀방정식 이라 불리는 직선의 방정식 각 분포의 직선과 각 개별 값들의 편차가
가장 적게 나타나는 가장의 직선을 긋는다. 편차를 모두 더하면 0 편차들을 제곱해서 만들어낸 값이 가장 작은 최소자승인 최소제곱선 (the least square line)이라고 불린다. 이 중 가장 적합도가 높은 직선이 회귀선이다(Regression Line). 회귀분석은 독립변수(x)에 의하여 발생하는 종속변수(Y)의 변화에 관심 1. 회귀분석의 기본개념
4
단순선형 회귀분석 중다선형 회귀분석 단순선형회귀분석 (Simple Linear Regression)은 Y’=bX+a 처럼
독립변수와 종속변수가 하나씩 이며, 독립변수가 종속변수에 미치는 영향을 살펴볼 경우를 말함. 중다선형 회귀분석 (Multiple Linear Regression)은 Y’=bX + b’X’+ b”X”+a와 같이 다수의 독립변수가 동시에 한 종속변수에 미치는 영향을 분석할 때 사용. 독립변수와 종속변수의 분포에서 가장 오차가 적은 직선을 찾아 최소자승법의 과정 거치며, 이 최적의 직선을 Y=bx+a와 같은 방정식 형태로 표현가능 또한 이 직선의 방정식을 회귀방정식이라 한다. 기울기 b를 회귀계수, a를 상수라 함, 이렇게 방정식을 구하여 인과관계를 예측하는 것이 회귀분석이다.
5
회귀분석에서의 기본가정 주어진 자료에서 독립변수와 종속변수의 값이 분포가 직선인 관계
(선형성, Linear)이어 야 한다.-산점도 확인 서로 독립적이어야 한다.-더빈 왓슨값(Durbin-Watson)확인 분산 변량이 모두 일정해야 한다.-Scatterplot 점검 분포가 정상분포를 이루어야 한다.-히스토그램 , 회귀 표준화 잔차 정규P-P 도표확인
6
2. 단순선형회귀분석(Simple Linear Regression)
독립변수와 종속변수가 각각 하나일 경우 독립변수가 종속변수에 미치는 영향, 또는 어떤 관계가 있는지, 인과가 있는지 등을 분석하고자 할 경우 단순선형 회귀분석을 사용함 단순선형회귀분석은 Y’=bx+a와 같은 직선의 방정식을 구한다. 이때 주의해야 할 점은 독립변수와 종속변수의 관계가 명확해야 한다.
7
2. 단순선형회귀분석(Simple Linear Regression)
탑메뉴 분석 회귀분석 선형(L)
8
(2) 단순선형회귀분석의 실행 태권도 수련한 아동들의 체력을 측정
측정 항목 중 측정자의 체중이 배근력에 영향을 미치는지를 살펴보고자 한다. 이런 경우 배근력을 종속변수(D)으로 이동시킨 후, 체중을 독립변수(I)으로 이동시킨다. 그리고 확인을 누른다.
9
(3) 단순선형회귀분석의 결과 해설 단순선형회귀분석의 결과 해설1 모형 진입된 변수 제거된 변수 방법 1 체중a 입력
독립변수를 의미 진입된 변수(Variables Entered) 투입(enter)방식 방법 배근력은 종속변수를 의미함 b. 종속변수(Dependence Variable) 모형 진입된 변수 제거된 변수 방법 1 체중a 입력 요청된 모든 변수가 입력되었습니다. 종속변수 배근력
10
(3) 단순선형회귀분석의 결과 해설2 모형요약 단순선형회귀분석의 결과 해설 2 a. 예측값:(상수), 체중 모형 R 제곱
독립변수, 종속변수 두 변수간 적률 상관관계로 0.828은 높은 상관관계를 가지고 있음을 알려준다. R 독립변수에 의하여 설명되는 종속변수의 비율을 말함. 즉 종속변수의 배근력은 68.5%가 표본 회귀선에 적합한 것으로 체중에 의하여 설명되는 것을 의미한다. R2 이 1에 가까울수록 완벽한 관계에 가까워 지는 것을 의미 설명력 또는 결정계수(R2) 자유도를 고려하여 모집단의 결정계수를 추정할 때 사용한다. 수정된 R제곱 모형 R 제곱 수정된 R제곱 추정값의 표준오차 1 .828a .685 .668 a. 예측값:(상수), 체중
11
분산분석b 단순선형 회귀분석의 결과 해설 3 회귀선의 분산분석(ANOVA, F분석)모델이다.
모형 제곱합 자유도 평균제곱 F 유의확률 1 선형회귀분석 2120. 594 39. 188 .000a 잔차 974. 043 18 54. 114 합계 3094. 638 19 회귀선의 분산분석(ANOVA, F분석)모델이다. F분석은 모집단의 회귀선의 기울기가 0이라는 가설에 대한 검정. F값이 , 유의도가 0.000으로 독립변수 의 기울기(예측값, 상수),체중)가0이라는 가설을 기각해도 오류가 P<0.001이므로 회귀선 모델이 적합한 것으로 인정된다. 회귀모형을 더 정확하게 파악하게 하기 위해서 잔차(Residual)를 분석해야 한다. a. 예측값:(상수), 체중 b. 종속변수, 배근력
12
계수a 단순선형회귀분석의 결과 해설4 비표 준화계수 표준화계수
상수로 Y절편(a)에 해당한다. 즉 절편(a)은 b값 아래와 상수(Constant)가 만나는 이다. T=-1.647, p>0.05로 무의미하다. 상수(Constant) 회귀선의 기울기(b)이다. 즉 기울기b와 체중이 만나는 영향, 관계의 정도가 커진다. 상관관계와 마찬가지다. 체중 Z-score로 표현될 때 즉, 표준화된 회귀계수로 흔히 표준화계수라고 한다. X,Y값을 z점수로 환산할 경우의 기울기이다. 중다선형회귀분석에서 여러 독립변수들을 상대적으로 비교할 경우 유용하다. 베타(Beta) 각 상수와 기울기에 대한 t검정을 통하여 유의도를 검정 t/ Sig 비표 준화계수 표준화계수 모형 B 표준 오차 베타 t 유의 확률 1 (상수) 8.208 -1.647 .117 체중 1.738 .278 .828 6.260 .000 a. 종속변수: 배근력
13
중다선형회귀분석(Multiple Linear Regression)은
3. 중다선형 회귀분석 중다선형회귀분석(Multiple Linear Regression)은 Y’=bX+b’X’+b”X”+a와 같이 여러 개의 독립변수가 동시에 한 종속변수에 미치는 영향을 분석할 때 사용.
14
(1) 중다선형회귀분석의 경로 탑메뉴 분석 회귀분석 선형(L)
15
(2) 중다선형회귀분석의 실행 연령과 신장 체중이 배근력에 미치는 영향을 살펴보기 위하여 독립변수에 연령과 신장, 체중을 이동한 후 , 종속변수의 배근력을 이동시킨다. 그리고 확인!!! 지금은 투입(Enter)방식으로, 단계 투입(Stepwise)은 뒤에서 다룬다.
16
(3) 중다선형회귀분석의 결과 해설 중다선형회귀분석의 결과해설1. 진입된 변수 독립변수를 의미한다. 방법 투입방식이다.
배근력을 의미한다. 종속변수 모형 진입된 변수 제거된 변수 방법 1 체중연령, 신장a 입력 요청된 모든 변수가 입력되었습니다. 종속변수: 배근력
17
모형요약 중다선형 회귀분석의 결과 해설2 a. 예측값: (상수), 체중, 연령, 신장 R
독립변수와 종속변수의 적률 상관관계(pearson r)는 0.858로 높다 R R2 결정계수는 0.736으로 종속변수를 73.6% 설명 R제곱 수정된 R2값으로 자유도를 고려하여 모집단의 결정계수를 추정할 경우 0.686이다. 수정된 R제곱 모형 R R제곱 수정된 추정값의 표준오차 1 .858a .736 .686 a. 예측값: (상수), 체중, 연령, 신장
18
분산분석b 중다선형 회귀분석의 결과 해설3. 모집단의 회귀선의 기울기가 0이라는 가설에 대한 검정을 F값으로 알아본다.
기울기가 0이라는 가설에 대한 검정을 F값으로 알아본다. F값이 , 유의도가 0.000으로 독립변수의 기울기가 0이라는 가설이 기각, 회귀선의 모델이 적합한 것으로 인정. 회귀모형을 더 정확하게 파악하기 위해서 잔차를 분석. 분산분석b 모형 제곱합 자유도 평균 제곱 F 유의 확률 1 선형 회귀 분석 3 14.857 .000a 잔차 16 51.092 합계 19 예측값: (상수), 체중, 연령, 신장 . 종속변수: 배근력
19
계수a 중다 선형 회귀분석의 결과 해설4 표준화계수 비표준화 계수 상수 Y절편에 해당. 그리고 t값과 유의확률 확인!!
기울기 b와 각 독립변수들이 만나는 값 각 독립변수의 회귀선의 기울기 Z-score로 표현, 즉 표준화된 회귀계수로 x, y,값을 z점수르 환산할 경우의 기울기!!! 베타 각 상수와 기울기에 대한 t검정을 통하여 유의도 검정 t/Sig 비표준화 계수 표준화계수 모형 B 표준오차 베타 T 유의 확률 1 (상수) 37.281 -1.929 .072 연형 -1.487 2.237 -.202 -.665 .516 신장 .689 .461 .537 1.493 .155 체중 1.137 .447 .541 2.541 .022
20
4. 선형회귀분석의 옵션 입력 선택한 모든 독립변수를 동시에 투입함 단계선택 회귀모델을 선정하는데 사용되는
단계별로 독립변수의 유의도에 따라 최적화되도록 투입한다. 단계선택 지정된 변수들을 동시 투입 후 탈락시켜 나감 제거 등록후 변수의 제거기준에 따라 한 변수씩 뒤에서부터 제거함 후진 등록된 변수의 제거기준에 따라 한 변수 씩 앞에서부터 제거 전진 회귀모델을 선정하는데 사용되는 변수의 투입방법
21
단계선택 기법은 회귀분석에서 독립변수가 증가하면 R2이 커지는데, 이런 경우 다중공선상의 문제가 발생. 이러한 문제와 오차를 줄여 최적화 된 회귀선을 찾아내는 방법이다. 단계선택은 비교적 많이 사용됨.
22
(1)회귀계수의 통계량 선택 회귀계수의 통계량은 회귀계수, 잔차, 기타 옵션의 선택 세 영역이 중심이다.
23
(Regression Coeffcients) 추정값 회귀계수의 추정치를 알려주며 기본설정임
신뢰구간 각 비표준 회귀계수에 대한 95% 신뢰구간을 표시함 공분산행렬 비표준 회귀계수에 대한 공분산행렬을 알려줌 잔차(Residuals) Durbin-Watson 더빈 왓슨의 통계량으로 표시함. 잔차를 알아보는 것으로 사용. 잔차에 대한 상관관계가 없음을 의미. 잔차와의 상관관계가 0에 가까울수록 양에, 4에 가까울수록 음에가까울 경우 잔차들 간에 회귀모형이 부적합함을 알 수 있다. 케이스 별 진단 사례의 잔차의 정규분포성을 파악하는 것으로 이 값이 작을수록 회귀모형이 잘 추정되었다고 진단함. 모형적합 상관관계 R, 결정계수 R2, 수정된 R2, 표준추정오차, 자유도, 자승합(SS), 분산의 추정치(MS), F값 드을 알려주며, 기본설정임 R제곱변화량 수정된 결정계수로 나타나는 F검정의 변화를 알려줌 기술통계 평균, 표준편차, 상관행렬 등을 제시한다. 부분상관 및 편상관계수 부분상관관계를 제사한다. 공선성 진단 (collinearity diagnostics) 공선정 여부진단 투입되는 독립변수의 수가 커지면 설명력이 커지고, T값으로 판단하는 각 변수에 대한 모수추정치가 0으로 나타나게 된다.
24
(2)Plots 그리기 다음의 도표(L)를 선택하여 Plots를 그릴 수 있으며, 그래프 그리기도 이용할 수 있다. 특히, 히스토그램을 통하여 정규분포곡선과 어떤 분포를 보이는지 유의해 살펴보자
25
Plots그리기의 옵션 내용 DEPENDENT 종속변수를 의미 *ZPRED 표준화되지 않은 예측치를 의미 *ZRESID
표준화된 예측치를 의미 *ZRESID 삭제된 잔차 *DRESID 수정된 예측치 *ADJPRED 표준화된 잔차임 *SRESID 표준화된 삭제잔차임 *SERESID 표준화된 잔차의 히스토드램으로 정규분포곡선이 같이 그려진다. 표준화잔차도표>히스토그램(H) 표준화된 잔차의 정규확률(P-P)그래프를 그려준다. 표준화잔차도표> 정규확률도표® 종속변수와 독립변수의 잔차 점그래프이다 편회귀잔차도표 모두 출력
26
회귀표준화 잔차의 정규 P-P도표
27
5. 단계선택인 경우의 해설 *단계선택방식으로 다단계 투입의 조건과 각 투입모델이다. 단계 선택인 경우의 해설1.
진입/제거된 변수a 모형 진입된 변수 제거된 변수 방법 1 체중 단계선택 (기준: 압력할 F의 확률<=.05, 제거할 확률 >=.100) *단계선택방식으로 다단계 투입의 조건과 각 투입모델이다. a. 종속변수: 배근력
28
알려주고 있으며, 각 모델 별로 상관관계와 설명력을 제시
단계 선택인 경우의 해설2 단계선택 방식으로 다단계 투입할 경우 각 모델에 투입된 독립변수가 어떤 것인지 알려주고 있으며, 각 모델 별로 상관관계와 설명력을 제시 모형요약 모형 R R제곱 수정된 R제곱 추정값의 표준오차 1 .828a .685 .668 a. 예측값: (상수), 체중
29
단계선택방식으로 다단계 투입할 경우 각 모델 별로 F검정을 한다. F검정 결과 위의 체중 모델만 유의미함을 알 수 있다.
단계 선택인 경우의 해설3 분산분석b 단계선택방식으로 다단계 투입할 경우 각 모델 별로 F검정을 한다. F검정 결과 위의 체중 모델만 유의미함을 알 수 있다. 모형 제곱합 자유도 평균제곱 F 유의확률 1 선형회귀분석 39.188 .000a 잔차 18 54.114 합계 19 예측값: (상수), 체중 종속변수: 배근력
30
단계 선택인 경우의 해설4 계산 a 단계 선택방식으로 다단계 투입할 경우 각 모델 별로 t검정을 통하여 유의미한
회귀 계수를 찾아냄. 단계선택 방식에서는 자동으로 최적화된 모델을 찾아내므로 매우 편리함. 체중 독립변수와 배근력 종속변수와의 관계의 최적화된 모델로 볼 수 있음. 비표준화 계수 표준화 계수 모형 B 표준 오차 베타 T 유의 확률 1 (상수) 8.208 -1.647 .117 체중 1.738 .278 .828 6.260 .000 a.종속변수: 배근력
31
다단계 투입한 경우 제외된 독립변수를 나타낸다.
단계 선택인 경우의 해설5 제외된 변수b 단계선택 방식으로 다단계 투입한 경우 제외된 독립변수를 나타낸다. 연령과 신장의 독립변수들은 모두 무의미함을 알 수 있다. 모형 진입-베타 t 유의확률 편상관 공선성통계량 공차한계 1 연령 .164a .883 .389 .209 .514 신장 .344a 1.647 .118 .371 .367 a.모형내의 예측값: (상수), 체중 b. 종속변수: 배근력
Similar presentations