Download presentation
Presentation is loading. Please wait.
1
회귀분석
2
학습목표 회귀분석을 적절하게 사용되는 상황 설명 회귀분석과정에서 나타나는 통계값 이해 예측방정식을 설정하고 해결
R2의 유의성 검정과 회귀계수 B의 유의성 검정에 대한 차이 설명 범주형 변수를 부호화 회귀분석을 사용한 연구결과 해석
3
상관분석과 회귀분석 상관분석(相關分析, correlation analysis)
두 변수 사이의 관계 유무 또는 관계의 강도(선형관계)에 대한 통계적 분석 방법 회귀분석(回歸分析, regression analysis) 두 변수 사이의 함수관계에 대한 통계적 분석 방법
4
1. 회귀분석 1) 회귀분석이 필요한 경우 몇 가지 알려진 증거를 바탕으로 변수들간의 상호관계 설명
이것을 이용하여 알고 있는 한 변수의 점수를 바탕으로 다른 변수의 점수 예측 R2 = .25 A ß1=.32 ß2=.14 ß3=.45 ß4=.28 D B C D
5
최소제곱법(The Method of Lease Square)
회귀(Regress)란 평균을 향하여 모아진다는 의미 어떤 독립변수(X)도 Y를 완전히 예측할 수 없다. 최소제곱법(The Method of Lease Square) 각각의 X와 Y의 상관도를 기준으로 Y를 예측하기위한 가장 최적합선(line of best fit)을 만들게 되는데, 이것이 최소제곱법에 의한 방법 잔차(residual) Y 개별점수와 최적합선간의 차이 잔차가 작으면 예측선은 최적합선으로 확인됨.
6
최적합선을 위한 scatter plot
7
2) 회귀분석의 두 가지 유의성 검정 예측모형이 유의한가? 어떤 변수가 유의한 예측변수인가?
주어진 독립변수들이 함께 어느 정도 예측변수의 변량을 설명(예측)하는가? R2 의 크기에 대해 F분포로 결정 자유도 (k/n-k-1: 독립변수수/대상자수-독립변수수-1) 어떤 변수가 유의한 예측변수인가? 각 독립변수(X)의 회귀계수 (b)가 유의한가? t-검정 Beta 값으로 서로 비교가능
8
3) 자료의 유형 독립변수: 명목, 서열, 등간, 비율척도 종속변수: 등간, 비율척도
명목, 서열척도로 측정된 경우 재부호화 한 경우 가능 종속변수: 등간, 비율척도
9
4) 가정 선택된 표본은 결과를 추론하기 위한 모집단을 대표하여야 한다
관련되는 변수들, 즉 X와 Y는 반드시 정규분포 하여야 한다 X의 모든 값에 대해 Y값의 잔차 분포는 동일한 분포를 보여야 한다. 등분산성 homoscedasticity 독립성 independent X와 Y의 관계는 선형이어야 한다.
10
2. 단순회귀분석 1) 단순회귀방정식 2) 연구문제(예제 13-1) 3) 가설 𝑦= 𝛽 0 + 𝛽 1 𝑥+e
y= 종속변수, x=독립변수 𝛽 1 = 회귀계수, 𝛽 0 =절편, e=오차항 2) 연구문제(예제 13-1) 청소년의 자기효능감이 건강증진행위에 영향을 미치는가? 독립변수: 종속변수: 3) 가설 H0: 𝛽 1 = 0 H1: 𝛽 1 ≠ 0
11
4) 단순회귀분석 결과표 회귀모형의 적합도 판단 제곱합 SST = SSR + SSE 총 자승합 = 설명된 자승합
+ 설명되지 않은 자승합 SSE SST SSR
12
자유도 평균제곱합 F값, p값 SSR: K(독립변수의 수) SSE: N-K-1 MSR = SSR/K
MSE = SSE/N-K-1 F값, p값 자유도에서 F값의 한계치 확인 통계적인 유의성 확인
13
5) 회귀모델의 설명력(R2) 𝑅2= 𝑆𝑆𝑅 𝑆𝑆𝑇 𝐴𝑑𝑗. 𝑅2=𝑅2− 𝑘(1−𝑅2) 𝑛−𝑘−1 K=독립변수의 수 N=표본수
14
5) 회귀계수의 추정 𝛽 1 = ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) ( 𝑥 𝑖 − 𝑥 ) 2 𝛽 0 = 𝑦 − 𝛽 1 𝑥
𝛽 1 = ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) ( 𝑥 𝑖 − 𝑥 ) 2 𝛽 0 = 𝑦 − 𝛽 1 𝑥 검정통계량 t=회귀계수(b)/표준오차 자유도=n-2
15
5) 회귀계수의 유의성 회귀방정식 𝑦 =73.553+1.645𝑥 표 1. 자기효능이 건강증진행위에 미치는 영향
B0 B1 회귀방정식 𝑦 = 𝑥 표 1. 자기효능이 건강증진행위에 미치는 영향 자기효능감이 건강증진행위에 미치는 영향을 분석하기 위해 단순회귀분석을 실시한 결과 분석모형은 (유의수준 0.05에서) 통계적으로 유의하였고 설명력(Adj. R2)은 40.9%로 나타났다. 자기효능감이 건강증진에 긍정적인 영향을 미치는 것으로 나타났고 유의수준 0.05에서 통계적으로 유의하였다(B=1.645 p<0.05). 자기효능감이 한 단위 증가할수록 건강증진행위가 증가하는 것으로 나타났고 (유의수준 0.05에서) 통계적으로 유의하였다. 건강증진행위 ß SE 상수 73.553 8.655 자기효능 1.645* .188 Adj. R2=.409 F=76.494* * p<.05
16
6) 잔차분석
17
잔차그림(residual plot) 대략 0에 관하여 대칭적으로 나타남
설명변수(독립변수)의 값에 따른 잔차의 산포가 크게 다르지 않음 점들이 특정한 형태를 따르지 않음 모든 점들이 ±2의 범위 내에 나타남 표준정규분포에서 ±2 이내의 확률이 약 95% 모든 관측값이 ±2이내에 나타날 것임
20
3. 다중회귀분석 (multiple regression)
1) 다중회귀방정식 y= 종속변수, x=독립변수 a= 회귀계수, b=절편 2) 연구문제 우울, 재활행위실천, 사회적 지지가 중풍환자의 삶의 질에 미치는 영향 독립변수: 종속변수: 3) 가설 H0: ß1 = ß2 = ß3 = …… = 0 H1: ß1 = ß2 = ß3 = …… ≠ 0
21
3) 최적 모형(best model) 기준 순서 회귀모델의 유의성 + 회귀계수가 유의한 독립변수가 많음
모델의 설명력이 큰 경우 순서 종속변수에 유의한 독립변수 찾기 t-test, ANOVA, correlation 투입할 독립변수 선정 범주형 변수의 경우 가변수 생성 투입방법 결정(enter, stepwise) 회귀진단 독립변수들간의 상관관계 파악(다중공선성) 공차, VIF(분산팽창지수)
22
4) 다중회귀분석 결과표(예제 13-2) 상관관계 비교
23
설명력 모델의 유의성
24
회귀계수의 유의성 다중공선성 확인 𝑦=3.156−0.569우울+.114행위실천+.188 사회지지
25
잔차분석
26
잔차의 독립성 Durbin-Watson test : 오차간에 심각한 관련성이 있는지 평가함 (0-4의 분포)
> 2.0 = 음적 상관 2 = 무상관 < 2.0 = 양적 상관 독립변수의 수에 영향을 받음. 1보다 작거나 3보다 큰 경우 우려.
27
다중공선성 독립변수들이 서로 지나치게 높은 상관도를 보이면 안 됨. 공차 분산팽창지수(VIF)
독립변수에 의해 설명되지 않은 종속변수의 변인 비율 각 독립변수들을 종속변수로 취급하여 다른 독립변수를 기준으로 회귀 0에 가까우면 우려 (<.02) 분산팽창지수(VIF) VIF=1/공차 공차가 높으면 VIF는 작아짐 >10 면 우려
28
Ex) 연령, 임상경력, 부서경력, 임파워먼트, 스트레스, 조직몰입 중 간호사의 직무만족에 영향을 미치는 주요요인을 파악하시오.
최적 모형설정 가장 유의한 요인 파악
29
표 . 간호사 직무만족에 영향을 미치는 요인 B SE 상수 6.093 2.319 임상경력 -.046 .042 임파워먼트 .092 .067 스트레스 .015 .037 조직몰입 .767* .085 Adj R2= F=29.268* * p<.05 간호사 직무만족에 영향을 미치는 요인을 분석한 결과 조직몰입이 (유의수준 0.05에서 통계적으로 유의한: 생략가능) 긍정적인 영향을 미치는 것으로 나타났다(B=.767 p<.05). 임상경력, 임파워먼트, 스트레스는 통계적으로 유의한 영향을 미치지 않았다.
30
* 부호화 명목변수를 회귀분석에 투입할 수 있으나 부호화(coding)를 하여야 함 가변수(dummy) 처리 예: 결혼상태
미혼=1, 결혼=2, 이혼=3 범주수-1의 가변수 필요 Vectors 결혼상태 Dummy 1 Dummy 2 미혼 1 결혼 이혼( Reference) recoding 1=1, else=0 2=1, else=0
32
* 독립변수 투입방법 1) enter 2) Hierarchical 위계적 3) Stepwise 단계적
모든 변수들을 동시에 투입 2) Hierarchical 위계적 변수의 순서를 연구자가 설정 인구학적 특성, 임상적 특성, 인구학적 특성+임상적 특성 3) Stepwise 단계적 Forward 전진형: 상관관계가 높은 변수부터 투입. R2 증가에 기여하지 않는 변수는 투입 안됨 Backward 후진형: R2에 영향을 미치지 않는 변수 제거 Stepwise 단계형: Forward 전진형+ Backward 후진형 전진형의 방식으로 입력된 뒤 후진형의 방식으로 효과를 고려하여 설명력이 유의한 변수만 투입
Similar presentations