선형회귀분석.

Slides:



Advertisements
Similar presentations
Ch.4 수요관리와 수요예측 Ch.2 수요예측생산 ∙ 운영관리 1. 제 1 절 수요관리의 개념과 중요성 1. 수요관리의 필요성 정확한 수요예측은 사업의 성과를 좌우하는 매우 중요한 과제이다. – 수요는 판매량과 다르다. – 하지만 온갖 불확실성 요소가 난무하는 사업환경에서.
Advertisements

CRM에서의 고객 세분화를 통한 이탈방지 마케팅 전략
2. 문학의 활동 방법 [1] 문학의 수용 01 소설가 구보 씨의 일일 작가 소개 작품 정리 읽기 중 활동 학습 활동.
PASW 17.0 활용하기 일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
2017년 스타트Up-청년취Up 매칭사업 개요 □ 사업목적 □ 지원내용 □ 청년인재 정의 □ 스타트업 정의
커뮤니케이션 스킬 UP -전화매너- ..
판별분석의 개념과 적용(→ 추계통계적 성격)
비모수 통계분석 목 적 비모수 통계분석은 t검정이나 분산분석을 사용할 수 있는 등간척도 이상으로 구성된 종속변수가 아닌 서열척도로 종속변수가 구성되어 있을 경우, 또는 등간성이 의심되거나 정규분포성을 얻지 못할 경우에 순위(Rank)를 통하여 변수간의 차이를 비교할 때.
의료의 질 평가 분석 기법 김 민 경.
상관분석(Correlation Analysis)
강원대학교 지구물리학과 이 훈 열 교수 참고문헌: 이희연 2003, GIS 지리정보학, 법문사
전혈에서 시간과 온도에 따른 ACTH 의 안정성 평가
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
실습 (using SPSS) Department of Biostatistics, Samsung Biomedical Research Institute Samsung Medical Center.
최소 자승 오차법 (Least Squares Method)
통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
Medical Instrumentation
비모수 분석 및 복습.
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
학업 성취도에 영향을 미치는 요인.
SPSS를 활용한 통계분석 김 덕 기 충북대학교 정보통계학과
2007 겨울 통계강좌 중급과정 제6강 다변량 분석에 대한 이해.
기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석
ANOVA.
로지스틱 회귀분석.
MINITAB for Six Sigma.
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
제 13장 예측이론.
Medical Instrumentation
4-1 Gaussian Distribution
서울아산병원 의학통계학과 울산의대 예방의학교실 이무송
기 초 통 계 인하대학교 통계학과.
제Ⅲ부 생산능력계획 및 일정계획 제 8 장 수요예측 제 9 장 설비계획 제10장 총괄계획 제11장 일정계획
기초통계학 Chapter 5: 회귀분석 (Regression analysis)
Linear Mixed Model을 이용한 분석 결과
Other ANOVA designs Two-way ANOVA
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
(independent variable)
제 7장 회귀분석 강 사 : 김 효 창.
회귀분석.
Inferences concerning two populations and paired comparisons
BPA variability of urinary BPA in Korean infants
노인 자원봉사 학 과 명 : 사회복지과 교 과 명 : 자원봉사론 담당 교수 : 한경리교수님
Association between two measurement variables Correlation
T-test.
: Two Sample Test - paired t-test - t-test - modified t-test
Keller: Stats for Mgmt & Econ, 7th Ed 다중회귀분석 Multiple Regression
Statistical inference I (통계적 추론)
영어 원어민 한국어 학습자의 초분절음 특징 연구 이 문서는 나눔글꼴로 작성되었습니다. 설치하기.
독립성금증(χ2)-교차표 분석 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계를 조사하는 통계기법으로 χ2독립성 검증(chi-square independence test)이 있다. 예를 들어, 특정 속성에 대하여 집단별로 어떤 차이가 있는지를 알아보기 위해서 사용하는.
Multiple regression analysis
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
국내사업팀.
어린이집.
제3학술정보관 설립을 위한 도서관 이용실태 조사
Eliminating noise and other sources of error
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
타인을 내편으로 만드는 12가지 방법 고객서비스팀.
다문화 사회의 이해 배 상 훈 . 1. 한국사회의 다문화현상 2. 원인과 정책으로 살펴본 다문화 한국사회.
천국 가는 길 천국 가는 길 ♧ 천국 가는 길 ♧ 1. 죄와 사망(지옥) 1) 사람의 3가지 공통점 - 죄인, 죽음, 심판
세계영화사 입문 3강 소련영화의 혁명 소비에트 몽타주.
CH 5. 반복이 있는 이원 배치법 랜덤化 vs 분할법 (Split-Plot design) 교호작용 (AⅹB) A x B
Python 라이브러리 딥러닝 강의소개 정성훈 연락처 : 이메일 :
Progress Seminar 이준녕.
Progress Seminar 권순빈.
Progress Seminar 이준녕.
Presentation transcript:

선형회귀분석

생명표(life table), Kaplan-Meier 자료에 따른 통계분석 방법 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency(율) 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model

회귀분석(선형모델) Regression analysis X(설명변수, independent)가 Y(반응변수, dependent)에 시간적으로 선행하거나 X에 의해 Y가 결정될 때 Y(반응변수, 종속변수)는 연속형

- 독립변수(x, exposure)가 하나, (Y=β0+β1x) 2. 다중선형 회귀분석 단순선형 회귀분석 - 독립변수(x, exposure)가 하나, (Y=β0+β1x) 2. 다중선형 회귀분석 - 독립변수(x, exposure)가 둘 이상, (Y=β0+β1x1+ β1x2+ ….) - 하나의 모델 안에 X가 여러 개 - 우리가 알고 싶은 주요원인인 노출변수(x)와 결과변수 (y)의 관계에서 제3의 변수의 효과 를 보정하고자 할 때 사용 보정한다는 것 여러 변수의 효과를 동시에 고려 주요 노출변수(x)외 모든 조건을 같게 만들어 줌

예) 불안증 점수는 우울증점수에 영향을 미치는가? 주요 노출변수(x, exposure)가 연속형인 경우 해석: X가 1단위 증가당 y가 … 만큼 증가(감소) 예) 불안증 점수는 우울증점수에 영향을 미치는가? (X변수,연속형) (Y변수,항상 연속형) 주요 노출변수(x, exposure)가 범주형인 경우 해석: X의 참고범주에 비해 해당범주의 y가 … 만큼 증가 (감소) 예) 방제작업참여가 우울증 점수에 영향을 미치는가? (X변수, 범주형) (Y변수,항상 연속형)

선형 회귀분석의 귀무가설 모든 회귀분석의 귀무가설은 기울기(회귀계수, β)가 0이다. 기울기가 0 이려면 X가 아무리 바뀌어도 y는 영향을 받지 않으면 됨. (변화가 없으면 됨)

주요노출변수 (x, exposure)가 연속형인 경우 불안증 점수는 우울증 점수에 영향을 미치는가? 귀무가설: 불안증 점수는 우울증 점수에 영향을 미치지 않는다. - 대립가설: 불안증 점수는 우울증 점수에 영향을 미친다.

1. 단순선형회귀분석 Simple liner regression analysis

원하는 y(종속변수), x(독립변수)를 적어줌 주의: 모델식에서 [요인]이란 글자는 반드시 지워야 함

불안증 점수는 우울증 점수에 영향을 미치는가 ? 결과해석: 불안증 점수는 우울증 점수에 영향을 미치는가 ? 결과해석: Beta(β, 기울기, y증가량/x증가량)를 의미 P-value X (설명변수,독립변수)가 1단위 증가할 때마다 산출된 estimate 배수만큼 Y (반응변수, 종속변수)가 변화 (증가, 감소) 하였다. 불안증점수(T_ANX)가 1점 증가할 때마다 우울증점수(T_DEP)는 0.9146만큼 통계적으로 유의하게 증가 (p<0.0001)

회귀계수 해석 양수 X 증가시 Y 증가 음수 X 증가시 Y 감소

Table 1. Effect of anxiety score on depressive score Crude model Adjusted model β1 p-value β2 Anxiety score 1197 0.91 <0.0001 β1 and p-value estimated using linear regression model

회귀모형진단 (regression diagnositcs) 선형 회귀 분석을 실제로 시행하기 전 또는 시행 후 자료가 선행 회귀 분석을 위한 가정들을 만족시키는지 검토 결과에 영향을 미칠 수 있는 이상치, 영양치가 있는지 검토 오차(error), 잔차(residuals), 예측값(predicted values) 오차: 모집단에서 실제 관찰된 y값과 회귀직선에 의해 예측되어진 y값의 차이 잔차: 표본에서 실제 관찰된 y값과 회귀직선에 의해 예측되어진 y의 차이, 오차를 측정할 수 없으므로 오차 대신 잔차 이용

회귀모형진단 (잔차 분석) yi (관측값) 왜 필요할까? 그래프 상의 많은 점들을 하나의 직선으로 표현하는 것이 적절한가? 표본에서 실제 관측치 (yi)에서 모형으로부터 얻어진 추정치 (yi)를 뺀 값 잔차 (yi-yi)의 분포가 1) 정규성 2) 등분산성 3) 독립성 ^ ^ yi (직선식에서의 추정값) ^

정규성 검토 정규확률분포도: 잔차를 크기 순서대로 늘어놓고 그에 상응하는 정규백분위수를 x (정규백분위수)-y (잔차)평면 위에 그림 그림

1) 정규성검토와 2) 등분산성검토

Normal Q-Q plot이 대각선에 가까우면 잔차가 정규성을 따른다고 할 수 있다. 1) 정규성검토: 정규확률분포도 Normal Q-Q plot이 대각선에 가까우면 잔차가 정규성을 따른다고 할 수 있다. 2) 등분산성검토:잔차plot이 0을 중심으로 랜덤하게 퍼져있으면 잔차가 등분산성을 따른다고 할 수 있다. 정규성검토: 임상적, 논리적으로 독립변수와 종속변수 사이에 분명한 상관성이 있지만 단순 선형 회귀분석 결과 유의하지 않으면 두 변수 사이에 비 선형적인 상관성이 있을 가능성이 큼 이 경우 종속 변수와 선형적 상관성을 갖도록 독립변수를 적절히 변형시킴(로그, 제곱근, 제곱, 역수 등등….)(그냥 곡선 회귀분석, 시계열 분석을 사용해도 됨)

3)독립성 검토: Durbin-Watson test 회귀식의 잔차항이 독립적이지 않다는 것은 자료가 자기상관성이 있다고 볼 수 있다. 자기상관성(자기회귀)이 있다? 추정된 회귀 계수가 최적합치일 수 없고, 각 통계량이 과대평가될 수 있다. 인접한 오차항들이 독립적이기 위해 Durbin Watson test의 통계량이 2에 가까워야 한다. *2에 가까울 수록 무상관, 독립적 *0에 가까울 수록 양의 자기 상관 *4에 가까울 수록 음의 자기 상관

3) 독립성 검토 귀무가설: 인접한 오차항들은 자기상관성이 없다!! 3) 독립성 검토 귀무가설: 인접한 오차항들은 자기상관성이 없다!!

귀무가설: 인접한 오차항들은 자기상관성이 없다!! 이 모형은 자료를 설명하기에 적합하지 않으므로 회귀분석 결과를 신뢰할 수 없게 되어 다른 모형을 찾아야 한다. (정규성, 등분산성, 독립성) 이럴 경우에는 다른 보정변수를 추가하는 경우나, 독립변수를 변환시키는 방법이 있다. 인접한 오차항들이 독립적이기 위해 Durbin-Watson test의 통계량이 2에 가까워야 한다. 그 값이 0에 가까우면 양의 상관성을 의미하고, 4에 가까우면 음의 상관성을 갖는다고 할 수 있다. DW 가 2에 가깝다고 할 수 있으나, p-value가 0.05보다 훨씬 작으므로 귀무가설(자기 상관성 없다)을 기각한다. 따라서, 양의 상관성을 갖는다고 할 수 있다.

2. 다중(다변량) 회귀분석 불안증 점수는 우울증점수에 영향을 미치는가? 귀무가설: 불안증점수는 우울증 점수에 영향을 미치지 않는다. 대립가설: 불안증점수는 우울증 점수에 영향을 미친다. 보정변수: 나이, 성별, 방제작업참여 여부, 거주지역

여러 변수의 효과를 동시에 고려 Age, gender, clean-up work, living area 를 보정

P-value가 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 즉, Age, gender, clean-up work, living area 를 보정하였을 때, 불안증 점수가 1점 증가할 때마다 우울증점수는 0.921764 점만큼 통계적으로 유의하게 증가 (p<0.0001)

Table 4. Effect of anxiety score on depressive score Crude model Adjusted model N β1 p-value β2 Anxiety score 1197 0.91 <0.0001 0.92 β1 and p-value estimated using linear regression model β2 and p-value estimated using linear regression model adjusted for age and gender, clean-up work, and living area

2. 주요 노출변수(x, exposure)가 범주형인 경우 방제작업 여부는 우울증점수에 영향을 미치는가? 귀무가설: 방제작업은 우울증 점수에 영향을 미치지 않는다. 대립가설: 방제작업은 우울증 점수에 영향을 미친다. oil 방제작업여부 1: 아니오2: 예 t_dep 우울 표준화 점수

1. 단순선형회귀분석 Simple liner regression analysis1-1 X변수를 요인으로 변환하지 않은 경우 as.factor(변수이름)도 가능

P-value가 0.05보다 작아 귀무가설을 기각할 수 있다. (p<0.0001) 즉, 방제작업을 하지 않은 군에 비해 방제작업에 참여한 군은 우울증 점수가 3.1650 점 유의하게 높다고 할 수 있다.

Table 5. Effect of clean-up work on depressive symptom Crude model Adjusted model N β1 p-value β2 Clean-up work No 216 Ref. Yes 962 3.17  <0.0001 β1 and p-value estimated using linear regression model

2. 다중(다변량) 회귀분석 방제작업은 우울증점수에 영향을 미치는가? 귀무가설: 방제작업은 우울증 점수에 영향을 미치지 않는다. 대립가설: 방제작업은 우울증 점수에 영향을 미친다. 보정변수 : 나이, 성별 oil 방제작업여부 1: 아니오2: 예 T_DEP 우울 표준화 점수

Age, gender를 보정하기 위해 동일 모델에 변수를 함께 넣는다. 범주형 변수는 반드시 요인으로 변환하여 넣기. 요인으로 변환하지 않은 경우 as.factor(변수이름)도 가능

P-value가 0.05보다 작아 귀무가설을 기각할 수 있다(p=0.002). 즉, age와 gender를 보정하였을 때, 방제작업을 하지 않은 군에 비해 방제작업에 참여한 군은 우울증 점수가 2.35 점 유의하게 높다고 할 수 있다.

Table 5. Effect of clean-up work on depressive symptom Crude model Adjusted model N β1 p-value β2 Clean-up work No 216 Ref. Yes 962 3.17 <0.0001 2.35 β1 and p-value estimated using linear regression model β2 and p-value estimated using linear regression model adjusted for age and gender N β* SE p-value β† Q1(0.43,1.25) 1 Ref. Q2(1.25,1.58) 0.40 0.30 0.17 0.33 0.27 Q3(1.58,1.95) 0.57 0.29 0.05 0.53 0.08 Q4(1.95,7.18) -0.02 0.93 -0.15 0.31 0.63 β* and standard error estimated using linear regression model

과 제 25미만 : 정상 25-30미만: 과체중 30이상 : 고도 비만 비만도는 프로그램 참여 후 수축기 혈압에 데이터 health.Rdata에서 비만도는 프로그램 참여 후 수축기 혈압에 어떤 영향을 미치는지 분석하시오. 가설(귀무,대립)을 세우고 보정 안 했을 때 β, p-value 구하기 나이와 성별을 함께 보정 후 β, p-value 구하기 표로 나타내고 결과 해석 보정 시 나이는 생애주기 연령군(age_gr3)을 사용 <비만도> 25미만 : 정상 25-30미만: 과체중 30이상 : 고도 비만

감사합니다.