제13장 로지스틱회귀분석.

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
제14장 요인분석.
구간추정 (Interval Estimation)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
각 행 (row) 에서 같은 첨자가 있는 곳은 비워두고, 그 밖에 cell에 수준수 (level) 또는 반복수를 기입
공차 및 끼워맞춤.
수치해석 6장 예제문제 환경공학과 천대길.
자료분석 및 통계활용.
비모수통계.
10장 랜덤 디지털 신호처리 1.
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
제 19 장 유의성 검정 가설검정의 원리 귀무가설과 대립가설 검정통계량과 유의수준 제1종 오류와 제2종 오류 유의성 검정절차
경영통계학 통계학은 어떤 학문인가? What is Statistics? 1.1.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
비모수 분석 및 복습.
· 제 14 장 상관관계분석과 회귀분석 상관관계분석
SPSS 이용한 논문 통계 강좌 우송대학교 IT 경영학과 하임숙
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
로지스틱 회귀분석.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
단순회귀분석 단순회귀분석의 개요 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만, 단순선형회귀분석(simple linear regression; 이하 단순회귀분석)은 두 변수간의 인과관계(casual relationship)를 조사하는 방법임. 독립변수(예측변수)
자료처리 및 통계분석(2) 통계분석의 이해(2) - 가설검증 - 변수유형에 따른 통계분석방법 통계분석방법
Keller: Stats for Mgmt & Econ, 7th Ed
마케팅 조사론 Marketing Research.
13장 카이제곱(χ2)분석 2019년 2월 24일 오전 3시 39분2019년 2월 24일 오전 3시 39분
척도의 네 가지 유형 척도(scale) : 변수나 construct를 측정하는 도구이며 마케팅 조사를 위해 개발될 수 있는 척도는 한 가지 construct를 측정하기 위해 여러 가지 형태로 개발하는 것이 가능하기 때문에 사실상 무한이라고 할 수 있다. 종류(정보의 양.
SPSS 강원대학교 생물학과 석사 과정생 김자경.
(independent variable)
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
회귀분석(Regression).
SPSS - Statistics - AMOS
생활 습관과 학교 성적의 통계분석 조장: 이태훈 조원: 이진원.
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
단순회귀분석 (Simple Linear Regression Analysis)
Multiple regression analysis
제 11장 인자분석(Factor Analysis)
논문작성을 위한 연구모형 설정 양동훈.
6.4 삼원배치 (혼합모형, no replication)
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
제3장 함수와 배열수식 전진환
Sampling Distributions
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
자녀의 심리적 안정도에 미치는 부모요인 분석.
Amos 17.0 구조방정식모델링 원리와 실제 제7장 모델의 적합도 평가 및 결과의 해석.
Support Vector Machine
교육통계 공분산분석 발표자 : 김 성 순(석사2학기) 발표일 : (수) ANCOVA.
계량경제학 1.관광수요의 결정요인 2.관광수입과 환율의 상관 관계..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
(Analysis of Variation, ANOVA)
Presentation transcript:

제13장 로지스틱회귀분석

로지스틱회귀분석 로지스틱회귀분석(logistic regression) 독립변수의 선형결합을 이용하여 사건의 발생가능성(발생확률)을 예측하는데 사용되는 통계기법 독립변수의 선형결합으로 종속변수를 설명한다는 관점에서는 회귀분석, 판별분석과 유사함 종속변수는 명목척도로서 binary data이어야 함 <참고> 종속변수 독립변수 분산분석 간격/비율척도 명목척도 회귀분석 간격/비율척도 명목/서열/간격/비율척도 판별분석 명목척도 명목/서열/간격/비율척도 로지스틱회귀분석 명목척도 (binary) 명목/서열/간격/비율척도

공리적 확률(axiomatic probability) 사건 의 확률 이 다음의 3가지 공리를 만족하면 를 공리적 확률이라 함 ? 1. [질문] 2. ? 3. 여기서 는 표본공간 는 의 여사건 현대통계학에서 확률이라 함은 공리적 확률을 의미함 (참조) 공리적 확률은 A. N. Kolmogorov가 제시

로지스틱회귀분석모형 p개의 독립변수로 사건 E가 발생할 확률을 예측하기 위한 모형 : 사건 E가 발생할 확률 : 독립변수의 선형결합 [질문] 사건 E가 발생하지 않을 확률

사건E의 발생확률과 독립변수 선형결합간의 관계 S자형 곡선 모형의 추정방법  최우추정법

승산비(odd ratio) 사건이 발생할 확률과 사건이 발생하지 않을 확률의 비율 로지스틱회귀분석모형으로부터 양변에 자연로그(ln)를 취하면

모형의 적합성 검토 적중률 분석 우도값 분석(likelihood value) 적합성 통계(goodness-of-fit statistic) 모형카이제곱(model chi-square) 개선도(improvement)

적중률 분석 케이스의 분류 추정확률이 0.5초과이면 사건이 발생하는 집단으로 분류함 추정확률이 0.5미만이면 사건이 발생하지 않는 집단으로 분류함 추정확률이 0.5이면 임의로 분류 적중률(hit ratio) 전체 케이스 중에서 추정확률로 정확히 분류된 케이스의 비율 적중률이 높을 수록 모형의 적합도가 높다고 할 수 있음 잘못 분류된 케이스의 추정확률이 0.5에서 크게 벗어나 있을 경우 추정모형에 문제가 있음을 의미함.

우도값 분석 우도(likelihood) 주어진 추정계수로 관측값이 발생할 확률 우도를 이용한 적합도 검토 우도는 0과 1사이의 값을 취함 우도에 로그를 취하고 여기에 -2를 곱한 값 으로 적합도를 검토함 모형이 완전하게 적합하다면 우도는 1  -2LL은 0이 될 것임 : 관측값 : 예측값 우도가 0에 접근할 수록 적합도는 낮음을 나타냄  -2LL은 +inf로 접근

적합성통계 적합성통계(goodness-of-fit statistic) [질문] 적합도가 높을 수록 이 접근하는 값?

모형카이제곱 모형카이제곱(model chi-square) 상수항만을 가진 모형의 -2LL값과 k개의 독립변수를 가진 모형의 : k개의 독립변수를 가진 모형의 -2LL값 모형카이제곱은 “k개의 독립변수들의 회귀계수가 모두 0”이라는 귀무가설을 검정하는데 사용함 cf. 회귀분석의 F검정에 해당함

개선도 개선도(improvement) 단계적선택(stepwise)을 이용한 모형구축과정에서 현재모형의 -2LL값과 : 단계 t-1에서의 -2LL값 : 단계 t에서의 -2LL값 “단계 t에서 진입한 변수들의 회귀계수가 모두 0”이라는 귀무가설을 검정함

편회귀계수 검정

왈드통계량 왈드통계량(Wald statistic) 독립변수가 범주형이 아닌 경우 : 에 대한 최우추정치 : 의 분산에 대한 추정치 chi-square분포를 따름 회귀계수의 절대값이 크면 추정한 표준오차의 값도 커져 “회귀계수가 0”이라는 귀무가설을 기각하지 못하는 바람직하지 못한 성향을 가지고 있음  이를 개선한 것이 우도비통계량

우도비통계량 축소모형(reduced model) j번째 변수가 제외된 모형 포화모형(full model) 현 단계의 모든 변수가 포함된 모형 : 축소모형의 우도값 : 축소모형의 로그우도값 : 포화모형의 우도값 : 포화모형의 로그우도값 우도비통계량 j번째 변수가 유의하지 않다면 값은 1에 접근함 값은 0에 접근함

조건부통계량 : 포화모형의 로그우도값 : 에서 평가한 로그우도값 : 를 제외한 나머지 회귀계수 추정치 조건부통계량(conditional statistic) 우도비통계량과의 차이점 우도비통계량에서는 축소모형의 회귀계수를 재추정함 조건부통계량에서는 축소모형의 회귀계수를 재추정하지 않음

점수통계량(score statistic) 왈드통계량, 우도비통계량, 조건부통계량 등은 변수를 제거하는 기준으로 사용되는 반면 점수통계량은 변수의 진입을 결정하는 기준으로 사용됨 점수통계량 계산방식은 매우 복잡  생략 점수통계량의 유의수준이 낮을 변수부터 진입

R통계량 : j번째 독립변수의 자유도 범주형변수가 아니면 = 1 범주형변수 이면 = 범주의 수 - 1 : 상수항만을 가진 모형의 로그우도값 R통계량 R통계량의 부호는 j번째 독립변수의 회귀계수의 부호와 같은 절대값이 0에 가까울 수록 모형에 대한 공헌도가 낮음을 나타냄

정성적 변수의 처리 회귀분석이나 판별분석과 마찬가지로 로지스틱 회귀분석에서도 이진수의 가상변수를 도입하여 정성적 변수를 독립변수로 사용할 수 있음 정성적 변수를 독립변수로 사용하는 이유는 정성적 변수가 나타내는 집단간의 비교를 위한 것임 정성적 변수의 값이 0-1 이진수변수인 경우 값이 0인 집단은 준거집단으로 비교대상임 값이 1인 집단의 로지스틱 회귀계수는 승산비의 로그값의 차이로 해석할 수 있음

정성적 변수가 3개 이상의 집단을 나타내는 경우 (c – 1)개의 이진수 가상변수를 도입하여 사용함 계산 결과에 나타나지 않는 집단을 (c-1)개 가상변수의 값이 모두 0인 것으로 나타냄 (indicator coding) (c-1)개 가상변수의 값이 모두 -1인 것으로 나타냄 (effect coding) 지표코딩에서는 가상변수 값이 모두 0인 집단의 평균이 비교기준이 되며 효과코딩의 경우 전체집단의 평균이 비교기준이 됨

모형의 구축 모형구축방법 Enter(입력) Forward(전진단계적선택) Backward(후진단계적선택)

Forward 회귀분석에서의 Stepwise와 같은 방식임 상수항만으로 모형을 시작하여 각 단계마다 독립변수가 하나씩 모형에 추가되거나 모형에서 제거됨 SPSS에서는 왈드 통계량, 우도비 통계량, 조건부 통계량 중 하나를 진입과 제거의 기준으로 활용할 수 있음 각 단계마다 모형에 들어있지 않은 변수들 중에서 선택한 통계량의 유의수준이 진입기준보다 낮은 경우에 유의확률이 가장 낮은 변수를 다음 단계의 진입변수로 선정함 매 단계마다 모형에 이미 선정되어 있는 독립변수에 대해 모형에서 제외할 것인지를 검토함 모형에 있는 독립변수들 중 지정한 통계량의 유의확률이 제거기준을 초과하는 변수가 있는 경우 유의확률이 가장 큰 변수를 제거함

종속변수 : gender 0 : male, 1 : female 독립변수 : educ(교육수준), salary2(현재급여), salbgin2(최초급여), jobtime(입사후경력), prevexp(입사전경력), jobcat(직종), minority(소수민족여부) method : forward:conditional