2007 겨울 통계강좌 중급과정 제9강 중다회귀분석의 해석 및 응용.

Slides:

Advertisements

Similar presentations

소명의식 기본심리욕구 소명실행 1) 삶의 만족 2) 심리적 안 녕 자아수용 긍정적 대인관계 자율성 환경에 대한 통제 삶의 목적 개인적 성장 자율성 유능성 관계성 일 가치감 일 목적지향 천직의식 기여와 헌신동기 이타행동 가설 1. 소명의식은 삶의 만족에 영향을 미칠 것이다.

Advertisements

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.

제13장 로지스틱회귀분석.

재료수치해석 HW # 박재혁.

제14장 요인분석.

2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;

구간추정 (Interval Estimation)

3일차 - 가설검정.

각 행 (row) 에서 같은 첨자가 있는 곳은 비워두고, 그 밖에 cell에 수준수 (level) 또는 반복수를 기입

원자 스펙트럼 1조 서우석 김도현 김종태.

회귀분석(Regression).

회귀분석(Regression).

수치해석 6장 예제문제 환경공학과 천대길.

제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling

제12주 회귀분석 Regression Analysis

RS 및 D 플립플롭 RS Flip Flop 래치는 어떤 입력 레벨에 의해서 제어되는 데 플립플롭은 클록 입력이라고

질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.

11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.

Error Detection and Correction

제5강 : GLM(General Linear Model) ▫ 반복측정 일반선형 모형

제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가?

상관함수 correlation function

상관분석 (p , p ).

제 7장 연관성분석 화장품과학과 홍보람.

단순회귀분석 단순회귀분석의 개요 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만, 단순선형회귀분석(simple linear regression; 이하 단순회귀분석)은 두 변수간의 인과관계(casual relationship)를 조사하는 방법임. 독립변수(예측변수)

제4장 제어 시스템의 성능.

Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.

Keller: Stats for Mgmt & Econ, 7th Ed

자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.

문제 2명의 사형수가 있다. 둘에게는 검정색 모자와 흰색 모자를 임의로 씌우는데, 자기가 쓴 모자의 색은 절대로 알 수가 없다. 서로 상대의 모자색만을 볼 수 있고, 이들이 살기 위해선 자신의 쓴 색의 모자를 맞춰야 한다. 단, 둘 중 한명만이라도 자신이 쓴 모자의 색을.

Linear Mixed Model을 이용한 분석 결과

(independent variable)

Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)

회귀분석(Regression).

컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -

고체역학 2 - 기말고사 1. 단면이 정사각형이고 한번의 길이가 a 일 때, 최대굽힘응력과 최대전단응력의 비를 구하라(10).

8장. spss statistics 20의 데이터 변환

두 모집단에 대한 검정.

Frequency distributions and Graphic presentation of data

Decision Tree & Ensemble methods

논문작성을 위한 연구모형 설정 양동훈.

Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building

알고리즘 알고리즘이란 무엇인가?.

디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승

약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계

김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리

에어 PHP 입문.

자녀의 심리적 안정도에 미치는 부모요인 분석.

Chapter 1 단위, 물리량, 벡터.

Support Vector Machine

Chapter 1 단위, 물리량, 벡터.

교육통계 공분산분석 발표자 : 김 성 순(석사2학기) 발표일 : (수) ANCOVA.

계량경제학 1.관광수요의 결정요인 2.관광수입과 환율의 상관 관계..

최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)

비교분석 보고서 Template 2015.

Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5

통계학 R을 이용한 분석 제 2 장 자료의 정리.

텍스트 분석 ㈜ 퀀트랩.

제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차

제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.

수치해석 ch3 환경공학과 김지숙.

2007 겨울 통계강좌 중급과정 제12강 판별함수 분석의 이해 및 실전.

CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)

버스와 메모리 전송 버스 시스템 레지스터와 레지스터들 사이의 정보 전송을 위한 경로

(Analysis of Variation, ANOVA)

알렌 인지 수준 판별검사와 한국판 간이 정신상태 판별검사의 상관관계

Survey Sampling Sangji University.

Presentation transcript:

2007 겨울 통계강좌 중급과정 제9강 중다회귀분석의 해석 및 응용

두 방법 모두 가능하나 해석적 복잡성 때문에 대안적인 경로분석이나 리스셀, 아모스 사용이 권장 ▣ 중다회귀분석의 종류에 따른 분석의 차이 : 연구의 목적 표준회귀분석 위계적 회귀분석 단계적 회귀분석 회귀모형 검증 ○ Ｘ 개별 독립변인의 효과검증 가설검증 ○ 탐색적 연구 Ｘ 가설검증 Ｘ 탐색적 연구 ○ 독립변인의 통제효과 새로운 독립변인의 추가 효과 독립변인간의 상호작용효과 여러 회귀모델간의 비교 이들의 응용인 스텝와이즈 사용 새로운 표집을 통한 회귀모형 예측 변인간의 인과관계설명 두 방법 모두 가능하나 해석적 복잡성 때문에 대안적인 경로분석이나 리스셀, 아모스 사용이 권장 표준회귀분석은 한꺼번에 변수 투입 -> 모든 개별 독립변인의 설명변량을 다 합해도 전체 R2의 값과 같아 지지 않는다. 위계적 회귀분석은 연구자가 변인 투입의 순서를 정해준 방식대로(모형대로) 투입 단계적 회귀분석은 컴퓨터의 계산에 의해 가장 설명력 높은 변수부터 투입

중다회귀분석의 실행 1 ▣ 회귀분석의 Linear를 선택한 후 옵션 설정 및 지수를 조정하여 Run 실제사례 : regr_3.sav -> open / 중다회귀1.SPO / SYNTAX * 외모평가, 유머능력, 성격, 지능에 따라 대인매력의 정도를 파악할 수 있는가? 광고모델 선정을 위해 => 표준중다회귀분석, 위계적 중다회귀분석, 단계적 중다회귀분석 순으로 돌림 ① 표준중다회귀분석은 독립변인이 회귀식에 동시에 투입되는 특징을 가짐 => 각 독립변인들은 종속 변인을 설명하는 방식에서 다른 독립변인과 공통으로 설명하는 부분(공통변량)을 제외하고 각각의 고유한 기여정도(고유기여도) 만으로 설명변량을 갖게 된다. ② 위계적 중다회귀분석은 투입되는 독립변인의 순서가 연구자에 의해 생성되기에 이는 연구자가 경험적 근거(선행연구의 이론적 혹은 논리적 근거)를 바탕으로 정하는 것이 일반적이다. 따라서 회귀식은 독립변인이 하나씩 첨가되면서 구성되고 하나씩 첨가될 때의 회귀모형을 평가한다. 즉, 모델 1) 매력 = 외모평가 모델 2) 매력 = 외모평가+유머능력 모델 3) 매력 = 외모평가+유머능력+성격 모델 4) 매력 = 외모평가+유머능력+성격+지능, ③ 단계적 중다회귀분석은 회귀모형의 설명량(R2)이나 개별 독립변인의 상대적기여도(β계수, R2 변화량, 각 유의도 검증)에 대한 평가는 위계적 회귀분석과 동일하나, 결정적 차이는 위계적 회귀분석에서는 회귀모형을 오로지 통계적 계산에 기초하여 컴퓨터가 투입될 순서를 정하는 것이다.

중다회귀분석의 해석 1 ▣ ① 기술통계치 출력 : 각 변수에 대한 평균, 표준편차, 사례수 등이 출력 ▣ ① 기술통계치 출력 : 각 변수에 대한 평균, 표준편차, 사례수 등이 출력 평균과 표준편차를 검토한 후 데이터에 대한 윤곽을 파악한다. ② 상관관계계수 출력 : 독립변인과 종속변인간의 상관관계계수를 구한 후 이를 이용, 변량 분석실시 독립변인들간의 상관관계를 보면 다중공선성의 분위기를 파악 할 수 있다. ③ 회귀모델의 변량분석 : 독립변인간의 상관관계가 낮다고 판단된다면 : 앞서 3)의 각 독립 변인과 종속변인의 상관관계계수(r)를 자승한 값을 구해서 합하면(개별 설명변량을 합하면) 독립변인의 설명변량인 R2값이 된다. 이렇게 합한 R2값은 연구자가 알고 싶어하는 독립변수들을 통한 종속변수를 설명하는 양, 즉 설명변량의 총량이 된다. ▣ 만일 독립변인간의 상관관계가 존재한다고 하면 회귀모델의 유의도 검증 : 회귀분석의 변량분석이 끝난 후 도출되는 회귀모델의 유의도 검증은 아노바 테이블을 활용한다. 따라서 F값을 활용하며 이 F값은 선형회귀분석의 아노바 테이블의 설명변량을 의미하는 선형회귀분석의 평균제곱(Mean Square)값을 설명할 수 없는 변량인 잔차의 평균제곱(Mean Square) 값으로 나눈 값이다. 이때 유의도를 참조하여 연구가설에 따른 회귀모형이 적합한지를 검증한다. 단 주의할 점은 다중회귀의 유의도 검증은 변인간의 관계가 있는지 없는지 만을 판단해 주기 때문에 변인간의 관계가 정적인지 부적인 관계인지는 알지 못하고 이를 알기 위해서는 개별 회귀계수의 유의도를 검증해야 만 가능하다.

중다회귀분석의 해석 2 ▣ 회귀모델의 변량분석 : ▣ 회귀계수의 유의도 검증: ① 중다회귀분석에서 회귀선과 회귀계수 구하기 : ▣ 회귀모델의 변량분석 : 개별 독립변인과 종속변인과의 상관관계를 제곱해서 합하면 된다. 왜냐면 독립변인간의 겹치는 설명변량[공유기여도] 때문이다(즉, 이렇게 해석하면 과도하게 오버하는 해석이 될 수 있다). 따라서 이 경우는 개별 독립변인과 종속변인간의 상관관계를 제곱해서 모두 합한 값에서 독립변인 과 독립변인간의 상관관계 값을 제곱한 값을 추가로 빼줘야지만 정확한 설명변량을 구해낼 수 있는 것이다. 또한 다중회귀분석에서의 Multiple R값은 여러 개의 독립변인을 합하여 이것을 하나의 독립변인으로 취급, 종속변인과의 상관관계계수를 구한 값의 절대값이다. 설명변량 R2값은 이 Multiple R값을 자승(제곱)한 값이다. 반대로 설명변량 R2값을 제곱근(√ 를 씌운값)한 값이다. ▣ 회귀계수의 유의도 검증: ① 중다회귀분석에서 회귀선과 회귀계수 구하기 : Y= 비표준화 회귀계수의 상수 + (비표준화 회귀계수 독립변수1 * X1)+ (비표준화 회귀계수 독립변수2 * X2) Y’= 표준화 회귀계수의 상수 + (표준화 회귀계수 독립변수1 * X1’) + (표준화 회귀계수 독립변수2 * X2’) 이렇게 회귀계수의 유의도를 검증하는 이유는 회귀분석이 제대로 이뤄졌는지 확인하기 위한 재검증 과정이자 본인의 연구모델이 적합한지에 대한 검증 절차이며, 더 나아가 연구에 따른 모델을 통해 회귀분석 본연의 임무인 현상에 대한 예측이 가능한지를 알기 위함이다. 모수치 추정 : 신뢰구간은 표본연구에서 얻은 비표준 회귀계수로부터 95% 확률을 가진 모수치의 최소값과 최대값을 말한다.

중다회귀분석의 해석 3 : 표준중다회귀분석 표준중다회귀분석은 독립변인이 회귀식에 동시에 투입되는 특징을 가짐 => 각 독립변인들은 종속변인을 설명하는 방식에서 다른 독립변인과 공통으로 설명하는 부분(공통변량)을 제외하고 각각의 고유한 기여정도(고유기여도) 만으로 설명변량을 갖게 된다. ▣ 본격 분석 들어가기 전 사전 수행 : 다양한 방법을 통해 극단치와 잔차의 정상성, 동변량성, 등분산성 및 다중공선선의 유무를 파악한 후 데이터를 처리하기 좋은 상태로 만든다. ▣ 일차적 분석 수행 : ① 기술통계수치 출력 : 평균 표준편차 ② 모델에 투입된 변인들간의 상관관계 계수 출력 ③ 변수투입순서 표시 : 표준에서는 의미없음, 동시에 모든 변수 투입됨 ④ 회귀모델의 요약 및 변량분석 테이블 출력 : R, 설명변량인 R2, Adj R 2값, R 2 체인지 값들이 출력되고, 아노바 테이블의 모델 내용을 확인 ⑤ 코이피션트 테이블에서 비표준화된 β표준화된 β계수를 보고 유의도 측정(다중공선성 지수도 함께 있음) / 준여과상관제곱의 값이 표준중다회귀분석에서 설명되는 전체 설명 총변량값 -> R2과 비교해 볼것 ⑥ 코이피션트 코릴레이션 테이블 : 상관관계와 공변량 관계가 도출 ▣ 따라서 표준중다회귀분석은 전체적인 회귀모형을 설명하고 적합성을 판단하는 데는 큰 무리가 없으나 개별 독립변인들의 정확한 설명변량을 구하고자 할때는 무리수가 있다. 특히 독립변인들간의 상관이 높아질 수록 공통변량이 커지기 때문에 개별 변인의 효과를 설명하기가 더욱 어려워진다. 결국 표준중다회귀분석은 전체적인 회귀모형의 검증이나 여러 개의 회귀모형을 비교하는 목적을 제외하고는 사용하지 않는 것이 바람직하다

중다회귀분석의 해석 4 : 위계적중다회귀분석 위계적 중다회귀분석은 투입되는 독립변인의 순서가 연구자에 의해 생성되기에 이는 연구자가 경험적 근거(선행연구의 이론적 혹은 논리적 근거)를 바탕으로 정하는 것이 일반적. 따라서 회귀식은 독립변인이 하나씩 첨가되면서 구성되고 하나씩 첨가될 때의 회귀모형을 평가한다. 즉, 모델 1) 매력 = 외모평가 / 모델 2) 매력 = 외모평가+유머능력 모델 3) 매력 = 외모평가+유머능력+성격 / 모델 4) 매력 = 외모평가+유머능력+성격+지능, ▣ 본격 분석 들어가기 전 사전 수행 : 상동 ▣ 일차적 분석 수행 : 상동 다만 준여과상관제곱의 값은 전체 설명 총변량 값 -> R2과 비교해보면 정확히 일치 즉, 모델 1) 매력( )=상수( )+( )외모평가 모델 2) 매력( )=상수( )+( ) 외모평가+( ) 유머능력 모델 3) 매력( )=상수( )+( ) 외모평가+( ) 유머능력+( )성격 모델 4) 매력( )=상수( )+( ) 외모평가+( ) 유머능력+( )성격+( ) 지능, 특히 각 단계별로 변화되는 설명량(R2)의 변화와 단계별 모형검증 값인 F값의 변화를 유의 깊게 살펴볼 것(만일 F값이 낮아 진다는 것은 그만큼 새로운 독립변인이 추가됨으로 인해서 통계적으로 유의미한 결과를 가지기는 하지만 회귀모형의 개선이 이루어 지지는 않는다는 점이다) ▣ 위계적 회귀분석에서는 가장 먼저 투입되는 변량의 설명량이 두번째로 투입될 변량과의 공유기여도를 포함하고 있다. 따라서 전체의 설명량과 각 독립변인의 개별 설명량을 비교할 경우 정확하게 일치하게 된다는 장점은 있으나 마지막에 투입되는 변량의 경우는 상대적으로 미미한 영향력만을 알 수 있다는 단점도 존재한다. 따라서 개별 변인의 효과를 검증하기에 좋은 방법이며, 독립변인 들의 상대적 효과를 밝히기 위한 가설검증 연구에 적합한 방법이다.

중다회귀분석의 해석 4-1 : 위계적중다회귀분석의 응용 위계적 중다회귀분석의 한가지 중요한 응용이 공변량 분석이다. 절차는 동일하나 해석적 관점만 달리하는 것으로 앞선 사례에서 ‘외모변인이 설명력이 약해 뺄 수도 있지만 외모가 대인매력을 설명하는 정도를 제외한다면 나머지 변인인 유머, 성격, 지능이 얼마나 대인매력을 설명할 것인가?에 대한 회귀모형을 검증할 수 있다. ▣ 이때의 모형설정 즉, 모델 1) 매력( )=상수( )+( ) 유머능력 모델 2) 매력( )=상수( )+( ) 유머능력+( )성격 모델 3) 매력( )=상수( )+( ) 유머능력+( )성격+( ) 지능, 이때 해석은 원래 외모변수가 포함된 전체모형(앞의 모형4)에서 69.5%에서 외모의 설명량 57.2%를 뺀 12.3%만 을 연구자가 알고자 하는 실제 설명변량으로 간주함으로써 외모를 통제한 상태에서 나머지 변인들의 효과를 파악한다. 여기서는 외모의 효과가 통제 되었을 때 각 독립변인의 설명량(R2) 변화량과 그에 대한 유의검증(F값)을 통해 개별 변인의 상대적 변량 크기를 알 수 도 있다. -> (통제할 변인의 우선순위가 정해진 경우) ‘지능’을 통제할 경우 : 지능은 0.7%의 설명량이 알고자 하는 부분인데 통계적으로 유의미하지 않으므로 외모, 유머, 성격변인을 통제할때 지능은 대인매력을 설명력을 예측하지 못한다고 해석 -> (통제할 변인의 우선순위가 정해지지 않거나 부분적으로 정해진 경우) 우선순위가 결정된 변인은 순서적으로 투입하고 그렇지 않은 변인은 한꺼번에 투입한다, 즉, 위계적 회귀+표준 중다회귀의 결합방식 :외모는 우선순위가 정해진 반면 유머와 성격은 안정해질 경우 1) 외모 2) 외모+성격+유머 3) 모두 -> 다만 공변량 분석이 아닌 경우 위계 + 표준으로 설정해서 표준중다의 결과에서 순위를 정한 다음 순위가 정해진 순서대로 위계적 회귀분석을 다시 돌린다. ▣ 독립변인간의 다중공선성 주의 : 공차가 1에 접근해야 다중공선성이 없다는 것의미 따라서 외모, 유머, 지능은 다중공선성이 있음을 말해준다. 이때는 별도로 재차 다른 요인을 중심으로 모형돌리기를 수행하여 최적의 결과를 선택하는 것이 중요하다

중다회귀분석의 해석 5 : 단계적중다회귀분석 단계적 중다회귀분석은 회귀모형의 설명량(R2)이나 개별 독립변인의 상대적기여도(β계수, R2 변화량, 각 유의도 검증)에 대한 평가는 위계적 회귀분석과 동일하나, 결정적 차이는 위계적 회귀분석에서는 회귀모형을 오로지 통계적 계산에 기초하여 컴퓨터가 투입될 순서를 정하는 것이다. ▣ 본격 분석 들어가기 전 사전 수행 : 상동 ▣ 일차적 분석 수행 : 위계적 회귀분석과 상동 순서가 위계적 회귀분석과 같기에 먼저 투입되는 변인이 공통변량을 가져가서 나머지 투입될 변인의 순서가 바뀔 수 있다. 이러한 근거는 위계적은 연구자가 가설을 설정하는 것이지만 단계적은 컴퓨터 가 사전에 투입된 변연의 설명량에 귀속된 부분을 제하고 나머지 독립변인 중 종속변인에 대한 설명 량을 비교하여 많은 변인을 투입하기에 그러한 현상이 나타난다. 이때 다음단계에서 투입될 변인의 모형이 통계적으로 유의미 하지 않다면 분석은 거기서 종결된다. ▣ 따라서 단계적 회귀분석은 일반적으로 사용하는 방법으로 가능한 모든 변인을 회귀식에 투입하고, 설명력과 개별 독립변인의 효과를 파악한다(방법1). 두 번째로는 단계적 회귀분석을 응용한 집합적 회귀분석을 사용하는 것으로 독립변인 하나씩을 하나의 회귀식으로 만들어 각 세트의 설명변량과 기여도를 비교한다. 이는 주로 상관이 높은 독립변수들에 대해 수행해 볼 만한 방법이다. 또한 모든 가능한 독립변인들의 조합을 비교해 보기도 하고 세개씩 묶은 목립변인의 쌍으로 구성된 회귀모형을 비교하는 것도 가능하다.

1. 가변인 회귀분석이란 ? 명명척도로 측정된 한개 이상의 독립변인 그리고 등간척도나 비율척도로 측정된 한개이상의 또 다른 독립변인과 등간척도 이상으로 측정된 한 개 이상의 종속변인과의 인과관계를 분석하는 통계방법을 가변인 회귀분석이라고 한다. 즉 명명척도로 측정된 독립변인과 등간척도 이상으로 측정된 독립변인이 같이 있을 경우 변량분석으로 분석할 수 없고, 가변인 회귀분석으로만 분석이 가능하다. 명명척도로 측정된 독립변인을 요인(factor)이라고 부르며, 등간척도(연속변수)로 측정된 변인을 공변인(covariate)이라고 부른다.

2. 가변인 회귀분석의 종류 1)독립변인의 주 효과만 검증 명명척도로 측정된 독립변인과 등간척도로 측정된 독립변인이 등간척도로 측정된 종속변인에게 미치는 개별적 영향력만 존재한다고 전제할 경우 독립변인의 주 효과만 검증하고 상호작용효과는 분석하지 않는다. 2)독립변인의 주 효과와 상호작용효과가 존재할 경우 명명척도로 측정된 독립변인과 등간척도로 측정된 독립변인이 등간척도로 측정된 종속변인에게 미치는 개별적 영향력뿐 아니라 상호작용효과도 존재한다고 전제할 경우에는 먼저 상호작용 효과를 분석한다. 만일 상호작용효과가 통계적으로 유의미하면 분석을 마치지만, 상호작용 효과가 통계적으로 의미가 없으면 주 효과를 분석한다.

여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 남성의 경우 : Y'=(A+B2)+B1X1(D1이 1이기 때문에) 3. 예 연구가설 : 성별과 연령이 음주에 대한 태도에 영향을 줄 것이다. □ 독립변인 : 성별, 연령 □ 종속변인 : 음주에 대한 태도 성별은 남성, 여성으로 측정하였고(명명변인), 연령은 실제나이(등간척도)로 측정하였다. 종속변인인 음주에 대한 태도의 경우 5점 척도(등간척도)로 측정하였다. 1)독립변인의 주 효과만 존재할 경우 여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 남성의 경우 : Y'=(A+B2)+B1X1(D1이 1이기 때문에)

여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 2) 독립변인의 주 효과와 상호작용 효과 검증 여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 남성의 경우 : Y'=(A+B2)+(B1+B3)X1(D1이 1이기 때문에)

4. 가변인(Dummy Variable)의 코딩방법 <명명 척도의 세가지 코딩법> 명명 척도로 측정된 독립변인의 각 유목에 특정 응답자가 속해 있는지의 여부에 따라 새로운 수치를 부여하는 것이다. 가변인 코딩 (Dummy coding) 효과코딩 (effect coding) 독립코딩 (Orthogonal coding) 기독교 천주교 D1 D2 E1 E2 O1 O2 응답자1(기독교) 1 -1 응답자2(기독교) 응답자3(천주교) 응답자4(천주교) 응답자5(불교) -2 응답자6(불교) 코딩방법에 따라 계산한 상수(또는 절편)와 비표준화된 회귀계수(B)값에는 차이가 있다. 하지만 세가지 방법에 관계없이 설명변랑(R2)과 자승합(sum of square), F값, 추정값의 표준오차, 예측점수 결과는 동일하다. Y=A+B1D1+B2D2 불교집단의 경우 : Y=A (D1이 0이고, D2도 0이기 때문) 기독교 집단 : Y=A+B1 (D1이 1이고, D2가 0이기 때문) 천주교 집단 : Y=A+B2 (D2이 1이고, D1이 0이기 때문)

<참 고> 1. 가변인 코딩의 경우 상관관계 분석도 가능 : 한 변인이 등간척도이고 다른 변인이 명명척도로 측정되었을 때 명명척도를 가변인 (이원변인 : binary variables)으로 변환(리코딩)시켜서 상관관계를 분석할 수 있다.1) 2. 가변인 분석(dummy variable)은 예측변인(predictor variable)으로 사용한다. 아울러 가변인 분석의 경우 단순회귀분석에서보다는 다변인 회귀분석에서 많이 사용된다. 3. 로짓(logit), 프로빗(probit) 회귀분석2) : 로지스틱(logisitic)회귀분석은 y가 명명변수일때(남녀, yes/no, 성공/실패, 방송사 선택 등) 즉, y가 불연속 변수이며, 어떠한 결정을 내리는 의미를 담고 있을 때 로짓 혹은 프로빗을 사용한다. 하지만 로지스틱 회귀분석은 변인간의 선형적 관계성을 고려하지 않는다. y의 가능한 값이 2개면 binary logit 3개 이상이면 multinomial logit

위 그림과 같이 X=a를 전후로 급격히 y가 0혹은 1로 급격히 변하는 함수를 로짓이라고 하며, 불연속변수 y를 이러한 함수를 이용해 연속변수로 바꾸어 회귀분석하는 것을 로짓 회귀분석이라고 한다. 이와 유사한 함수로 프로빗(probit)이 있는데 로짓과 거의 유사하다. 따라서 프로빗 회귀분석은 로짓 회귀분석과 거의 동일한 결과를 갖는다.