배화여자대학교 교수학습센터 교수법 특강 SPSS를 활용한 통계분석 워크샵 2013. 6. 25 배화여자대학교 교수학습센터
SPSS를 활용한 통계분석 워크샵 배화여자대학교 경영과 겸임교수 이성호
Part I SPSS의 시작과 운용
SPSS 의 시작 및 운용 SPSS 시작 시작을 을 통해서나 바탕화면에 있는 SPSS 아이콘을 더블클릭하면 SPSS 초기 화면이 나타난다.
SPSS 의 시작 및 운용 SPSS 초기화면
SPSS 의 시작 및 운용 Data Edition(데이터 편집기) 질문 1, 질문 2, 질문 3, … 일반적인 스프래드쉬트 프로그램들의 interface와 많이 닮아있는 것을 알 수 있다(Excel 등). 설문지 numbering : data coding error에 대비해 반드시 필요하다. .sav : data file .spv : output file Case(설문지 응답자) 변수에 대해 여러 가지 설정이 가능하다. 실질적으로 coding이 이루어지는 곳.
SPSS 의 시작 및 운용 SPSS 뷰어 SPSS를 data edition 창을 통해 입력된 data 분석을 확인하는 창으로써 통계분석 결과와 도표 등이 제시된다.
SPSS 의 시작 및 운용 SPSS 의 주메뉴, 도구모음 및 상태표시줄 파일(F) 메뉴 새로운 데이터파일을 만들 때, 기존의 파일을 열거나 다양한 유형으로 파일을 저장할 때, 파일인쇄 및 SPSS를 마칠 때 시용. 최근에 사용한 파일들의 목록이 있어 이전 문서로 빨리 돌아갈 수 있으며, 최근문서 목록의 수는 [편집]에서 옵션(N) 기능을 이용하여 변경할 수 있음.
SPSS 의 시작 및 운용 편집(E) 메뉴 보기(V) 메뉴 데이터 또는 분석결과 내용을 오려두거나 복사하여 현재 파일의 다른 위치나 다른 파일에 붙여넣기를 할 수 있으며, 일부 내용들을 삭제할 수도 있음. 변수 내에서 특정 값이 데이터를 찾고 SPSS의 선택옵션을 설정할 수 있음. 상태표시줄, 도구모음 등을 숨기거나 나타낼 수 있으며, 폰트를 바꾸거나 변수값에 대한 설명을 할 수 있음. 변수값 설명을 이용하려면 [변수설명]을 클릭하여 “”표시가 생기도록 한다.
SPSS 의 시작 및 운용 데이터(D) 메뉴 변환(T) 메뉴 변수나 케이스들을 삽입하고 정렬하는 등 SPSS 데이터파일에 대한 전반적인 처리작업을 할 수 있음. 데이터파일을 구성하는 기존 변수들을 이용하여 새로운 변수를 만들기 위한 계산을 수행. 원데어터(raw data)파일에 코딩된 값들 중 일부를 적절하게 재코딩하는 기능 등을 수행. → 설문지에 역방향 척도(reverse scale)가 있는 경우에 이를 원래 응답치와는 정반대로 재코딩할 때 변화(T) 메뉴 중 코딩변경(R) 기능을 사용함.
SPSS 의 시작 및 운용 분석(A) 메뉴 실질적인 데이터분석 메뉴로서 연구목적(혹은 조사목적)에 따라 적절한 분석방법을 선택할 수 있음.
SPSS 의 시작 및 운용 그래프(G) 메뉴 데이터 및 분석결과와 관련하여 막대그래프, 선그래프, 원그래프, 히스토그램 등 다양한 도표들을 선택할 수 있음.
SPSS 의 시작 및 운용 유틸리티(U) 메뉴 변수와 파일에 관한 정보를 찾거나 변수군을 정의하는 데 사용됨. 창(W) 메뉴 : 다른 창으로 이동하거나 SPSS 데이터 편집기나 뷰어를 최소화시킬 수 있음. 도움말(H) 메뉴 : 다른 Windows 프로그램들의 도움말 기능과 같다. 변수와 파일에 관한 정보를 찾거나 변수군을 정의하는 데 사용됨.
SPSS 의 시작 및 운용 도구모음 파일열기 : 이미 만들어진 파일을 연다. 파일저장 : 새로운 파일, 혹은 기존에 만들어진 파일을 저장. 인쇄 : 파일 인쇄. 대화상자 다시 불러오기 : 마지막에 사용된 대화상자 다시 불러오기. 복구 : 데이터 입력, 혹은 데이터 유형 실행취소. 도구모음 상자의 위치를 바꾸고자 한다면 도구상자 내에 버튼이 없는 부분을 마우스로 클릭하여 원하는 위치에 끌어 당기면(drag) 도구상자의 위치가 변경됨.
SPSS 의 시작 및 운용 변수군 사용 : 변수군을 만들어낸다. 변수군 설명 : 변수값 설명을 보이도록 하거나 보이지 않도록 한다. 케이스 선택 : 특정 기준을 사용하여 케이스셋(case set) 찾기. 가중케이스 : 케이스들에 가중치를 둔다. 파일분할 : 몇몇 정의된 변수에 따라 파일 분할. 변수삽입 : 데이터파일에 새로운 변수 추가. 케이스 삽입 : 데이터파일에 새로운 케이스 추가. 찾기 : 기록 찾기. 다른 응용프로그램들과 마찬가지로 SPSS 에서도 도구모음(toolbar)을 이용하여 빠르고 쉽게 작업을 수행할 수 있음 → [보기(V)] 에서 [도구모음(T)]에 클릭을 통해 “” 표시를 하면 도구모음이 보임.
SPSS 의 시작 및 운용 대화상자(Dialog Boxes) 상태표시줄(Status Bar) → 현재 상태, 명령실행 과정, 현재 분석이 실행되고 있는 케이스의 수 등을 보여주며, [보기(V)] → [상태표시줄(S)]을 클릭하여 “”표가 생기도록, 혹은 없어지도록 조정해주면 됨. 대화상자(Dialog Boxes) 모든 분석방법 선택시 대화상자가 나타나며, 대화상자를 통하여 분석대상 변수와 옵션 등을 선택할 수 있음. 모든 통계분석 방법 선택시 처음 나타나는 주 대화상자(main dialog box)들은 크게 네 가지 구성요소들로 이루어져 있음. 변수목록 상자(source variable list) 분석대상 변수목록 상자(target variable list) 명령버튼(command pushbuttons) 하위대화버튼(subdialog pushbuttons)
SPSS 의 시작 및 운용 변수목록 상자 : 현재 사용중인 데이터파일의 변수목록을 보여주며, 데이터 편집기 상에서 각 변수(들)에 대한 설명을 입력해 준 경우에는 “설명[변수명]”의 형태로 제시되며, 변수설명을 입력하지 않은 경우에는 “변수명”만 제시됨. 분석대상 변수목록 상자 : 분석을 위해 선택한 한 개 혹은 여러 개의 변수(들) 목록을 보여주며, 분석방법에 따라서 독립변수(요인)와 종속변수의 형태로 제시되기도 함. 하위대화버튼 : 통계분석결과에 추가적으로 제시하기를 원하는 내용들을 지정할 수 있음. 명령버튼 : 확인(분석실행), 도움말 등 프로그램 실행과 관련된 명령을 수행하는 버튼.
Part II 통계분석방법
통계분석 방법 범주형-범주형 분석방법 독립변수 종속변수 척도와 통계분석 척도-분석방법 관계 독립변수: 범주형 종속변수: 범주형 척도와 분석간의 관계 독립변수 독립변수: 범주형 종속변수: 범주형 교차분석을 적용하여 분석 범주형 수치형 종 속 변 수 범주형 교차분석 수치형 독립변수 종속변수 1) 성별에 따른 지지정당 차이 남녀 지지정당 2) 연령대에 따른 선호레스토랑 차이 연령대 선호 레스토랑
t-test 분석(독립변수의 하부집단 2개일 경우) 분산분석(ANOVA: 하부집단 3개 이상일 경우) 통계분석 방법 척도와 통계분석 척도-분석방법 관계 범주형-수치형 분석방법 척도와 분석간의 관계 독립변수 독립변수: 범주형 종속변수: 수치형 t-test 분석(독립변수의 하부집단 2개일 경우) 분산분석(ANOVA: 하부집단 3개 이상일 경우) 범주형 수치형 종 속 변 수 범주형 수치형 t-test 분산분석 독립변수 종속변수 1) A,B공장 생산 음료의 농도비율 차이분석 A공장, B공장 농도비율 2) 연령대에 따른 한식 선호도 차이분석 연령대 한식 선호도
회귀분석: 특정 변수의 변화(독립변수)로부터 다른 변수의 변화(종속변수)를 인과적으로 예측설명 통계분석 방법 척도와 통계분석 수치형-수치형 분석방법 척도-분석방법 관계 척도와 분석간의 관계 독립변수 독립변수: 수치형 종속변수: 수치형 회귀분석: 특정 변수의 변화(독립변수)로부터 다른 변수의 변화(종속변수)를 인과적으로 예측설명 상관분석: 두 변수간의 상관정도를 파악 범주형 수치형 종 속 변 수 범주형 수치형 회귀분석 상관분석 등 독립변수 종속변수 1) 광고행위가 매출에 미치는 영향 유형별 광고행위 매출액 2) 라이프스타일이 수명에 미치는 영향 라이프스타일 수명 3) 연봉과 행복과의 상관관계 연봉(행복) 행복(연봉)
Part III 논문분석을 위한 통계 분석 방법
신뢰도 분석 개념 신뢰도 향상방법 6. 신뢰도분석 개념과 향상방법 신뢰성: 동일한 개념에 대해 측정을 되풀이할 때 동일한 측정값을 얻을 가능성 재검사법, 동형방법, 반분법, 내적 일관성법 등으로 구분 이 중에서 통계분석을 통한 신뢰도 검증에서는 Cronbach's α 계수를 이용한 내적 일관성법을 가장 많이 이용 Cronbach‘ α계수는 적어도 0.60은 넘어야 신뢰도가 만족할 수준 신뢰도 향상방법 (1) 측정도구를 구성하는 문항을 분명하게 작성 (2) 측정항목 수 증가 (3) 측정자의 태도와 측정방식의 일관성이 유지
신뢰도 분석 6. 신뢰도분석 검증과정 요인분석 척도의 타당성 검증 신뢰도분석 척도의 신뢰도 검증 척도화 하나의 변수로 척도화
신뢰도 분석 6. 신뢰도분석
신뢰도 분석 6. 신뢰도분석 다중항목척도를 사용한 측정변수의 신뢰성을 검증하는 방법으로는 항목분석(item analysis)을 사용할 수 있으며, 항목분석 방법으로는 여러 방법이 있으나 본 연구에서는 다중항목 중 신뢰도를 저해하는 항목을 찾아내어 측정도구에서 제외시킴으로서 측정도구의 신뢰도를 높이기 위한 방법인 크론바하 알파계수를 이용한다. 신뢰성계수는 0.6이상을 기준으로 하였다. 신뢰도분석 결과, 업무만족도 6개 문항에 대한 신뢰도계수는 _____으로 나타났으며, 전체 신뢰도를 저해하는 문항은 (있었다, 없었다) 다음 복리후생만족도 5개 문항에 대한 신뢰도계수는 _____으로 나타났으며, 전체 신뢰도를 저해하는 문항은 마지막으로 인사고과만족도 5개 문항의 신뢰도계수는 _____으로 나타났으며, 전체 신뢰도를 저해하는 문항은 즉, 이러한 결과, 업무만족도, 복리후생만족도, 인사고과만족도 각 하부문항은 응답의 내적 일관성을 유지하고 있는 것으로 나타났으며,하나의 항목으로 항목합산을 통해 분석을 적용하여도 무리가 없다고 판단된다.
요인 분석 개념 사용목적 7. 요인분석 개념과 사용목적 관측된 변수들에 영향을 미치고 있는 숨어 있는 공통인자를 찾아내는 데 목적 변수들 간의 상관관계(correlation)를 이용하여 파악 국어 영어 제2외국어 수학 물리 화학 체육 어휘 능력 수리 능력 사용목적 자료 요약 변수구조 파악 불필요한 변수제거 타당성 검증
요인 분석 7. 요인분석 분석과정과 고려사항 변수선정: 필요한 변수만 선정 척도형태: 연속형 자료 분석준비 표본수 확보: 최소 100표본 이상, 변수의 4-5배 이상 분석준비 요인추출모델: 주성분분석 사용-요인수 최소화하며 정보손실 최소화하는 방법 아이겐값: '1'이상을 기준으로-한 요인이 설명할 수 있는 변수의 갯수 요인적재량: 각 변수와 요인간의 상관관계정도-0.4이상 요인회전방법: 배리맥스방법-요인의 해석을 보다 용이하게 하는 방식 분석 및 해석 요인점수를 회귀분석, 판별분석에 이용 추가적 분석
요인 분석
요인 분석 7. 요인분석 여러 가지 타당성 중에서 측정도구가 실제로 무엇을 측정하였는가, 또는 조사자가 측정하고자 하는 추상적인 개념이 실제로 측정도구에 의해서 적절하게 측정되었는가를 검증하기 위한 방법. 구성개념 타당성을 측정하는 방법으로 요인분석(factor analysis)방법이 있다. 요인적재량(factor loading)은 일반적으로 단일차원에 대한 요인분석의 경우 0.6 이상이면 유의적이라고 할 수 있다.
교차 분석 목적 설문 예 1. 교차분석 목적과 사례 두 명목자료의 변수간에 상호관련성을 알아보고자 할 때 이용 따라서 교차분석을 적용하기 위해서는 설문척도 구성 시 미리 명목척도로 구성해야 함 설문 예 귀하의 연령은 무엇입니까? (1) 10대 (2) 20대 (3) 30대 (4) 40대 이상 귀하는 다음 정당 중 어느 당을 지지합니까? (1)한나라당 (2) 열린우리당 (3) 민주당 (4) 민주노동당 (5) 자민련 (6) 기타
교차 분석 1. 교차분석 행: 독립변수 열: 종속변수
교차 분석 1. 교차분석 결과의 해석 식품을 구입할 때 가장 영향을 주는 사항에 대해 파악한 결과, 우선 전체응답을 보면, ‘맛’ 296명(26.5%), ‘가격’ 91명(8.1%), ‘영양가’ 225명(20.1%), ‘안전성’ 498명(44.6%), ‘기타’ 7명(0.6%)으로 나타났으며, 식품을 구입할 때 안전성이 가장 영향을 주는 사항이라고 생각한다는 응답이 많았다. 일반적 특성에 따른 차이분석 결과, 연령과 교육수준 그리고 평균 수입에 따라서 통계적으로 유의미한 차이가 나타났으며(p<0.05), 그 외 변수에 따라서는 통계적으로 유의하지 않은 것으로 파악되었다(p>0.05). 유의한 차이를 보면, 연령은 40대 이상 집단에서, 교육수준은 대졸 이상 집단에서, 평균 수입은 450만원 이상 집단에서 식품을 구입할 때 안전성이 가장 영향을 주는 요인이라고 생각한다는 응답 비율이 높았다.
t-test 목적 분석순서 및 주요통계량 2. t-test분석 목적과 사례 일반적으로 두 개의 표본평균 간의 차이를 검증할 때 이용 독립변수: 2개의 집단으로 구성된 범주형 자료(성별 등) 종속변수: 평균을 산출할 수 있는 수치형 자료(성적 등) 분석순서 및 주요통계량 (1) 정규성검정: 비교대상 두 집단의 종속변수가 정규성을 이루는지 검정 일표본t-test는 해당 없음 (2) Levene의 등분산검정: 두 집단의 종속변수의 분산이 동질한지 검정 일표본t-test 및 대응표본t-test는 해당 없음 (3) t-값과 유의확률 검토: 가설의 채택/기각 여부를 검증 t-값: t-test분석에서 사용되는 검정통계량
t-test 목적 표본평균 검정평균 2. t-test분석 1. 일표본t-test 정의: 특정한 평균을 기준으로 해당 표본의 평균이 같은지를 검정 귀무가설: ‘표본집단의 평균은 00이다’ 대립가설: ’표본집단의 평균은 00가 아니다’ 사례1: 전국 중학생 영어평균(80점)기준으로 A학교 영어평균(78점) 차이검증 사례2: S공장 前기계 오차무게(4.3g)를 기준으로 現기계 오차무게(2.8g) 차이검증 표본평균 검정평균
t-test 2. t-test분석 평균, 표준오차로 모집단의 정규분포 추정
정의: 두 개의 독립적인 표본 간에 하나의 종속변수의 평균이 동일한가를 검증 t-test 2. t-test분석 2. 독립표본t-test 목적 정의: 두 개의 독립적인 표본 간에 하나의 종속변수의 평균이 동일한가를 검증 귀무가설: ‘두 집단의 평균은 같다’ 대립가설: ‘두 집단의 평균은 다르다’ 사례1: A반과 B반의 영어성적 평균차이 사례2: A도시와 B도시의 전기소비량 차이 A집단 검정평균 B집단
t-test 2. t-test분석 실제 코딩된 값 입력 종속변수 (연속)투입 독립변수 (명목)투입
t-test 2. t-test분석
t-test 목적 사전평균 사후평균 2. t-test분석 3. 대응표본t-test 정의: 동일한 표본의 A시점의 점수와 B시점의 점수를 비교검증 귀무가설: ‘A시점과 B시점의 평균은 같다’ 대립가설: ‘두 시점 평균은 다르다’ 사례1: 중간고사->(새로운 교수법 적용)->기말고사 점수 차이분석 사례2: 사전-사후 분석 사전평균 사후평균
t-test 2. t-test분석 2개의 변수를 동시에 선택 오른쪽으로 이동가능
분산분석 목적 설문구성의 예 3. 분산분석 목적과 설문구성 세 집단 이상의 평균 간 차이를 검증하는 데 이용되는 방법 독립변수: 3개 이상의 집단으로 구성된 범주형 자료(연령대 등) 종속변수: 평균을 산출할 수 있는 수치형 자료(성적, 만족도 등) 독립변수의 수에 따라 일원분산분석과 이원분산분석으로 설문구성의 예 귀하의 연령대는? (1) 10대 (2)20대 (3) 30대 (4) 40대 이상 귀하 가정의 월 평균소득은? _______만원
일원분산분석: 독립변수가 하나인 분산분석 ex) 대중소 도시별 노동자 평균임금 차이 3. 분산분석 분산분석 종류 일원분산분석 일원분산분석: 독립변수가 하나인 분산분석 ex) 대중소 도시별 노동자 평균임금 차이 이원분산분석 이원분산분석: 독립변수가 두 개인 분산분석 두 변수의 영향(주효과)을 동시에 파악하며 상호작용효과도 알아볼 수 있는 장점 독립변수간의 ‘교호작용(상호작용)’을 파악하는데 분석 초점을 둠 ex) 운동종류와 섭취음식종류에 따른 심폐기능 강화 차이 운동종류: 헬쓰, 수영, 태권도 섭취음식: 채식, 육식 그래프로 그렸을 때(교호작성도) 상호작용이 있으면 두 선의 방향이 서로 다르게 교차된다
분산분석 3. 분산분석(일원배치) 기술통계체크 평균/표준편차 분산동질성 집단분포확인 종속: 연속변수 사후검증: 어떤 집단간에 차이가 나타나는가? 요인(독립): 범주변수
통계분석-t-test분석/분산분석 결과의 예
상관관계 분석 기본개념 기본원리 상관계수 4. 상관관계분석 개념과 원리 하나의 변수가 다른 변수와 어느 정도 밀접한 관련성을 갖고 변화하는 가를 알아보기 위해서 이용 변수는 연속형 척도로 되어 있어야 함 Ex) 소득과 소비성향, 쇼핑시간과 구매액 기본개념 기본원리 관련성의 정도는 특정변수의 분산(소비액의 변화) 중에서 다른 변수 (소득의 변화)와 같이 변화하는 분산(공분산)이 어느 정도 되느냐 (-1≦r≦1) 사이의 값을 가지며, 절대값 1에 가까울 수록 상관성이 높고, 0에 가까울수록 낮다. 음(-)과 양(+)은 두 변수 관계의 방향성을 의미한다 상관계수 0.2 이하: 상관관계가 없거나 무시해도 좋으며 0.2~0.4: 0.4정도 이하이면 약한 상관관계 0.6 이상: 강한 상관관계
상관관계 분석 4. 상관관계분석
회귀분석 개념 사례 5. 회귀분석(단일) 개념과 사례 독립변수의 변화에 따라 종속변수의 변화를 '예측'하기 위해 사용. 1차 선형방정식을 도출하는 목적 독립변수 중 종속변수의 예측에 유의한 영향을 미치는 변수 파악 목적 사례 소득이 행복감에 미치는 영향-단일회귀분석 운동량이 건강에 미치는 영향-단일회귀분석 기업 능력(매출,성장율,인력보유 등)이 주가지수에 미치는 영향-다중회귀분석 서비스품질요인(6개)이 고객충성도에 미치는 영향-다중회귀분석
회귀분석 개념 사례 유형성 신뢰성 고객 충성도 대응성 확신성 공감성 5. 회귀분석(다중) 개념과 사례 독립변수가 2개 이상일 때 종속변수에 미치는 인과적 영향을 파악하는 분석방법 여러 독립변수 중 유의한 영향을 미치는 변수를 파악 독립변수 중 영향력 크기를 비교 사례 유형성 신뢰성 고객 충성도 대응성 확신성 공감성
회귀분석 모형설정 다중공선성 5. 회귀분석(다중) 유의사항 단계적 변수입력: 여러 개의 가능한 독립변수 중 가장 설명력이 높은 독립변수로부터 순서대로 모형에 포함하는 방법 동시적 변수입력방법: 모든 독립변수를 모형에 포함시키고 동시에 모든 회귀계수들을 추정하는 방법 다중공선성 독립변수들간에 높은 상관관계를 가지는 경우 추정된 계수가 통계적으로 유의하지 않게 나타날 가능성 높음 판단: 공차한계 1이하, VIF(분산팽창요인) 10.0 이상, 상태지수 15.0이상이면 의심 해결방법: 다중공선성이 높은 독립변수 제거 후 다시 투입
회귀분석 5. 회귀분석 설명력증가 독립변수 공선성 진단 (위계적 회귀분석에서 VIF: 10이상 필수) 공차한계: 0에 가까울수록 종속변수투입 독립변수투입 방법(입력/단계)
회귀분석 5. 회귀분석 결과 해석 중고차매매량에 영향을 미치는 변인을 파악하기 위해 회귀분석을 실시한 결과, 먼저 자동차수, 연식, 연소득이 중고차 매매량을 설명하는 정도는 약 14.1%(R2=0.141)로 나타났으며, 본 회귀모형은 통계적으로 유의한 것으로 나타났다(F=5.204, p<0.05). 다음 중고차 매매량에 의미 있는 영향을 미치는 변수를 파악한 결과, 자동차수와 연식으로 나타났으며(p<0.05), 연소득은 유의수준 0.05 에서 유의한 영향을 미치지 못하는 것으로 파악되었다(p>0.05). 중고차 매매량에 미치는 상대적 영향력을 파악하기 위해서 표준화계수를 파악한 결과, 자동차수(0.231), 연식(-0.220)의 순으로 나타나, 자동차수가 많을수록, 그리고 연식이 낮을수록 중고차매매량 증가에 영향을 미치는 것으로 볼 수 있다. 독립변인 간 다중공선성 문제를 파악한 결과, VIF는 모두 1에 가깝게 나타나 독립변수 간에 과도한 상관으로 인한 추정오류는 문제가 없는 것으로 불 수 있다.
회귀분석 5. 회귀분석 중요도 0.320 (32.0%) 0.108 (10.8%) 0.188 (18.8%) 0.384 (38.4%) 합: 0.970 합:1.000 (100%)