SPSS 강원대학교 생물학과 석사 과정생 김자경
SPSS SPSS: Statistical Package for the Social Science - 다양한 형태의 data를 모집, 관리, 통계 분석을 해서 테이블이나 그래프 등을 만드는데 이용하는 포괄적인 데이터 분석 프로그램
모집단과 표본 모집단 (population): 이는 연구대상이 되는 물체나 사람들의 총체를 의미하며, 여기서 표본이 택해진다. 즉 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합을 의미. (예> 예를 들어 대통령 선거결과를 예측하기 위하여 여론조사를 하는 경우 대상 모집단은 한국인 유권자 전체) 표본 (sample): 통계적 처리를 위하여 모집단에서 실제로 추출된 관측값이나 측정값의 집합. 즉 표본은 모집단의 특성을 잘 나타낼 수 있는 모집단의 부분집합.
통계학 기술 통계학(descriptive statistics): 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 표나 그림 또는 대표값(평균, 중앙값), 변동의 크기 등을 통하여 정리, 요약하는 방법- 표, 그래프 추측 통계학(inferential statistics): 모집단에서 추출한 표본의 정보를 이용하여 모집단의 여러 가지 특성을 과학적으로 추론하고 검정하는 방법(모수적 통계/ 비모수적 통계)- T-test, ANOVA, 회귀분석
추측통계법 모수적 추리통계: 모집단의 특징이 정규분포를 이루고 있을 것이라는 가정 하에 표본의 자료로부터 모집단의 특성을 추정, 측정치의 연속성과 등간격성, 정규 분포성, 분산의 동질성의 조건 필요 비모수적 추리통계: 모집단의 특성의 분포에 대한 어떤 가정을 하지 않은 상태에서 모집단의 특성을 추정, 정규 분포성 조건 필요 없음. 가설 검정력이 덜 정밀하다.
변수(변인 variable) 연구자가 관심을 지니는 연구대상의 속성 성별, 연령, 학력, 종교, 키, 몸무게 등
정규분포 통계적 추론의 중추적 역할을 하는 것으로, 평균 과 표준편차 에 의해 모양과 위치가 결정되는 좌우대칭형의 종 모양의 분포
정규성 검사 ① 히스토그램 그래프 ② stem and leaf ③ 평균과 중앙값- 정규분포일 경우 평균과 중앙값이 같다. ④ 왜도/ 첨도 --왜도(Skewness): 분포모양이 정규분포와 유사한지는 나타내는 척도 SES=0; 정규분포 <0; 오른쪽으로 치우친 분포, >0; 왼쪽으로 치우친 분포 SES<2; 정규분포를 할 것이라고 예상가능 --첨도(Kurtosis): 정규분포로부터 뾰족한 정도를 SEK>0; 뾰족한 분포, <0; 정규분포보다 퍼져있는 분포 SEK>2; 정규분포를 하지 않는 것을 의미. ⑤ Shapiro-Wilk, Komogorov-Smirnov: Shapiro-Wilk가 보편적으로 사용된다.
비모수 통계분석 종속변수가 연속변수가 아닌 경우 정규분포를 하지 않는 경우
P-value 가설 – H0(귀무가설) - H1(대립가설): 실험자가 입증하고자 하는 가설 P 값 귀무가설이 틀리다고 가정할 때, 이것이 틀릴 확률 예> 두 공장에서 생산되는 닭고기 식품의 단백질 함량 차이 H0: 차이가 없을 것이다. H1: 차이가 있을 것이다. P= 0.997 (>0.05)로 나왔을 때, H0가 틀리다는 가정이 틀릴 확률이 0.997(99.7%)이므로 귀무가설을 채택. 즉, 두 공장에서 생산되는 닭고기 식품의 단백질 함량에는 차이가 없다고 할 수 있다.
상관관계분석(Correlation) 변수와 변수간의 관계로 둘 또는 그 이상의 변수들에 있어서 한 변수가 변동함에 따라 다른 변수가 어떻게 변동하는 것과 같은 변동의 연관성. 변동의 크기의 정도와 방향을 상관관계라고 한다. 상관계수(r, R) 변수간의 관계의 정도와 방향을 하나의 수치로 요약해 표시해 주는 지수 (-1<r, r<1)
상관관계분석(Correlation) pearson 상관관계분석 - 표본이 정규분포를 나타낼 때(두 변수가 등간으로 측정된 변수인 경우) 사용. 두 변수 간 직선적 관계가 있어야 한다. spearman 상관관계분석(비모수 상관관계분석) - 표본이 정규분포를 하지 않을 때(주어진 자료의 등간성이 의문시되거나, 변수들이 극단적으로 분포할 때) 사용
회귀 분석(Regression) 특정한 자료의 경향을 수렴하는 함수를 구해내는 방법으로 한 변수가 다른 변수들과 어떠한 관계가 있는지(영향을 미치는지, 인과관계가 있는지 등)를 분석하기 위하여 사용되는 방법이며 한 변수의 값을 가지고 다른 변수의 값을 예상하는 분석 방법이다. 회귀식 Y= a + bX 결정계수(R2) 회귀식의 적합도를 재는 척도 값이 클수록 회귀식의 적합도는 높은 것으로 여겨진다. 즉 회귀식으로 설명할 수 있는 정도가 높다는 것을 의미.
t- test 두 집단 간의 평균값의 차이가 통계적으로 유의한지를 파악할 때 필요한 통계적 기법
모수적 t-test ① 일 표본 t-test: 단일 표본에서 측정한 평균값이 특정값과 차이가 있는지를 검정 예> 수축기 혈압의 정상치가 120mmHg로 알려져 있을 때 자신이 측정한 특정집단의 평균치는 이미 알려진 120mmHg보다 유의하게 차이가 있는가? ② 독립표본의 t- test(Independent Samples t-test): 두 집단의 평균값의 차이가 유의미한지를 검정할 때 사용 예> 성별(남, 여)에 따른 임금액수의 평균차이, 통제집단과 실험집단의 실험 효과성 차이 ③ 대응비교의 t-test(Paired Samples t-test): 동일표본에서 측정된 두 변수 값의 평균 차이를 검정. 집단의 사전 ․ 사후 검사의 차이를 검정 예> 자아 존중감을 향상시키기 위한 집단 심리 상담에 참여한 학생들이 있는 소그룹에서 집단 심리 상담에 참여하기 이전의 자아존중감과 참여한 이후의 자아 존중감의 평균을 비교
비모수적 통계법 Mann-Whitney Test: 서열변수일 때 두 독립표본의 집단 간 차이를 검정하는 비모수적 추리통계 방법. 순위의 비교를 통하여 두 집단 간의 차이를 검정하기 때문에 평균처럼 서로 비교할 수 있는 값이 아닌 상대적인 값을 가지게 되므로 해석이 애매할 수 있다. - 독립표본의 t-test에 대응 Wilcoxon Matched- Pairs Signed-Ranks Test: 사전사후검사의 두 종속표본 간의 차이를 비교하고자 할 때, 주어진 자료가 서열변수인 경우. - 대응비교의 t-test에 대응
분산분석 (Analysis of Variance; ANOVA)
모수통계법 ① 일원분산분석(one-way ANOVA; F 검정): 독립변수는 1개이며 독립변수의 집단이 2개 이상인 경우 예> 가구소득에 따른 식료품소비 정도의 차이- 가구소득은 독립변수로 가구 소득집단의 구분은 저소득, 중산층, 고소득층 등으로 2개 이상 ② 이원분산분석(two-way ANOVA): 독립변수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는데 사용 예> 독립변수가 2개이고 종속변수가 동일한 경우로 학력 및 성별에 따른 휴대폰요금의 차이를 분석할 때, 학력, 성별은 독립변수이고 종속변수는 휴대폰 요금이 된다.
비모수통계법 Kruskal- Wallis Test: H 검정이라고 하며, 2개 이상의 독립표본의 집단들 간의 차이의 유의도를 검정하는 것으로 서열변수로 측정된 종속변수의 순위비교를 검정한다. - 일원분산분석에 대응
Chi-square 검정 두 변수, 정확하게는 두 불연속변수간의 상관관계를 측정. 영가설을 기초로 기대빈도를 계산하여 두 개 이상의 데이터 세트의 관찰빈도가 통계적으로 유의미하게 나오는지를 측정하는 통계학적 기법. 통계 사이트 http://faculty.vassar.edu/lowry/VassarStats.html
적합도 검정(Chi Square Goodness of Fit Test)
Chi Square contingency Test
성별 학력 측정 남자 1 4 2 9 3 19 10 5 8 여자 15 17 11
Fisher Exact test
위 결과에서 Pearson 의 p 값도 0.02로써 성별 임금의 차이가 있다고 평가하지만 표본의 수가 작으므로 이럴 때 적용 가능한 Fisher exact test의 p 값 0.041에 의해 평가하는 것이 신뢰도를 높일 수 있는 방법이다.
이항검정 (Binominal test) 이분형 변수(yes or no, true or false, 0 or 1 같이 두 개의 값이 취해지는 변수)에 대해 데이터들이 이항분포에서 기대되는 빈도와 차이가 있는지 검정. 예> 동전을 던질 때 앞면이 나올 확률은 1/2. 이러한 가설을 기초로 동전을 40번 던져 결과(앞면 또는 뒷면)를 기록. 이항검정을 사용한 결과 던진 횟수의 3/4 이 앞면이고 관측된 유의수준이 0.0027 이라면, 이러한 결과는 앞면이 나올 기대 확률 1/2 과 차이가 유의하게 있다고 할 수 있다.
감사합니다.