Presentation is loading. Please wait.

Presentation is loading. Please wait.

통계학 강의 허만형 ( 건국대 ) Darrell Huff 는 How to Lie with Statistics 를 썼습니다. 통계는 거짓말 하는 도구일까요 ?

Similar presentations


Presentation on theme: "통계학 강의 허만형 ( 건국대 ) Darrell Huff 는 How to Lie with Statistics 를 썼습니다. 통계는 거짓말 하는 도구일까요 ?"— Presentation transcript:

1 통계학 강의 허만형 ( 건국대 ) Darrell Huff 는 How to Lie with Statistics 를 썼습니다. 통계는 거짓말 하는 도구일까요 ?

2 0-1 통계의 개념 통계는 사회현상을 수 (number) 로 요약하고, 요약된 수를 기초로 사회문제 해결 대안을 제공하는 도구 (tool) 이다 언어적 방식으로 요약하는 분석에는 내용분석 (content analysis) 시나리오 분석 (scenario analysis) 사례분석 (case study) 수로 요약하는 분석에는 통계분석 (statistical analysis) 비용편익분석 (benefit cost analysis 대기행렬이론상관분석 (waiting line analysis) 의사결정나무분석 (decision tree analysis)

3 0-2 통계의 계보 통계분석은 기술통계 (descriptive statistics) 와 추측통계 (inferential statistics) 로 형성되어 있다 기술통계군에는 빈도분석 : 백분율 평균값분석 : Mean, Median, Mode 산포도분석 : Minimum, Maximum, Range, Skewness, Kurtosis, Standard Deviation, Standard Error 추측통계군에는 교차분석 : Chi-Square ANOVA: t 값, F 값 상관분석 : 상관계수, t 값 회귀분석 : 회귀계수, t 값, F 값, multicollinearity

4 사회현상은 사회에 존재하는 유형, 무형의 사물이나 그들의 관계를 말 하고, 사회현상의 한 단면에 대한 통계적 표현 방식이 변 수이다. 사회현상에는 수의 세계와 질의 세계가 있다 사회현상의 유형 내용변수명 수의 세계원래부터 수를 기본으로 형성되어 있는 세계기수변수 수로 표현이 가능한 세계 원래는 질을 기본으로 형성되었으나 우열을 가릴 수 있거나 순서를 매길 수 있는 세계 서수변수 질의 세계원래 질을 기본으로 형성되어 있을 뿐만 아니라 우 열도 가릴 수 없고 순서를 매길 수 없는 세계 명목변수 0-3 사회현상과 변수

5 1-1 빈도분석 이론 빈도분석은 변수값 (Value) 에 속한 표본의 수를 기초로 연구대상 그룹의 성격을 파악하기 위한 통계기법이다 변수, 변수값, 표본의 개념 - 변수 (Variable): 값으로 표현되는 사회현상이나 사물 - 변수값 (Value): 사회현상이나 사물의 고유의 값 - 표본 (sample): 분석을 위하여 선택한 개별적인 사례, 사건, 혹은 현상 가장 간단한 빈도분석 사례 - 변수 : 성별, 변수값 : 남과 여, 표본 : 남 35 명, 여 15 명 - 해석 : 남자가 수적으로 우세한 그룹으로서 성격

6 1-2 빈도분석 사례의 해석 명목변수의 빈도분석 : 나쁜사 례 원칙준수 이웃할 수 있는 변수값 먼저 원칙 분석 목적에 맞게 변수값 설정 서수변수의 빈도분석 : 만족도 원칙준수 1. 낮은 것에서 높은 것으로 정리 2. 등간격이 유지될 수 있도록 정리 종교빈도백분율누적 불교 13930.9 천주교 7015.646.5 기독교 7416.462.9 회교 61.364.2 종교무 16135.8100.0 합계 450100 만족수준빈도백분율누적 매우불만 255.6 약간불만 6514.420.0 보통 15033.353.3 약간만족 12026.780.0 매우만족 9020.0100.0 합계 450100 궁 합 보 기 !!! 빈도분석은 명목변수와 서수변수만 가능, 기수변수일 경우에는 재정리 후에 가능

7 1-3 빈도분석으로 거짓말하기 불만족을 강조하고 싶은 사람은 진실은 “ 불만족은 20.5%” 인데도 보통을 포함한 불만 그룹이 53.3% 나 된다, 라는 해석을 하기도 한다 통계분석과 총각의 닮은 꼴 찾기 총각은 총각을 세워야 제 멋이 나고 통계분석은 총각을 세워야 문제해결 방안을 모색할 수 있다

8 2-1 평균값분석 이론 평균값분석은 연구대상 그룹을 대표하는 하나의 값을 찾아 그룹의 성격 을 파악하기 위한 통계기법이다 대표값에는 …… 종류개념 민 (Mean) 산술평균 메디안 (Median) 가장 작은 변수값에서 가장 큰 변수값을 일렬로 세 울 경우 중간에 위치한 케이스의 값 모드 (Mode) 가장 많은 케이스가 모여있는 변수의 값

9 2-2 평균값의 계산논리 평균값의 계산논리는 간단하지만 산출된 민, 메디안, 모드에 대한 깊이 있는 해석 을 하기 위해 이해할 필요가 있다 대표값 계산방법과 기여도... 종류개념 민 Mean - 전체 케이스를 더한 값에 케이스 수를 나눈 값 - 모든 케이스가 민에 직접 기여하는 성질이 있음 메디안 Median - 전체 케이스에서 그 값이 중간에 위치한 케이스의 값 - 케이스 수가 홀수면 중간값, 짝수면 더하여 2 로 나눔 - 하나나 둘만 직접 기여, 나머지는 간접 기여 모드 Mode - 가장 많은 케이스가 모여있는 변수의 값 - 모드에 해당되는 케이스만 직접 기여 - 모드가 둘 이상인 경우가 있으면 대표값으로 의미 상실

10 2-3 평균값분석 사례의 해석 민과 메디안의 관계 (3 사의 월급 ) 문 : 각 회사의 임금분포를 설명하고, 직장을 구한다면 어느 회사를, 왜 택 하고자 하는지에 대해 설명하시오. 민과 모드의 관계 (3 사의 월급 ) 문 : 각 회사의 임금분포를 설명하고, 직장을 구한다면 어느 회사를, 왜 택 하고자 하는지에 대해 설명하시오 궁 합 보 기 !!! 평균값분석은 서수변수와 기수변수만 가능, 기수변수일 경우에는 해석이 제한적 통계 A사A사 B사B사 C사C사 민 200 메디안 150200250 통계 A사A사 B사B사 C사C사 민 200 메디안 150200250

11 2-4 평균값분석으로 거짓말하기 A 사의 노사간 임금협상에서 사측은 민 200 만원을 활용하길 원하고, 노측은 메디안 150 만원을 사용하길 원한다. 둘 모두 사실을 말하고 있지만 진실을 말하는 것은 아니다. 만족수준빈도백분율누적 매우불만 255.6 약간불만 6514.420.0 보통 15033.353.3 약간만족 12026.780.0 매우만족 9020.0100.0 합계 450100 평균값분석과 빈도분석은 보완관계 서수변수의 평균값분석에서 빈도분석표를 함께 활용하면 다채로운 해석이 가능하다 민 = 4.12

12 3-1 산포도분석 이론 산포도분석은 평균에서 떨어진 거리를 찾아 그룹의 성격을 파악하기 위 한 통계기법이다 산포도에는... 통계개념 최소값 Minumum 해당 변수의 가장 작은 변수값 최대값 Maximum 해당 변수의 가장 큰 변수값 변동범위 Range 최대값에서 최소값을 뺀 값 왜도 Skewness 민을 기준으로 좌우에 분포된 케이스 비율 첨도 Kurtosis 넓게 분포되었는지 좁게 분포되었는지의 비율 표준편차 Standard Deviation 민에서의 거리를 표준화시킨 값

13 3-2 산포도분석의 논리 산포도분석은 평균에서 떨어진 거리를 찾아 그룹의 성격을 파악하기 위 한 통계기법이다 산포도에는... 통계개념 최소값 Minumum 해당 변수의 가장 작은 변수값 최대값 Maximum 해당 변수의 가장 큰 변수값 변동범위 Range 최대값에서 최소값을 뺀 값 왜도 Skewness 민을 기준으로 좌우에 분포된 케이스 비율 첨도 Kurtosis 넓게 분포되었는지 좁게 분포되었는지의 비율 표준편차 Standard Deviation 민에서의 거리를 재곱하여 더한 (46) 후 케이스 수 (10) 로 나누어 루트를 씌워 푼 값 ( 루트 4.6)

14 3-3 표준편차의 계산논리 표준편차는 실제값과 민의 거리를 재곱하여 더한 (46) 후 케이스 수 (10) 로 나누어 루트를 씌워 푼 값 (√4.6) 을 말한다. 합계 = 350 평균 = 350/10 = 3.5 ∑( 실제값 - 평균 )² = 460 평방편차 = 460/10 = 4.6 표준편차 = √4.6 = 2.145 연령실제값 - 평균 ( 실제값 - 평균 ) ² 3232-35 = -39 3535-35 = 00 3838-35 = 39 3333-35 = -24 3434-35 = -11 3232-35 = -39 3636-35 = -11 3838-35 = 39 3737-35 = 24 3535-35 = 00 합계 046

15 3-4 산포도분석 사례의 해석 1 궁 합 보 기 !!! 산포도분석은 서수변수와 기수변수만 가 능하고, 민 (mean) 을 보완적으로 설명하는 기능으로 해석범위가 제한적 [ 상대적으로 동질적인 그룹 ] 케이스가 평균주변에 모여 있는 경우 거리 거리 [ 상대적으로 이질적인 그룹 ] 케이스가 평균에서 흩어져 있는 경우 거리 거리 평균

16 3-5 산포도분석 사례의 해석 2 산포도분석 결과 해석 통계개념 변동범위와 표준편차 최소값과 최대값의 차이를 나타내는 변동범위가 크 면 이질성이 강하고 작으면 동질성이 강함 왜도 정의 왜도 부의 왜도 정 (+) 의 왜도는 극단적으로 높은 최고값이 민을 끌어 올리는 경우이고, 부 (-) 의 왜도는 극단적으로 낮은 최 저값이 민을 끌어내리는 경우임 첨도 정의 첨도 부의 첨도 정 (+) 의 첨도는 뽀족한 특징을 가지고 있어 그룹의 동질성이 강함을 나타내고, 부 (-) 의 첨도는 편편한 특 징이 있어 그룹의 이질성이 강함을 나타냄 주의 !!! 변동범위와 표준편차의 해석에서 절대값이 크다고 이질적 인 집단이라는 해석은 금물, 상대적 비교가 중요하다

17 3-6 산포도분석 사례의 해석 3 문 : 각 회사의 임금분포를 설명하고, 직장을 구한다면 어느 회사를, 왜 택하고자 하는지에 대해 설명하시오. 평균과 표준편차 해석 !!! 절대값으로 해석하지 않고 상대값으로 해석해야 한다 통계값 A사A사 B사B사 C사C사 민 200 만원 표준편차 10 만원 30 만원 50 만원

18 3-7 산포도분석으로 거짓말하기 예 : A, B, C 회사의 평균임금과 표준편차를 비교해야 임금 분포를 알 수 있음에도 불구하고, 평균임금이 200 만원인데 표준편차가 10 만원이면 문제가 있다, 라고 해석 표준편차를 상대개념이 아니라 절대개념으로 해석 하여 평균의 본질을 왜곡하여 설명할 수도 있다 통계값 A사A사 B사B사 C사C사 민 200 만원 표준편차 10 만원 30 만원 50 만원

19 4-1 표준오차와 표본오차 ■ 표준오차 (standard error) 는 모집단 평균으로부터 의 거리를 나타내는 척도를 의미한다 공식 : 표준편차 /√ 표본수 용도 : 가설검증의 기초자료로 활용 문 : 모집단의 평균소득은 어디에 위치하고 있는지에 대한 분석 대상 : 900 명 평균소득 : 350 만원 표준편차 : 30 만원 표준오차 : 10/√900= 30/30 = 1.000 모집단의 평균 = 350 만원 ± (1.96*1) = 350 만원 ± 1.96 1.96 은 신뢰도 95% 의 z 값

20 4-2 표준오차와 표본오차 ■ 표본오차 (sampling error) 는 표본의 추측값과 모 집단의 추측값 사이의 거리를 나타낸다 표본오차 = ± (Z) * √[ 표준편차 / 표본크기 ] 표준편차 = [ 응답비율 *(1- 응답비율 )] 예 : 표본크기가 100, 응답률이 40%, 95% 신뢰수준에서의 표 본오차는 ? = ± 1.96 * √[0.4 * (1-0.4)/100] = 9.6% 해석 : 같은 조사를 100 번 해도 95 번은 관찰치가 30.4% 에서 49.6% 사이라는 의미

21 4-3 표본오차에 대한 보너스 표본의 허용오차 계산하기의 번거로움을 해소하기 위해 만든 표 ( 신뢰수준 95%) 관찰값표본크기 100500100015002000 50%9.84.43.12.52.2 40 혹은 60% 9.64.23.02.52.1 30 혹은 70% 9.04.02.72.32.0 20 혹은 80% 7.83.52.52.01.8 10 혹은 90% 5.92.61.91.51.3

22 4-4 표본오차로 거짓말하기 표본오차는 샘플링의 오차를 말함에도 불구하고, 통계값의 신 뢰성으로 포장하는 사례를 여론조사 결과에서 볼 수 있음 한국인의 미래인식 조사 ( 갤럽 ) [n=1008] 수준비율누적 전혀 희망적이지 않다 9% 별로 희망적이지 않다 44%53% 어느 정도 희망적이다 37%90% 매우 희망적이다 6%96% 무응답 4%100% - 좌측 조사에서 갤럽은 표본오차는 신뢰도 95% 에서 ±3.1% 포인트이다, 라고 설명 - 일반인은 통계값을 95% 신뢰할 수 있는 수준이라 고 오해 가능 - 이 값은 표본수 1000 명, 관찰값 50% 의 표본오차


Download ppt "통계학 강의 허만형 ( 건국대 ) Darrell Huff 는 How to Lie with Statistics 를 썼습니다. 통계는 거짓말 하는 도구일까요 ?"

Similar presentations


Ads by Google