통계학 강의 허만형 ( 건국대 ) Darrell Huff 는 How to Lie with Statistics 를 썼습니다. 통계는 거짓말 하는 도구일까요 ?

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -
식기에 관한 소비자 조사 Ⅰ. 조사 개요 Ⅲ. 조사 결과 분석 Part1. 식기브랜드 관련 소비자 인식 국내 식기브랜드 최초 / 비보조 인지 수입 식기브랜드 최초 / 비보조 인지 식기브랜드 보조인지 보유 식기브랜드 현재.
Creativity, Challenge, Confidence 마케팅 인사이트 연구 1 본부 이정헌 부장 Tel Mobile Consumer Trends 2007 최근.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
재료수치해석 HW # 박재혁.
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
공차 및 끼워맞춤.
표본 이론.
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
수치해석 6장 예제문제 환경공학과 천대길.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
6장 그룹 함수.
제 3장. 수치를 통한 연속형 자료의 요약.
디지털영상처리 및 실습 대구보건대학 방사선과.
분석적 사고 (Analytical Thinking)
제2장 기초통계 양윤권 교수.
제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가?
상관함수 correlation function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
(independent variable)
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
자료의 표현.
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
하이스코 기업문화 실행 프로그램의 실태조사 2조- 노라조.
생활 속의 밀도 (1) 뜨고 싶니? 내게 연락해 ! 물질의 뜨고 가라앉음 여러 가지 물질의 밀도.
여론조사기관 : 리얼메타 050 % 000 % 29 May 2017 (월) (수) 2 Jun (금)
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Excel 일차 강사 : 박영민.
제3장 함수와 배열수식 전진환
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 2. 연립부등식의 영역 (3/5) 부등식 영역 수업계획 수업활동.
Sampling Distributions
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
에어 PHP 입문.
Excel 일차 강사 : 박영민.
통계해석 및 오차의 제거.
2장 PHP 기초 PHP의 시작과 끝을 이해한다. 주석문에 대하여 이해한다. echo 문을 이용하여 화면에 출력하
척도의 속성 - 목 차- 자료수집과정 척도의 속성 -명목척도 -서열척도 -등간척도 -비율척도 -리커트척도 3.Data(자료)
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
실습 : Sampling / Excel macro
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 3. 부등식의 영역에서 최대, 최소(5/5) 부등식 영역 수업계획 수업활동.
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

통계학 강의 허만형 ( 건국대 ) Darrell Huff 는 How to Lie with Statistics 를 썼습니다. 통계는 거짓말 하는 도구일까요 ?

0-1 통계의 개념 통계는 사회현상을 수 (number) 로 요약하고, 요약된 수를 기초로 사회문제 해결 대안을 제공하는 도구 (tool) 이다 언어적 방식으로 요약하는 분석에는 내용분석 (content analysis) 시나리오 분석 (scenario analysis) 사례분석 (case study) 수로 요약하는 분석에는 통계분석 (statistical analysis) 비용편익분석 (benefit cost analysis 대기행렬이론상관분석 (waiting line analysis) 의사결정나무분석 (decision tree analysis)

0-2 통계의 계보 통계분석은 기술통계 (descriptive statistics) 와 추측통계 (inferential statistics) 로 형성되어 있다 기술통계군에는 빈도분석 : 백분율 평균값분석 : Mean, Median, Mode 산포도분석 : Minimum, Maximum, Range, Skewness, Kurtosis, Standard Deviation, Standard Error 추측통계군에는 교차분석 : Chi-Square ANOVA: t 값, F 값 상관분석 : 상관계수, t 값 회귀분석 : 회귀계수, t 값, F 값, multicollinearity

사회현상은 사회에 존재하는 유형, 무형의 사물이나 그들의 관계를 말 하고, 사회현상의 한 단면에 대한 통계적 표현 방식이 변 수이다. 사회현상에는 수의 세계와 질의 세계가 있다 사회현상의 유형 내용변수명 수의 세계원래부터 수를 기본으로 형성되어 있는 세계기수변수 수로 표현이 가능한 세계 원래는 질을 기본으로 형성되었으나 우열을 가릴 수 있거나 순서를 매길 수 있는 세계 서수변수 질의 세계원래 질을 기본으로 형성되어 있을 뿐만 아니라 우 열도 가릴 수 없고 순서를 매길 수 없는 세계 명목변수 0-3 사회현상과 변수

1-1 빈도분석 이론 빈도분석은 변수값 (Value) 에 속한 표본의 수를 기초로 연구대상 그룹의 성격을 파악하기 위한 통계기법이다 변수, 변수값, 표본의 개념 - 변수 (Variable): 값으로 표현되는 사회현상이나 사물 - 변수값 (Value): 사회현상이나 사물의 고유의 값 - 표본 (sample): 분석을 위하여 선택한 개별적인 사례, 사건, 혹은 현상 가장 간단한 빈도분석 사례 - 변수 : 성별, 변수값 : 남과 여, 표본 : 남 35 명, 여 15 명 - 해석 : 남자가 수적으로 우세한 그룹으로서 성격

1-2 빈도분석 사례의 해석 명목변수의 빈도분석 : 나쁜사 례 원칙준수 이웃할 수 있는 변수값 먼저 원칙 분석 목적에 맞게 변수값 설정 서수변수의 빈도분석 : 만족도 원칙준수 1. 낮은 것에서 높은 것으로 정리 2. 등간격이 유지될 수 있도록 정리 종교빈도백분율누적 불교 천주교 기독교 회교 종교무 합계 만족수준빈도백분율누적 매우불만 약간불만 보통 약간만족 매우만족 합계 궁 합 보 기 !!! 빈도분석은 명목변수와 서수변수만 가능, 기수변수일 경우에는 재정리 후에 가능

1-3 빈도분석으로 거짓말하기 불만족을 강조하고 싶은 사람은 진실은 “ 불만족은 20.5%” 인데도 보통을 포함한 불만 그룹이 53.3% 나 된다, 라는 해석을 하기도 한다 통계분석과 총각의 닮은 꼴 찾기 총각은 총각을 세워야 제 멋이 나고 통계분석은 총각을 세워야 문제해결 방안을 모색할 수 있다

2-1 평균값분석 이론 평균값분석은 연구대상 그룹을 대표하는 하나의 값을 찾아 그룹의 성격 을 파악하기 위한 통계기법이다 대표값에는 …… 종류개념 민 (Mean) 산술평균 메디안 (Median) 가장 작은 변수값에서 가장 큰 변수값을 일렬로 세 울 경우 중간에 위치한 케이스의 값 모드 (Mode) 가장 많은 케이스가 모여있는 변수의 값

2-2 평균값의 계산논리 평균값의 계산논리는 간단하지만 산출된 민, 메디안, 모드에 대한 깊이 있는 해석 을 하기 위해 이해할 필요가 있다 대표값 계산방법과 기여도... 종류개념 민 Mean - 전체 케이스를 더한 값에 케이스 수를 나눈 값 - 모든 케이스가 민에 직접 기여하는 성질이 있음 메디안 Median - 전체 케이스에서 그 값이 중간에 위치한 케이스의 값 - 케이스 수가 홀수면 중간값, 짝수면 더하여 2 로 나눔 - 하나나 둘만 직접 기여, 나머지는 간접 기여 모드 Mode - 가장 많은 케이스가 모여있는 변수의 값 - 모드에 해당되는 케이스만 직접 기여 - 모드가 둘 이상인 경우가 있으면 대표값으로 의미 상실

2-3 평균값분석 사례의 해석 민과 메디안의 관계 (3 사의 월급 ) 문 : 각 회사의 임금분포를 설명하고, 직장을 구한다면 어느 회사를, 왜 택 하고자 하는지에 대해 설명하시오. 민과 모드의 관계 (3 사의 월급 ) 문 : 각 회사의 임금분포를 설명하고, 직장을 구한다면 어느 회사를, 왜 택 하고자 하는지에 대해 설명하시오 궁 합 보 기 !!! 평균값분석은 서수변수와 기수변수만 가능, 기수변수일 경우에는 해석이 제한적 통계 A사A사 B사B사 C사C사 민 200 메디안 통계 A사A사 B사B사 C사C사 민 200 메디안

2-4 평균값분석으로 거짓말하기 A 사의 노사간 임금협상에서 사측은 민 200 만원을 활용하길 원하고, 노측은 메디안 150 만원을 사용하길 원한다. 둘 모두 사실을 말하고 있지만 진실을 말하는 것은 아니다. 만족수준빈도백분율누적 매우불만 약간불만 보통 약간만족 매우만족 합계 평균값분석과 빈도분석은 보완관계 서수변수의 평균값분석에서 빈도분석표를 함께 활용하면 다채로운 해석이 가능하다 민 = 4.12

3-1 산포도분석 이론 산포도분석은 평균에서 떨어진 거리를 찾아 그룹의 성격을 파악하기 위 한 통계기법이다 산포도에는... 통계개념 최소값 Minumum 해당 변수의 가장 작은 변수값 최대값 Maximum 해당 변수의 가장 큰 변수값 변동범위 Range 최대값에서 최소값을 뺀 값 왜도 Skewness 민을 기준으로 좌우에 분포된 케이스 비율 첨도 Kurtosis 넓게 분포되었는지 좁게 분포되었는지의 비율 표준편차 Standard Deviation 민에서의 거리를 표준화시킨 값

3-2 산포도분석의 논리 산포도분석은 평균에서 떨어진 거리를 찾아 그룹의 성격을 파악하기 위 한 통계기법이다 산포도에는... 통계개념 최소값 Minumum 해당 변수의 가장 작은 변수값 최대값 Maximum 해당 변수의 가장 큰 변수값 변동범위 Range 최대값에서 최소값을 뺀 값 왜도 Skewness 민을 기준으로 좌우에 분포된 케이스 비율 첨도 Kurtosis 넓게 분포되었는지 좁게 분포되었는지의 비율 표준편차 Standard Deviation 민에서의 거리를 재곱하여 더한 (46) 후 케이스 수 (10) 로 나누어 루트를 씌워 푼 값 ( 루트 4.6)

3-3 표준편차의 계산논리 표준편차는 실제값과 민의 거리를 재곱하여 더한 (46) 후 케이스 수 (10) 로 나누어 루트를 씌워 푼 값 (√4.6) 을 말한다. 합계 = 350 평균 = 350/10 = 3.5 ∑( 실제값 - 평균 )² = 460 평방편차 = 460/10 = 4.6 표준편차 = √4.6 = 연령실제값 - 평균 ( 실제값 - 평균 ) ² = = = = = = = = = = 00 합계 046

3-4 산포도분석 사례의 해석 1 궁 합 보 기 !!! 산포도분석은 서수변수와 기수변수만 가 능하고, 민 (mean) 을 보완적으로 설명하는 기능으로 해석범위가 제한적 [ 상대적으로 동질적인 그룹 ] 케이스가 평균주변에 모여 있는 경우 거리 거리 [ 상대적으로 이질적인 그룹 ] 케이스가 평균에서 흩어져 있는 경우 거리 거리 평균

3-5 산포도분석 사례의 해석 2 산포도분석 결과 해석 통계개념 변동범위와 표준편차 최소값과 최대값의 차이를 나타내는 변동범위가 크 면 이질성이 강하고 작으면 동질성이 강함 왜도 정의 왜도 부의 왜도 정 (+) 의 왜도는 극단적으로 높은 최고값이 민을 끌어 올리는 경우이고, 부 (-) 의 왜도는 극단적으로 낮은 최 저값이 민을 끌어내리는 경우임 첨도 정의 첨도 부의 첨도 정 (+) 의 첨도는 뽀족한 특징을 가지고 있어 그룹의 동질성이 강함을 나타내고, 부 (-) 의 첨도는 편편한 특 징이 있어 그룹의 이질성이 강함을 나타냄 주의 !!! 변동범위와 표준편차의 해석에서 절대값이 크다고 이질적 인 집단이라는 해석은 금물, 상대적 비교가 중요하다

3-6 산포도분석 사례의 해석 3 문 : 각 회사의 임금분포를 설명하고, 직장을 구한다면 어느 회사를, 왜 택하고자 하는지에 대해 설명하시오. 평균과 표준편차 해석 !!! 절대값으로 해석하지 않고 상대값으로 해석해야 한다 통계값 A사A사 B사B사 C사C사 민 200 만원 표준편차 10 만원 30 만원 50 만원

3-7 산포도분석으로 거짓말하기 예 : A, B, C 회사의 평균임금과 표준편차를 비교해야 임금 분포를 알 수 있음에도 불구하고, 평균임금이 200 만원인데 표준편차가 10 만원이면 문제가 있다, 라고 해석 표준편차를 상대개념이 아니라 절대개념으로 해석 하여 평균의 본질을 왜곡하여 설명할 수도 있다 통계값 A사A사 B사B사 C사C사 민 200 만원 표준편차 10 만원 30 만원 50 만원

4-1 표준오차와 표본오차 ■ 표준오차 (standard error) 는 모집단 평균으로부터 의 거리를 나타내는 척도를 의미한다 공식 : 표준편차 /√ 표본수 용도 : 가설검증의 기초자료로 활용 문 : 모집단의 평균소득은 어디에 위치하고 있는지에 대한 분석 대상 : 900 명 평균소득 : 350 만원 표준편차 : 30 만원 표준오차 : 10/√900= 30/30 = 모집단의 평균 = 350 만원 ± (1.96*1) = 350 만원 ± 은 신뢰도 95% 의 z 값

4-2 표준오차와 표본오차 ■ 표본오차 (sampling error) 는 표본의 추측값과 모 집단의 추측값 사이의 거리를 나타낸다 표본오차 = ± (Z) * √[ 표준편차 / 표본크기 ] 표준편차 = [ 응답비율 *(1- 응답비율 )] 예 : 표본크기가 100, 응답률이 40%, 95% 신뢰수준에서의 표 본오차는 ? = ± 1.96 * √[0.4 * (1-0.4)/100] = 9.6% 해석 : 같은 조사를 100 번 해도 95 번은 관찰치가 30.4% 에서 49.6% 사이라는 의미

4-3 표본오차에 대한 보너스 표본의 허용오차 계산하기의 번거로움을 해소하기 위해 만든 표 ( 신뢰수준 95%) 관찰값표본크기 % 혹은 60% 혹은 70% 혹은 80% 혹은 90%

4-4 표본오차로 거짓말하기 표본오차는 샘플링의 오차를 말함에도 불구하고, 통계값의 신 뢰성으로 포장하는 사례를 여론조사 결과에서 볼 수 있음 한국인의 미래인식 조사 ( 갤럽 ) [n=1008] 수준비율누적 전혀 희망적이지 않다 9% 별로 희망적이지 않다 44%53% 어느 정도 희망적이다 37%90% 매우 희망적이다 6%96% 무응답 4%100% - 좌측 조사에서 갤럽은 표본오차는 신뢰도 95% 에서 ±3.1% 포인트이다, 라고 설명 - 일반인은 통계값을 95% 신뢰할 수 있는 수준이라 고 오해 가능 - 이 값은 표본수 1000 명, 관찰값 50% 의 표본오차