기술 통계학 (Descriptive Statistics)

Slides:



Advertisements
Similar presentations
신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
Advertisements

온누리교회 일대일 사역팀. CONTENTS 1. 예수님의 공생애 사역 2. 죄의 기원과 죄의 결과 3. 죄 문제의 해결 I. 예수님의 부활은 그리스도의 죽음과 함께 기독교 II. 인간은 하나님 앞에 모두 죄인이다. III. 따라서 나도 죄인이라는 사실을 깨달아야 한다.
서울혁신기획관 익명성과 인간소외 심화, 공동체 해체 … 시민의 행복지수와 삶의 질 하락 … 2 I. 왜 … 마을공동체인가 ! 1.
2009 년 행정안전부 공직설명회 년 행정안전부 공직설명회 2 목 차 I. 개 요 II. 기능직 개편원칙 III. 정보통신현업 개편방안 IV. 주요 이슈.
형제침례교회 필리아성가대 성탄절 칸타타 1. Opening : 영광을 하늘 높은 곳 에 성탄예배에 오신 성도님, 환영합니다. 오늘 성탄예배는 칸타타로 드리는데요 성가대가 부르는 찬양을 듣기만 하는 칸타타가 아니라 성도님들께서 모두 찬양하는 칸타타입니다. 화면을 보면서.
Confidential & Proprietary Copyright © 2009 The Nielsen Company 중소유통 경영실태 조사 결과 보고 추진 기관 : 지식경제부, 중소기업청, 대한상공회의소 시행 기관 : 소상공인진흥원, 한국체인스토어협회 연구 기관 : 한국유통학회.
2013 년 조사연구위원회 위촉식 및 활동 설명회 2013 년 조사연구위원회 위촉식 및 활동 설명회
건강새마을 조성사업 주민 참여 모니터링 강 민 정.
클림트의 회화적인 요소를 이용한 치레거리 디자인 연구
(목) 심형석 영산대학교 부동산∙금융학과 교수 영산대학교 부동산연구소 소장
2009 개정 교육과정에 따른 예술(음악/미술)교과 교육과정 개정의 주요 내용
목 차 I 방위산업의 정의 II 방위산업의 특성 III 방위산업의 현황.
2015년도 2학기 제 8 장 표본추출 마케팅조사.
홍보출판 위원회 출판국 2010년 사역 계획서 발표자 : 출판국 국장 / 박수만권사 일시: 2010년 01월 17일(일) 1.
경주 3코스 양반문화와 전통 다크호스 백 지연 다크호스 백지연 4학년.
영호남 공동발전을 위한 학술문화 교류사업 보고
서울특별시 중구 통일로 10 연세재단세브란스빌딩
예수의 제자들 담당교수 : 김동욱.
Keller: Stats for Mgmt & Econ, 7th Ed
역대 정부개편의 교훈과 새로운 정부조직개편의 방향
확률변수의 기대값, 분산 등.
논문제목 : 확률론적 방법에 의한 건축 개발사업의 재무적 타당성 분석 모델 구축
김종찬 김정석 이상미 임성규 담당 교수님 최병수 교수님
단계 샘플링 (계속) 모분산 의 추정치 : 2차 샘플링 후 개에 대한 측정오차 를 포함할 경우: 예제 9.2
체위변경과 이동 요양보호 강사 : 이윤희.
제14강 태평양전쟁과 일본 군국주의.
건설관리학 강의슬라이드 8장. 품질관리.
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
제6장 표본추출 전수조사와 표본조사 1) 전수조사: 모집단 전체를 모두 조사. 예) 인구센서스, 농산물 수확조사
지역맞춤형 일자리창출 사업 기관 평가
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
2011년 하반기 VIP투자자문 인재채용 안내
올바른 이메일 사용법
Keller: Stats for Mgmt & Econ, 7th Ed 그래프와 표를 이용한 기술통계학 기법
구약의 맥 I (서론, 원역사) 2014 동안성결교회 수요신학강좌 정석규 LA 목회자 세미나.
Week 10:확률변수(Random Variable)
1. 세포의 구조와 기능 (1) 식물 세포 와 동물 세포 조영희
대촌중 최영미.
물류단지 총량제 폐지 이후 물류시설 공급정책 방향 국 토 교 통 부.
신 윤 호 ㈜엘림에듀 초등사업본부장, 중앙대학교 체육학박사
 KAA 소비자단체장 초청 회원간담회 옥외광고 산업의 현황과 과제 서범석(세명대학교 광고홍보학과 교수)
Keller: Stats for Mgmt & Econ, 7th Ed
‘응급의료서비스 이해도 및 만족도’ 전국민 여론조사 보고서
지방공무원 임용시험 위탁 및 공동추진 충청북도교육청 (목) 총무과 교육행정 6급 안 병 대
수원대학교 응용통계학과 김 진 흠 표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠
대박콜 전국화물 퀵서비스 회사소개서 (기업 퀵서비스,택배,문서수발).
Statistical inference I (통계적 추론)
제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약.
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
기업회생 절차.
2. 윤리학의 원리와 적용 가. 상대주의와 절대주의.
2013년 한땀한땀 신년회 목 차 세아상역 I. 팀 성적 II. 개인 성적 (시상식)
원격교육활용론 11. 원격교육 컨텐츠 설계 : 실습 패키지 박소연 (광주대학교).
교육기부 진로체험기관 인증제와 지역 센터 운영 방안 한국직업능력개발원 김승보.
존 듀이의 경험교육론에 기초한 초등학교 체험활동 특징에 관한 연구
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
발표 : KAB부동산연구원 조윤제 부연구위원
제9주 예산 수립과 집행.
중등학생평가연수 (중학교) 일시 : (목) 10:00 장소 : 부산교육연구정보원 ㅣ중등교육과 ㅣ
양초 한 자루의 과학 과학영재교육 전공 김 연 주 류 은 희 이 상 희.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
산점도 (Scatter Diagram) (1) 개요
교육행정 및 교육경영 제 5장. 교육행정 조직의 실제 체육교육 이학재.
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
확률표본추출 단순무작위 표본추출 SRS : simple random sampling
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
신입사원 OJT교육.
Presentation transcript:

기술 통계학 (Descriptive Statistics) 수집된 자료를 명료하고 유용하게 정리하는 문제를 다루는 통계학 2 Descriptive Statistics

예 : 서강대학교 군 제대 학생 vs. 군 입대 전 남학생의 성적 비교 이슈 이를 입증하기 위해 자료를 수집하여 분석 예 : 서강대학교 군 제대 학생 vs. 군 입대 전 남학생의 성적 비교 군 제대 학생 의 성적 군 입대 전 남학생 성적 성적 자료 수집 2 Descriptive Statistics

자료의 형태 양적 자료 vs. 질적 자료 양적 자료 : 어떤 것을 세거나 측정하거나 혹은 수학적 계산에 의해 얻어진 자료 예 : 3월 중 자동차 사고 발생 건수(예 X = 5,421건) 질적 자료 : 숫자 대신에 단어로 설명된다. 예 : 자동차 스타일(Y = 대형, 중형, 소형, 경차) 질적 자료도 숫자를 부여하여 나타낸다(coding이라 함) 예 : 대형 = 1, 중형 = 2, 소형 = 3, 경차 = 4 2 Descriptive Statistics

질적 자료와 양적 자료의 예 (1) 통계학 수강생들의 부모의 학력 자료 ? (2) 통계학 수강생들의 정치성향에 대한 자료 ? (1) 통계학 수강생들의 부모의 학력 자료 ? (2) 통계학 수강생들의 정치성향에 대한 자료 ? (3) 통계학 수강생들의 키 자료 ? (4) 통계학 수강생들의 전공 자료 ? (5) 통계학 수강생들의 성적 누계 자료 ? (6) 통계학 수강생들의 성별 자료 ? 2 Descriptive Statistics

횡단면(cross sectional ) 자료 vs. 시계열(time series) 자료 횡단면 자료 (cross sectional data) : 동일 시점의 자료 예 : ’09년도 가구별 소득과 소비지출 자료 시계열 자료 (time series data): 다른 시점에서 측정된 자료 예 : ’60년부터 ’09년까지 가구별 소득과 소비지출 자료 2 Descriptive Statistics

(5) 길동이의 1학년 1학기부터 최근까지의 성적 자료? 횡단면 자료와 시계열 자료의 예 (1) ‘12년 3월 10일 각 기업의 주식 종가 ? (2) 서강대학교 7,000명 학생의 ’08년 2학기 성적 자료 ? (3) ’12년도 S 은행 지점별 예금실적 ? (4) S 은행 신촌지점의 연도별 예금실적 ? (5) 길동이의 1학년 1학기부터 최근까지의 성적 자료? (6) ’90년 1월 3일부터 ’12년 3월 10일까지 종합주가지수 자료 ? (7) 각 도별 연말 기준 실업률 자료 ? 2 Descriptive Statistics

이산(discrete ) 자료 vs. 연속(continous) 자료 측정 단위가 불연속적인 경우, 그 변수를 이산 변수(discrete variable), 연속적인 경우 연속변수(continuous variable)라고 부른다. - 가족 수, 결혼 여부 등 : 이산변수 - 키, 몸무게 등 : 연속변수 2 Descriptive Statistics

명목(nominal ) 자료 vs. 실질(real) 자료 명목자료 : 물가상승을 고려하지 않은 가격과 소득 자료 예 : ’60년부터 최근까지의 임금 자료 실질자료 : 물가상승을 고려한 가격과 소득 자료 예 : ’60년부터 최근까지의 실질임금 자료 명목자료 실질자료 = X 100 물가 지표 2 Descriptive Statistics

소비자 물가지수 : 2000 년 = 100 기준 2000년 가치로 환산한 실질 소득 : 가구당 소득(월) 지수 비율 소득 1965 3.509 31.26배 7,320 467.81배 2008 109.7 3,490,259 소비자 물가지수 : 2000 년 = 100 기준 2000년 가치로 환산한 실질 소득 : ’65년 실질 소득 (x) : 3.509 : 7,320 = 100 : x x = (7,320/3.509)X100 = 208,606원 ’08년 실질 소득 = (3,490,259/109.7)X100 = 3,181,640원 2 Descriptive Statistics

자료의 수집 쉽게 구할 수 있는 자료 조사(survey)를 통하여 구해야 하는 자료 http://kosis.kr (통계청 website) - 거의 대부분의 거시경제 자료포함 조사(survey)를 통하여 구해야 하는 자료 예를 들어, 대통령 선거 조사, 어느 특정 제품에 대한 선호도 등 2 Descriptive Statistics

조사를 통한 자료수집 모집단을 가장 잘 대변할 수 있도록 표본을 수집 최종보고서에 들어가야 하는 내용 모집단 규명, 표본추출방법, 표본 수, 조사방법, 설문지(보통 부록) 등 2 Descriptive Statistics

단순무작위 추출법 (simple random sampling) 모집단 예를 들어, 서강대학교 학생 혹은 경제학과 학생 혹은 경제 통계학을 수강하는 학생 등 2. 표본 추출법 단순무작위 추출법 (simple random sampling) 층화 표본 추출법 (stratified sampling) 군집 표본 추출법 (clustered sampling) 등 앞으로 표본 추출은 단순무작위 추출법에 의해 추출 ; 모든 사건이 표본으로 뽑힐 확률이 같고, 서로 독립이다. 2 Descriptive Statistics

표본의 크기를 크게 하면 => 신뢰성이 높아지나 비용이 많이 소요 3. 표본의 크기(수) 표본의 크기를 크게 하면 => 신뢰성이 높아지나 비용이 많이 소요 4. 조사 방법 전화조사, 우편조사, 면접조사, 인터넷 조사 등 조사하고자 하는 내용에 따라 선택된다 예를 들어, 여론 조사는 대부분 전화조사 (짧은 기간 실시) 주의: 조사방법에 따라 표본이 모집단을 잘 대변할 수 없을 수도 있다. 2 Descriptive Statistics

5. 설문지 작성시 특히 주의할 점 - 설문지에 조사의 목적, 조사기관, 자료의 이용제한을 명시 - 쉽고 명확한 단어를 이용 - 다항문항인 경우 전체 집합이 되어야 하고, 중복이 되어서는 안됨 - 유도하는 질문이 되어서는 안됨 - 개인적인 프라이버시를 질문할 경우 가능한 설문지 마지막에 삽입 2 Descriptive Statistics

자료의 입력 자료를 수집한 다음에는 수집한 자료를 입력 대부분의 경우 EXCEL 프로그램을 이용하여 입력 EXCEL 프로그램 자료 입력 후에는 자료를 정리, 요약하여 자료의 특성을 보기 쉽게 표현한다. 그림, 표, 평균, 분산 등 2 Descriptive Statistics

1. 도수분포표와 누적도수표 자료의 구조를 이해하기 위해, 관찰한 값들을 알기 쉽게 표로 정리한 것이다. 최초에 얻은 정보의 일부는 분실되지만 관찰대상이 전체적으로 어떠한 양적 구조를 갖고 있는지 한 눈으로 볼 수 있다. 2 Descriptive Statistics

1. 도수분포표 lotto 당첨숫자(총 70개) 계급 : 각 구간 계급의 수 : 계급의 숫자 계급구간(계급간격) : 계급의 폭 1- 5 6- 10 11- 15 16- 20 21- 25 26- 30 31- 35 36- 40 41- 45 빈도수 6 7 8 계급 : 각 구간 계급의 수 : 계급의 숫자 계급구간(계급간격) : 계급의 폭 계급 값 : 계급의 중앙값 계급도수 : 각 계급에 속하는 관찰단위의 수 2 Descriptive Statistics

계급간격과 계급개수 계급간격 = range/n 보통 계급의 개수는 6개에서 20사이가 적당. 제일 큰 값(M)과 제일 작은 값(m)을 결정한 후, 그 차이인 범위(range)를 먼저 구한다. 범위를 n 으로 나누어 계급간격을 결정한다. 계급간격 = range/n 앞의 예 : range = 45-1=44, 70 = 약 8 => 계급간격 = 44/8 =약 5 => 계급개수 = 9개 2 Descriptive Statistics

2. 누적도수표 도수분포표 누적도수표 계급구간 빈도수 1- 5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 6 7 8 10 5 이하 10 이하 15 이하 20 이하 25 이하 30 이하 35 이하 40 이하 45 이하 13 19 27 35 45 52 62 70 2 Descriptive Statistics

2. 기술 통계량 많은 경우 주어진 자료의 특성을 하나의 숫자로 표시하여 그 구조를 파악한다. 중심(center) 혹은 대표값을 표시하기 위해 산술평균, 기하평균, 중앙값(median), 최빈값(mode) 등을 사용한다. 퍼짐정도(dispersion)를 파악하기 위하여 범위(range), 분산(variance), 표준편차(standard deviation) 등을 이용한다. 2 Descriptive Statistics

대표값 : 평균(mean) 키 인원 도수분포표를 이용하는 경우 이 경우 평균은 155-159 160-164 165-169 170-174 175-179 180-185 인원 3 8 9 14 11 10 실제 키 평균은 171.67. 이건 특별한 이름이 없기 때문에 평균으로 불리는 것 같다. 2 Descriptive Statistics

; 원 자료 혹은 ; 도수분포표 여기서 Y는 계급값 2 Descriptive Statistics

히스토그램은 평균을 중심으로 균형이 잡혀있다. 평균의 의미 히스토그램은 평균을 중심으로 균형이 잡혀있다. 평균 2 Descriptive Statistics

예 : 남자의 평균 점수 = 72점(200명) 여자의 평균 점수 = 84점(100명) 남녀 모두의 평균점수 = 2 Descriptive Statistics

표본평균 : 모집단 N 표본 n 모평균 : 2 Descriptive Statistics

대표값 :기하평균( geometric mean) 혹은 거치식 펀드의 첫 해 수익률이 200%, 둘째 해 수익률이 800%인 경우 연 평균 투자 수익률은? 2 Descriptive Statistics

기하평균 : ‘율’로 나타낸 변수의 대표값으로 주로 이용 최초의 값과 마지막 값을 각각 ; (n+1)개 자료 각 값들을 대표할 수 있는 값을 찾고자 하는 것임 , . . . , 들의 기하평균을 구하는 것임 2 Descriptive Statistics

대표값 : 메디안(중앙값) 변수의 크기 순으로 놓았을 때 두 집단으로 이등분하는 중앙값 n 이 홀수 : (n+1)/2번째의 수 n 이 짝수 : n/2번째와 n/2+1번째의 산술평균 2 Descriptive Statistics

대표값 : mode(최빈값) 변수 중에 가장 많이 나타나는 값 1, 1, 2, 2, 2, 3, 3, 5, 7, 8 2 Descriptive Statistics

퍼짐 dispersion 대표값은 관찰값의 “퍼진(dispersed)” 정도에 대한 정보를 가지고 있지 않다. x 빈도수 y -1 1 -1,000,000 1,000,000 평균 = 0 으로 같지만 같은 성질의 자료라고 할 수 없다 2 Descriptive Statistics

분산도: 제곱평균 제곱평균은 각각의 표본을 제곱하여 평균한 값으로 이차적률(second moment)이라고도 부르며, 표본의 퍼진 정도를 측정하는 기본적인 통계량 중의 하나이다. X 최소자승법과의 관계…최소자승법은 분산을 최소화 시키는 “평균”값을 찾는 방법이다. 하지만 수준만이 변하였지만 제곱평균 값이 서로 다르다. 이를 보완하기 위해 ‘편차’이용 2 Descriptive Statistics

절대편차의 평균(absolute deviation) 중앙에서 퍼짐 정도 편차(deivation) = Note : 편차의 합은 항상 영의 값을 갖는다. 절대편차의 평균(absolute deviation) 2 Descriptive Statistics

분산도: 분산 variance 분산(variance) ; 모분산 ; 표본분산 2 Descriptive Statistics

2 Descriptive Statistics

표준편차(standard deviation) 분산의 단위는 단위의 제곱이 되어 해석에 문제가 생긴다. 제곱근을 취하여 단위를 조정하여 준다. 혹은 표준편차도 측정되는 단위의 영향을 받는다. 이를 극복하기 위해 변동계수(coefficient of variation, CV ) 2 Descriptive Statistics

기타 분포에 대한 정보 집중 정도와 퍼짐 정도 이외에도 대칭 정도를 측정하기 위해 왜도(skewness), 평균값을 중심으로 표본이 얼마나 집중되어 있는지를 보여주는 첨도(kurtosis) 등이 자주 사용된다. 2 Descriptive Statistics

두 개의 자료 하나의 자료만을 다룰 경우, 평균과 표준편차는 해당 자료의 기본적인 성질을 잘 설명해 준다. 2개 이상의 자료를 비교할 경우, 자료간의 상관관계까지도 염두에 두어야 한다. 다음 슬라이드는 키와 몸무게의 관계를 표시한 그래프(scatter diagram)이다. 2 Descriptive Statistics

2 Descriptive Statistics

추세선 2 Descriptive Statistics

공분산(Covariance) 이러한 자료간의 상관관계를 측정하기 위하여 공분산을 이용한다. 공분산은, 중앙을 기준으로, 한 변수의 크기가 증가(감소)함에 따라 다른 변수의 크기가 증가하는 경향이 있는지 감소하는 경향이 있는지를 보여준다. 2 Descriptive Statistics

Y Y의 편차 II I 점 관계 I, III 양 Y II, IV 음 III IV X X X의 편차 2 Descriptive Statistics

점들이 주로 I, III 사분면 : 점들이 주로 II, IV 사분면 : 공분산(covariance) ; 모집단의 공분산 ; 표본의 공분산 2 Descriptive Statistics

주의 : 공분산=0은 두 변수간에 아무런 관계가 없다는 것이 아니라 양의 관계나 음의 관계가 없는 것을 의미 공분산 > 0 두 변수가 양의 관계 공분산 < 0 두 변수가 음의 관계 주의 : 공분산=0은 두 변수간에 아무런 관계가 없다는 것이 아니라 양의 관계나 음의 관계가 없는 것을 의미 X Y 공분산 = 0 2 Descriptive Statistics

마찬가지로 2 Descriptive Statistics

모집단 공분산 표본 공분산 2 Descriptive Statistics

공분산의 단위 키를 mm단위로 측정할 경우, 공분산의 값은 10배로 늘어나게 된다. 이러한 이유로 공분산은 두 변수의 관계에 대한 경향성만을 보여준다. 2 Descriptive Statistics

상관계수 correlation coefficient 공분산의 부호는 두 변수가 어떤 관계에 있는지를 보여준다. 상관관계의 정도를 알기 위해서는 단위를 통일시켜 비교해야 한다. 이를 위해 정규화된 변수들을 비교한다. 2 Descriptive Statistics

상관계수 표본의 상관계수 모집단의 상관계수 상관계수는 항상 -1과 1사이의 값을 가지며, 두 변수가 선형관계일 때만 -1이나 1이 된다. 2 Descriptive Statistics

양의 상관계수 상관계수가 1에 가까운 경우 상관계수가 0에 가까운 경우 2 Descriptive Statistics

음의 상관계수 상관계수가 0에 가까운 경우 상관계수가 -1에 가까운 경우 2 Descriptive Statistics

Y Y X X 상관계수=1 0 < 상관계수 < 1 주의 : 상관계수는 직선의 관계를 나타내는 것이기 때문에 직선의 기울기와는 관계가 없다 Y Y X X 상관계수=1 0 < 상관계수 < 1 2 Descriptive Statistics