Chapter2. 기술통계(Descriptive Statistics)

Slides:



Advertisements
Similar presentations
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Advertisements

경영통계 제 1 장 통계란 무엇인가 도수분포표. 도수분포 도수분포 상대도수분포 상대도수분포 누적 도수 누적 도수 분석 도구 - 히스토그램 분석 도구 - 히스토그램.
5. 통계 1. 산포도와 표준편차.
Keller: Stats for Mgmt & Econ, 7th Ed
제 2장. 표와 그림을 통한 자료의 요약.
재료수치해석 HW # 박재혁.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
Excel 일차 강사 : 박영민.
1주차 품질관리 개론 2주차 QC 7가지 수법 3주차 통계적 품질 관리 1강 통계적품질관리 이론 2강 SQC의 수법-관리도
수치해석 6장 예제문제 환경공학과 천대길.
경영통계학 통계학은 어떤 학문인가? What is Statistics? 1.1.
제2장 기술통계학Ⅰ: 표와 그래프적 방법.
제 3장. 수치를 통한 연속형 자료의 요약.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
디지털영상처리 및 실습 대구보건대학 방사선과.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
제 3 장 수치요약 ∙ 상자그림 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면
제2장 기초통계 양윤권 교수.
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
확률통계론 2장 : 확률변수.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
기술통계.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
제 3 장 수치요약 ∙ 상자그림 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면
군집 분석.
4. 도표 다루기.
(independent variable)
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
(Data Exploration & Analysis)
데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
1. 설치 2. SPC_Wave 사용설명 SPC_Reflow 사용방법은 Wave와 같습니다.
ITQ 정보기술자격 국가공인 Excel 2007 Ⅱ 함수- 11회차 강사 : 박영민.
자료의 표현.
사용자 경험 측정 (Measuring User Experience)
자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도.
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Excel 일차 강사 : 박영민.
제3장 함수와 배열수식 전진환
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
기초 통계학 지도위원 이광희.
통계해석 및 오차의 제거.
Chapter 1 단위, 물리량, 벡터.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
척도의 속성 - 목 차- 자료수집과정 척도의 속성 -명목척도 -서열척도 -등간척도 -비율척도 -리커트척도 3.Data(자료)
제2장 자료의 정리 및 기술통계 Min Gyoung Chan Ph.Dr..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
8장 표면거칠기 1. 표면 거칠기의 종류 - KS의 가공 표면의 거칠기(요철현상)를 지시하는 방법 최대높이 거 칠기(Ry), 10점 평균 거칠기(Rz), 산술(중심선) 평균 거칠기(Ra), 요철의 평균 간격(Sm), 국부 산봉우리의 평균 간격(S), 부하 길이 율(tp)
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

Chapter2. 기술통계(Descriptive Statistics)

1. 자료의 형태 명목형 (Nominal) 질적자료 (Quantitative data) 자료의 성격에 맞는 요약기법을 사용해야 함 질적자료 (Quantitative data) 순서형 (Ordinal) 이산형 (Discrete) 양적자료 (Qualitative data) 연속형 (Continuous)

2. 질적자료(Qualitative Data) - 빈도분석(Frequency Analysis)

예제데이터 K대학교에 재학중인 20명에 대해 출신지역, 학년, 지난 학기 학점을 조사하여 아래와 같은 결과를 얻어낼 수 있었다. id 지역 학년 학점 1 서울 C 11 충남 2 B 12 경북 4 3 경기 13 A 14 5 15 강원 6 전북 16 7 17 전남 8 18 경남 9 19 10 20

절차1. 엑셀 초기화면  절차2. 데이터  절차3. 피벗테이블/피벗차트보고서

- 원도표(Pie Chart)

- 막대그래프(Bar Chart)

3. 양적자료(Quantitative Data) 도표를 이용한 요약 : 시각적인 효과를 얻을 수 있으나, 보는 사람마다 각각 다른 해석을 할 수 있음(주관적) 상자그림, 줄기-잎 그림, 히스토그램 숫자를 이용한 요약 : 주어진 자료를 요약하여 하나의 수치로 기술하는 방법 대표값(자료의 대략적인 중심위치 파악-평균, 중위수, 최빈값 등) 산포도(자료의 흐트러진 정도의 척도-분산, 표준편차, 변동계수 범위 등) 백분위수(자료의 집합 내에서 특정 관측치와 다른 관측치들과의 상대적 위치를 나타내는 척도- 퍼센타일)

- 도표를 이용한 자료의 탐색 기본적인 통계량 뿐 아니라 여러 도표를 이용하여 전반적인 자료의 형태를 탐색 자료의 대칭성 정도, 특이치의 존재여부, 중심의 위치, 흩어진 정도들을 파악 도수분포표, 히스토그램, 상자그림, 줄기와 잎그림 자료의 정규성 여부도 함께 파악

예제데이터 한 회사의 A/S에 대한 만족도를 100점 만점으로 측정하였다. 서비스 만족도에 대한 남/여 별 평가점수 : 남자 10명, 여자 15명 총 2명의 점수 남자 : 75, 63, 49, 86, 53, 80, 70 ,72 ,81 ,80 여자 : 69, 76, 85, 95, 66, 77, 77, 63, 58, 74, 68, 90, 82, 59, 60

히스토그램(Histogram) 계량적 데이터를 그래프로 표현하는 방법 연속형 변수에 구간을 설정하여 빈도를 계산하고 이를 막대그래프로 표현한 것 X축에 자료의 범주(구간)을 표시, Y축에 해당 범주(구간)의 빈도를 표시함 특정 구간의 히스토그램의 면적은 그 구간에 속하는 관찰치들의 비율을 의미함. 엑셀초기화면  도구  추가기능  분석도구 클릭하여 설치

엑셀초기화면  도구  데이터분석  히스토그램 남자 여자 입력구간 75 69 50 63 76 60 49 85 70 86 95 80 53 66 90 77 100 72 81 58 74 68 82 59 0~50 51~60 61~70 71~80 81~90 91~100

계급 빈도수 50 60 3 70 4 80 90 100 1 기타 0~50 51~60 61~70 71~80 81~90 91~100

줄기-잎 그림(Stem and Leaf) 연속형 자료(계량적 데이터)를 그래프로 표현하는 방법 줄기 부분과 잎 부분으로 나누어 자료의 정보를 제공한다. 데이터의 첫째자리를 줄기로 하여 줄기를 수직으로 표시 줄기의 오른쪽에 수직으로 직선 표시 줄기의 오른쪽에 각 데이터의 끝 자리수를 크기 순으로 표시함 관찰치들의 실제값을 그림에서 파악할 수 있다.

서비스만족도 Stem-and-Leaf Plot for SEX= 남자 Frequency Stem & Leaf 1.00 4 . 9 1.00 5 . 3 1.00 6 . 3 3.00 7 . 025 4.00 8 . 0016 Stem width: 10 Each leaf: 1 case(s) 서비스만족도 Stem-and-Leaf Plot for SEX= 여자 Frequency Stem & Leaf 2.00 5 . 89 5.00 6 . 03689 4.00 7 . 4677 2.00 8 . 25 2.00 9 . 05 Stem width: 10 Each leaf: 1 case(s)

- 숫자를 이용한 탐색 자료요약 결과가 그림이 아닌 숫자로 제시됨 결과에 대한 객관적 평가를 내릴 수 있음 자료의 중심이 어디인지, 얼마나 퍼져있는지, 다른 데이터에 대한 상대적 위치 를 쉽게 파악할 수 있음

- 중심위치의 척도 (Measure of Central tendency, 대표값) - 평균(Mean, Average) 관측치의 총합을 관측치의 갯수인 n으로 나눈 것. 산술평균 오직 평균만이 관측치의 실제값을 사용함. 총합의 계산에 사용 가능함. 구간척도와 비율척도에만 의미가 있다. 순서척도인 경우에도 사용함. 특이치(outlier)에 민감하여 영향을 받음. 가장 보편적이고 대표적인 대표값.

- 중위수(Median) 전체 주어진 관측치를 크기 순으로 나열했을 때 중앙에 위치하는 관측치로 정의함. 데이터의 순위에 관한 정보만을 이용함. 구간, 비율, 순서 척도에서 사용. 실제 데이터에 의존하지 않으므로 특이치(outlier)에 영향을 덜 받는다.(robust)

- 최빈값(Mode) 전체 주어진 관측치들 중에서 가장 빈도가 높은 값으로 정의함. 명목척도(질적자료)로 측정된 자료에 대한 대표값으로 사용됨

- 산포의 척도 (Measure of Dispersion) - 분산(Variance) 자료의 흐트러진 정도를 나타내는 척도 각 개체 편차(평균과의 차이)의 제곱합을 관측치 수인 n 또는 n-1로 나눈 것 표본분산 : - 표준편차(Standard Deviation) 분산의 양의 제곱근 표본표준편차 :

- 분산과 표준편차의 성질 분산과 표준편차는 흐트러짐 정도의 측도 분산과 표준편차가 작을수록 자료가 평균에 근접해서 분포함 분산과 표준편차는 항상 0보다 크거나 같은 값을 가짐. 분산과 표준편차가 0이면 자료의 관측치의 퍼짐이 전혀 없이 모두 같은 값을 지님 관측치 들의 측정단위와 표준편차의 측정단위는 같음. 분산의 단위는 관측치 단위의 제곱 분산과 표준편차는 특이치(outlier)에 큰 영향을 받음.

예) 평균이 같고 분산이 서로 다른 관측치

- 변동계수 (coefficient of variation) 자료의 측정단위에 의존하지 않는 상대적인 산포의 측도 서로 측정단위가 틀린 여러 개의 자료의 산포를 비교할 때 사용 예제) 키와 몸무게 몸무게 : 72 74 68 76 74 69 72 79 70 69 77 73 키 : 180 168 225 201 189 192 197 162 174 171 185 210 몸무게 - 평균 : 72.75 표준편차 : 3.44 변동계수 : 4.73 키 - 평균 : 187.83 표준편차 : 18.47 변동계수 : 9.83

- 범위 (range) 범위 = 최대값-최소값 자료의 흐트러짐이 커지면 범위의 값도 커짐 자료의 흐트러짐 정도를 나타내는 가장 간단한 측도 자료 중 특별히 작은 값이나 큰 값(outlier)에 가장 민감하게 영향 받음. - 사분위범위 (Inter Quantile Range) 사분위범위 = 3사분위수-1사분위수 범위에 비하여 outlier의 영향을 덜 받음.

- 백분위수(percentile) 자료의 집합 내에서 어떤 특정 관측치의 다른 관측치 들과의 상대적 위치를 나타냄 자료의 중심, 흐트러짐 정도를 모두 표시함 정의 – 어떤 자료의 집합에서 c백분위수는 전체 관측치 들의 c%가 그 값보다는 작고 나머지는 큰 값을 나타냄. - 사분위수 1사분위수 : (n+1)/4 2사분위수 : (n+1)/2 3사분위수 : 3(n+1)/4

- 다섯숫자요약(5-number summary) 최소값, 최대값, 1사분위수, 2사분위수, 3사분위수 - 표준화(표준점수) 표준점수 = (관측치 – 평균)/표준편차 관측치의 상대적 위치의 척도로 사용됨 관측치간 상대적인 크기를 비교할 수 있음 단위가 없는 순수한 수치 관측치 전체 데이터 내에서의 위치를 나타내는데 효율적으로 사용됨 표준점수가 2.0을 벋어나면 특이치로 볼 수 있다.(5%이내)

> 0 < 0 = 0 - 왜도-자료분포에 대한 비대칭 정도를 나타내는 통계량 0 이면 분포가 자우대칭 0 이상이면 오른쪽 긴꼬리(왼쪽으로 치우쳐진) 분포 0 이하면 왼쪽 긴꼬리(오른쪽으로 치우쳐진) 분포 > 0 < 0 = 0

- 첨도-자료분포의 뾰족한 정도를 나타냄(정규분포와 비교하여) 0 이면 표준정규분포의 첨도 0 이상이면 정규분포보다 더 뾰족함. 꼬리가 얇다. 0 이하이면 정규분포보다 더 평평함. 꼬리가 두껍다.

엑셀초기화면  도구  데이터분석  기술통계법

서비스만족도 평균 72.32 표준 오차 2.32 중앙값 74 최빈값 63 표준 편차 11.6 분산 134.56 첨도 -0.47486 왜도 -0.13135 범위 46 최소값 49 최대값 95 합 1808 관측수 25

- 대표성 + 산포도 = 상자그림(Box Plot) 다섯숫자요약(중위수, 사분위수, 최소값, 최대값)를 이용하여 자료의 중심과 흐트러진 정도를 그래프로 표현한 것 자료의 중심, 대칭성 여부, 흐트러짐 정도, 치우쳐짐 여부, 특이값 존재 여부 등을 파악할 수 있다. MIN : 최소값 Q1 : 1사분위수 Q2 : 2사분위수(중위수) Q3 : 3사분위수 MAX : 최대값

- 분포형태와 상자그림(1)

- 분포형태와 상자그림(2)

- 정규성 검정 및 정규성 도표 - Q-Q플롯 특정분포에서의 이론적 분위수와 실제 분위수를 표현한 산점도 표본이 가정된 분포를 따르는지 여부를 나타내는 그림 점들이 그림의 일직선상에 높이면 이론 분포를 잘 따름을 의미함. - 정규성 검정 표본분포가 정규분포를 따르는가 여부를 통계적으로 검정함. 샤피로-윌크 통계량(표본수가 2000 이하일 때 주로 사용) 콜모고로프-스미르노프 통계량(표본의 크기가 2000 이상일 때 사용)