Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter2. 기술통계(Descriptive Statistics)

Similar presentations


Presentation on theme: "Chapter2. 기술통계(Descriptive Statistics)"— Presentation transcript:

1 Chapter2. 기술통계(Descriptive Statistics)

2 1. 자료의 형태 명목형 (Nominal) 질적자료 (Quantitative data) 자료의 성격에 맞는 요약기법을
사용해야 함 질적자료 (Quantitative data) 순서형 (Ordinal) 이산형 (Discrete) 양적자료 (Qualitative data) 연속형 (Continuous)

3 2. 질적자료(Qualitative Data)
- 빈도분석(Frequency Analysis)

4 예제데이터 K대학교에 재학중인 20명에 대해 출신지역, 학년, 지난 학기 학점을 조사하여 아래와 같은 결과를 얻어낼 수 있었다. id 지역 학년 학점 1 서울 C 11 충남 2 B 12 경북 4 3 경기 13 A 14 5 15 강원 6 전북 16 7 17 전남 8 18 경남 9 19 10 20

5 절차1. 엑셀 초기화면  절차2. 데이터  절차3. 피벗테이블/피벗차트보고서

6

7

8 - 원도표(Pie Chart)

9 - 막대그래프(Bar Chart)

10 3. 양적자료(Quantitative Data)
도표를 이용한 요약 : 시각적인 효과를 얻을 수 있으나, 보는 사람마다 각각 다른 해석을 할 수 있음(주관적) 상자그림, 줄기-잎 그림, 히스토그램 숫자를 이용한 요약 : 주어진 자료를 요약하여 하나의 수치로 기술하는 방법 대표값(자료의 대략적인 중심위치 파악-평균, 중위수, 최빈값 등) 산포도(자료의 흐트러진 정도의 척도-분산, 표준편차, 변동계수 범위 등) 백분위수(자료의 집합 내에서 특정 관측치와 다른 관측치들과의 상대적 위치를 나타내는 척도- 퍼센타일)

11 - 도표를 이용한 자료의 탐색 기본적인 통계량 뿐 아니라 여러 도표를 이용하여 전반적인 자료의 형태를 탐색
자료의 대칭성 정도, 특이치의 존재여부, 중심의 위치, 흩어진 정도들을 파악 도수분포표, 히스토그램, 상자그림, 줄기와 잎그림 자료의 정규성 여부도 함께 파악

12 예제데이터 한 회사의 A/S에 대한 만족도를 100점 만점으로 측정하였다. 서비스 만족도에 대한 남/여 별 평가점수 : 남자 10명, 여자 15명 총 2명의 점수 남자 : 75, 63, 49, 86, 53, 80, 70 ,72 ,81 ,80 여자 : 69, 76, 85, 95, 66, 77, 77, 63, 58, 74, 68, 90, 82, 59, 60

13 히스토그램(Histogram) 계량적 데이터를 그래프로 표현하는 방법
연속형 변수에 구간을 설정하여 빈도를 계산하고 이를 막대그래프로 표현한 것 X축에 자료의 범주(구간)을 표시, Y축에 해당 범주(구간)의 빈도를 표시함 특정 구간의 히스토그램의 면적은 그 구간에 속하는 관찰치들의 비율을 의미함. 엑셀초기화면  도구  추가기능  분석도구 클릭하여 설치

14 엑셀초기화면  도구  데이터분석  히스토그램 남자 여자 입력구간 75 69 50 63 76 60 49 85 70 86
95 80 53 66 90 77 100 72 81 58 74 68 82 59 0~50 51~60 61~70 71~80 81~90 91~100

15 계급 빈도수 50 60 3 70 4 80 90 100 1 기타 0~50 51~60 61~70 71~80 81~90 91~100

16 줄기-잎 그림(Stem and Leaf) 연속형 자료(계량적 데이터)를 그래프로 표현하는 방법
줄기 부분과 잎 부분으로 나누어 자료의 정보를 제공한다. 데이터의 첫째자리를 줄기로 하여 줄기를 수직으로 표시 줄기의 오른쪽에 수직으로 직선 표시 줄기의 오른쪽에 각 데이터의 끝 자리수를 크기 순으로 표시함 관찰치들의 실제값을 그림에서 파악할 수 있다.

17 서비스만족도 Stem-and-Leaf Plot for
SEX= 남자 Frequency Stem & Leaf Stem width: Each leaf: case(s) 서비스만족도 Stem-and-Leaf Plot for SEX= 여자 Frequency Stem & Leaf Stem width: Each leaf: case(s)

18 - 숫자를 이용한 탐색 자료요약 결과가 그림이 아닌 숫자로 제시됨 결과에 대한 객관적 평가를 내릴 수 있음
자료의 중심이 어디인지, 얼마나 퍼져있는지, 다른 데이터에 대한 상대적 위치 를 쉽게 파악할 수 있음

19 - 중심위치의 척도 (Measure of Central tendency, 대표값)
- 평균(Mean, Average) 관측치의 총합을 관측치의 갯수인 n으로 나눈 것. 산술평균 오직 평균만이 관측치의 실제값을 사용함. 총합의 계산에 사용 가능함. 구간척도와 비율척도에만 의미가 있다. 순서척도인 경우에도 사용함. 특이치(outlier)에 민감하여 영향을 받음. 가장 보편적이고 대표적인 대표값.

20 - 중위수(Median) 전체 주어진 관측치를 크기 순으로 나열했을 때 중앙에 위치하는 관측치로 정의함. 데이터의 순위에 관한 정보만을 이용함. 구간, 비율, 순서 척도에서 사용. 실제 데이터에 의존하지 않으므로 특이치(outlier)에 영향을 덜 받는다.(robust)

21 - 최빈값(Mode) 전체 주어진 관측치들 중에서 가장 빈도가 높은 값으로 정의함. 명목척도(질적자료)로 측정된 자료에 대한 대표값으로 사용됨

22 - 산포의 척도 (Measure of Dispersion)
- 분산(Variance) 자료의 흐트러진 정도를 나타내는 척도 각 개체 편차(평균과의 차이)의 제곱합을 관측치 수인 n 또는 n-1로 나눈 것 표본분산 : - 표준편차(Standard Deviation) 분산의 양의 제곱근 표본표준편차 :

23 - 분산과 표준편차의 성질 분산과 표준편차는 흐트러짐 정도의 측도 분산과 표준편차가 작을수록 자료가 평균에 근접해서 분포함 분산과 표준편차는 항상 0보다 크거나 같은 값을 가짐. 분산과 표준편차가 0이면 자료의 관측치의 퍼짐이 전혀 없이 모두 같은 값을 지님 관측치 들의 측정단위와 표준편차의 측정단위는 같음. 분산의 단위는 관측치 단위의 제곱 분산과 표준편차는 특이치(outlier)에 큰 영향을 받음.

24 예) 평균이 같고 분산이 서로 다른 관측치

25 - 변동계수 (coefficient of variation)
자료의 측정단위에 의존하지 않는 상대적인 산포의 측도 서로 측정단위가 틀린 여러 개의 자료의 산포를 비교할 때 사용 예제) 키와 몸무게 몸무게 : 키 : 몸무게 - 평균 : 표준편차 : 변동계수 : 4.73 키 - 평균 : 표준편차 : 변동계수 : 9.83

26 - 범위 (range) 범위 = 최대값-최소값 자료의 흐트러짐이 커지면 범위의 값도 커짐 자료의 흐트러짐 정도를 나타내는 가장 간단한 측도 자료 중 특별히 작은 값이나 큰 값(outlier)에 가장 민감하게 영향 받음. - 사분위범위 (Inter Quantile Range) 사분위범위 = 3사분위수-1사분위수 범위에 비하여 outlier의 영향을 덜 받음.

27 - 백분위수(percentile) 자료의 집합 내에서 어떤 특정 관측치의 다른 관측치 들과의 상대적 위치를 나타냄 자료의 중심, 흐트러짐 정도를 모두 표시함 정의 – 어떤 자료의 집합에서 c백분위수는 전체 관측치 들의 c%가 그 값보다는 작고 나머지는 큰 값을 나타냄. - 사분위수 1사분위수 : (n+1)/4 2사분위수 : (n+1)/2 3사분위수 : 3(n+1)/4

28 - 다섯숫자요약(5-number summary)
최소값, 최대값, 1사분위수, 2사분위수, 3사분위수 - 표준화(표준점수) 표준점수 = (관측치 – 평균)/표준편차 관측치의 상대적 위치의 척도로 사용됨 관측치간 상대적인 크기를 비교할 수 있음 단위가 없는 순수한 수치 관측치 전체 데이터 내에서의 위치를 나타내는데 효율적으로 사용됨 표준점수가 2.0을 벋어나면 특이치로 볼 수 있다.(5%이내)

29 > 0 < 0 = 0 - 왜도-자료분포에 대한 비대칭 정도를 나타내는 통계량 0 이면 분포가 자우대칭
0 이상이면 오른쪽 긴꼬리(왼쪽으로 치우쳐진) 분포 0 이하면 왼쪽 긴꼬리(오른쪽으로 치우쳐진) 분포 > 0 < 0 = 0

30 - 첨도-자료분포의 뾰족한 정도를 나타냄(정규분포와 비교하여)
0 이면 표준정규분포의 첨도 0 이상이면 정규분포보다 더 뾰족함. 꼬리가 얇다. 0 이하이면 정규분포보다 더 평평함. 꼬리가 두껍다.

31 엑셀초기화면  도구  데이터분석  기술통계법

32 서비스만족도 평균 72.32 표준 오차 2.32 중앙값 74 최빈값 63 표준 편차 11.6 분산 134.56 첨도 왜도 범위 46 최소값 49 최대값 95 1808 관측수 25

33 - 대표성 + 산포도 = 상자그림(Box Plot)
다섯숫자요약(중위수, 사분위수, 최소값, 최대값)를 이용하여 자료의 중심과 흐트러진 정도를 그래프로 표현한 것 자료의 중심, 대칭성 여부, 흐트러짐 정도, 치우쳐짐 여부, 특이값 존재 여부 등을 파악할 수 있다. MIN : 최소값 Q1 : 1사분위수 Q2 : 2사분위수(중위수) Q3 : 3사분위수 MAX : 최대값

34 - 분포형태와 상자그림(1)

35 - 분포형태와 상자그림(2)

36

37

38 - 정규성 검정 및 정규성 도표 - Q-Q플롯 특정분포에서의 이론적 분위수와 실제 분위수를 표현한 산점도
표본이 가정된 분포를 따르는지 여부를 나타내는 그림 점들이 그림의 일직선상에 높이면 이론 분포를 잘 따름을 의미함. - 정규성 검정 표본분포가 정규분포를 따르는가 여부를 통계적으로 검정함. 샤피로-윌크 통계량(표본수가 2000 이하일 때 주로 사용) 콜모고로프-스미르노프 통계량(표본의 크기가 2000 이상일 때 사용)

39


Download ppt "Chapter2. 기술통계(Descriptive Statistics)"

Similar presentations


Ads by Google