제 3장. 수치를 통한 연속형 자료의 요약
1. 중심위치의 측도 (Measure of Center) 평균(mean) 중앙값(median) : 관측값을 크기 순으로 배열했을 때 가운데 값 자료의 개수(n) 홀수 일 때 번째 관측값 자료의 개수(n) 짝수 일 때 번째 관측값과 번째 관측값의 평균 최빈값(mode) :가장 자주 나오는 값
p52 예제1) 6명의 성적 89(5), 74(2), 91(6), 88(4), 72(1), 84(3) 평균=83, 중앙값=(3번째 성적+4번째 성적)/2 = (84+88)=86 p54 예제4) 6명의 성적/한 명의 성적 변동 89(5), 50(1), 91(6), 88(4), 72(2), 84(3) 평균=79, => 평균은 극단적인 값에 영향을 받는다
중심위치의 측도
2. 퍼진 정도의 측도 중심위치는 같으나 퍼진 정도가 다른 분포
2. 퍼진 정도의 측도(Measure of Dispersion) 1) 분산(Variance)과 표준편차 (Standard Deviation): 관측값이 자료의 중심 위치로부터 떨어진 정도.
2) 백분위수(Percentile) 와 사분위수범위(interquartile range) 최소 25% 50% 75% 최대 중앙값=50%백분위수
2) 백분위수(Percentile) 와 사분위수범위(interquartile range) 제 100xp 백분위수(the 100xpth percentile) 전체 관측값을 (100xp)%와 100x(1-p)%로 나눌 수 있는 값 자료수가 n일때, 그 값보다 작거나 같은 관측값의 수가 np개 이상, 크거나 같은 관측값이 n(1-p)개 이상인 값
(100xp)%백분위수 구하는 법 1. 관측값을 크기 순으로 2. np를 구한다 1) np가 정수이면 np 번째와 np+1 번째 관측값의 평균 2) np가 정수가 아니면 np정수부분에 1 을 더한 값 예제)
p64 예제8) n=6 자료: 72, 74, 84, 88, 89, 91 25% 백분위수(100x0.25% 백분위수) n=6, p=0.25=> np=1.5 1.5는 정수가 아니므로 (INT(1.5)+1)=2번째 관측값이 25% 백분위수 2번째 관측값=> 74
p67 예제8) n=6 자료: 72, 74, 84, 88, 89, 91 75% 백분위수(100x0.75%) np=6 x 0.75=4.5 4.5는 정수가 아니므로 (INT(4.5)+1)=5번째 관측값이 75% 백분위수 => 5번째 관찰값=>89
p67 예제8) n=6 자료: 72, 74, 84, 88, 89, 91 50% 백분위수(100x0.5%) np=6 x 0.5=3 =>정수 정수인 경우 (np번째 관측값+(np+1)번째관측값)/2 =>(3번째+4번째)/2 =(84+88)/2=86
p67 예제8) n=6 자료: 72, 74, 84, 88, 89, 91 25% 백분위수=Q1=74 75% 백분위수=Q3=89 사분위수범위(IQR)=Q3-Q1 최소 25% 50% 75% 최대 p67 예제8) n=6 자료: 72, 74, 84, 88, 89, 91 25% 백분위수=Q1=74 75% 백분위수=Q3=89 IQR=89-74=15
p65 예제7) 목적지까지 전철 소요시간42 40 38 37 43 39 78 38 45 44 40 38 41 35 31 44 중앙값을 구하라 30%백분위수를 구하라 사분위수범위를 구하라 EXCEL에 데이터 입력 정렬=>필요한 크기에 있는 값 선택
변동계수 상대적 퍼진 정도를 나타냄 단위에 영향을 받지 않음 P68예제10)
P68 예제10) A, B 두 회사 주식가격 날짜 A회사 B회사 1 76300 6400 2 77400 7000 3 77900 7400 4 77200 6900 5 76900 7300 6 78800 7600 변동계수=표준편차/표본평균 A회사 주식평균 및 표준편차: 77417, 861 1.11 B회사 주식평균 및 표준편차: 7100, 429 6.04 => B주식의 단위가격당 변동성이 더 크다.
EXCEL 실습 p80 예제14>음료수 한 병에 대한 부피 p42 예제13 데이터 ch2_ex13.xls 대표값과 퍼진 정도 값을 구하라 데이터=>데이터분석=>기술통계 수식=>함수=>통계=>AVERAGE, MEDIAN, VAR, STDEV, MAX, MIN, QUARTILE 사용 대화상자의 Value에 데이터 범위지정
3. 상자그림(BOX-PLOT) 위범위내 최대값 상사분위수(Q3) 중앙값 하사분위수(Q1) 아래범위내 최소값 * 이상값 * 이상값 위범위내 =Q3+1.5xIQR 아래범위내=Q1-1.5xIQR (IQR=Q3-Q1)
P75 예제12) 남녀를 구분한 키에 대한 자료
Excel 실습 p42 예제13 데이터 ch2.ex13.xls에서 상자그림을 그려라. 상자그림을 보고 분포모양을 설명하라.
4. 돗수분포표에서 자료의 요약 자료가 돗수분포표 형태이고 원 자료가 주어지지 않았을 때=>계급구간의 중간값 사용 계급의 개수: k, 계급의 중간값: 계급의 돗수: , 자료의 갯수: 표본평균 표본분산 표준편차
4. 돗수분포표에서 자료의 요약 P78 예제13)
EXCEL 실습 ch2_ex7.xls 자료를 이용하여 만든 돗수분포표로(앞장) 부터 구한 평균과 분산을 원 데이터로 부터 구한 값과 비교하라.
HW2 p87 #6.15 P89 #6.24, #6.25