제 3 장 수치요약 ∙ 상자그림 27 1. 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면 통계자료의 탐색적 분석(EDA) 27 제 3 장 수치요약 ∙ 상자그림 1. 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면 점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우 분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다. 큰 값에 편중, 작은 값 쪽으로 꼬리가 긴 모형 작은 값에 편중, 큰 값 쪽으로 꼬리가 긴 모형
(1) N이 홀수 중위수 = (N+1)/2 번째 자료점 통계자료의 탐색적 분석(EDA) 28 중위수(Median) 자료의 크기를(자료의 수) N이라고 할 때 (1) N이 홀수 중위수 = (N+1)/2 번째 자료점 (2) N이 짝수 중위수 = N/2번째와 (N+1)/2번째 자료 값의 평균 중위수의 깊이(depth) d(M) = (N+1)/2 짝수, 홀수에 관계없음 산포의 측도 표준편차 전통적인 통계방법론 두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성) 두 사분위수(H)의 깊이 정의 d(H) = ([d(M)]+1)/2 , [x]는 가우스 수
왜도(Skewness) – 분포의 기울어진 정도 통계자료의 탐색적 분석(EDA) 29 사분위수 Q1(제 1사분위수) HL Q2(중위수) M Q3(제 3사분위수) HU 왜도(Skewness) – 분포의 기울어진 정도 -1< SKEW <1 +1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형 EDA에서의 다섯 수치 요약 (최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =
SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] 통계자료의 탐색적 분석(EDA) 30 2 2 0 00 N=65 5 3 1 058 15 10 2 1333458889 d(M)=(65+1)/2=33 22 7 3 0355789 (11) 11 4 11133456678 d(H)=(33+1)/2=17 32 17 5 11122233344456688 15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478 4 2 8 29 min=0, max=99 2 2 9 09 65∨ (0, 33, 48, 58, 99) SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] = (10-15)/(10+15)=-5/25=-0.2 부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포
중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C, 통계자료의 탐색적 분석(EDA) 31 2. 문자 값 중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C, 64분위수 – B, 128분위수 - A 자료의 크기가 400-500이상이 아닌경우 무의미 예 : N=65인 경우 중위수의 깊이 : d(M)=(N+1)/2 d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/2 d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/2 d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/2 d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/2 * 64분위수의 깊이 : d(B)=([d(C)]+1)/2 * 128분위수의 깊이 : d(A)=([d(B)]+1)/2 * <수리통계학 시험점수 자료의 문자 값 전시> 깊이 문자값 중앙 mid 산포 spr 중위수 M 33 48 48 * 4분위수 H 17 33 58 45.5 25 8분위수 E 9 23 73 48 50 16분위수 D 5 18 78 48 60 끝 값 1 1 0 99 49.5 99
문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우 통계자료의 탐색적 분석(EDA) 32 3. mid와 spr의 추이 문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우 M = mid H = mid E = mid D = mid C = mid B = mid A D E H M H E D
M > mid H > mid E > mid D > mid C > mid B > mid A 통계자료의 탐색적 분석(EDA) 33 (2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우 M > mid H > mid E > mid D > mid C > mid B > mid A D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우 M < mid H <mid E < mid D < mid C < mid B <mid A D E H M H E D
분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다. 분포가 정규분포인 경우 ∼ 문자값 mid spr M * H E D 통계자료의 탐색적 분석(EDA) 34 Spr값의 추이 분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다. 분포가 정규분포인 경우 ∼ 문자값 mid spr M * H E D 모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로 = spr(H)/1.35 pseudo-sigma pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용 EDA의 첨도의 정의 KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(D)/spr(H)-2.274 (정규분포의 KURTO는 0이다)
## 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H E D 통계자료의 탐색적 분석(EDA) 35 ## 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H E D KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524 KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이 집중되고 꼬리 부분에서는 상대적으로 자료점이 희박 KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박 꼬리부분에서는 상대적으로 자료가 많음
## 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려 통계자료의 탐색적 분석(EDA) 36 ## 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려 문자값을 구해보자.(위 꼬리 확률) 이므로 중위수 M은 이고 위 사분위 HU는 HU = 문자값 mid spr M * H E D KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726 KURTO의 값이 양수는 정규분포에 비하여 꼬리가 두껍다
2) 중위수(M)의 특성 – 편차 절대값을 최소화 자료값이 으로 표현하면 이 홀수 이 짝수 통계자료의 탐색적 분석(EDA) 37 4. 전통적인 수치요약과의 비교 1) 평균의 특성 - 편차 제곱합을 최소화( ) 증명) 2) 중위수(M)의 특성 – 편차 절대값을 최소화 자료값이 으로 표현하면 이 홀수 이 짝수 증명) 교재 참고 증가함수와 감소함수를 구분 짖는 위치를 선택
전통적인 왜도(skewness)와 첨도(kurtosis)의 정의 왜도 = 첨도 = 통계자료의 탐색적 분석(EDA) 38 전통적인 왜도(skewness)와 첨도(kurtosis)의 정의 왜도 = 첨도 = 평균이 인 확률변수 의 중심 차 적률 의 정의는 중심 차 적률 왜도 첨도 정규분포 , 가 짝수 0 0 0, 가 홀수 균일분포 , 가 짝수 0 -1.2 0, 가 홀수 이중지수분포 , 가 짝수 0 3
데이터 불러오기 File > Open Worksheet… 통계자료의 탐색적 분석(EDA) 39 5. 미니탭을 이용한 수치요약의 계산 데이터 불러오기 File > Open Worksheet… 데이터
문자값 작성 Stat > EDA > Letter Values … 40 문자값 작성 Stat > EDA > Letter Values …
다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림) <단순한 상자 그림의 작성 방법> 통계자료의 탐색적 분석(EDA) 41 <OUTPUT> 6. 상자 그림(BOX PLOT) 다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림) <단순한 상자 그림의 작성 방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다. 3) 최소값과 최대값의 위치에 점을 찍고 이 점을 상자의 양끝과 선분으로 연결 Results for: Scores.TXT Letter Value Display: score 분위수 범위 Depth Lower Upper Mid N= 65 M 33.0 48.000 48.000 H 17.0 33.000 58.000 45.500 25.000 E 9.0 23.000 73.000 48.000 50.000 D 5.0 18.000 78.000 48.000 60.000 C 3.0 10.000 89.000 49.500 79.000 B 2.0 0.000 90.000 45.000 90.000 1 0.000 99.000 49.500 99.000 Spread
<대표적인 상자 그림 작성방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 통계자료의 탐색적 분석(EDA) 42 <대표적인 상자 그림 작성방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다. 3) 다음과 같이 양쪽 안울타리(inner fence)값 IF를 계산한다. 그리고, 양쪽 바깥울타리(outer fence)값 OF를 계산한다. 4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다. 이 자료점을 인접값(adjacent value) AV라고 한다. 인접값과 상자의 양끝과 연결 AVL HL M HU AVU 5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점(outlier)으로 간주하고 그 위치에 ‘*’ 표시. 바깥울타리의 바깥에 있는 자료점은 특별한 특이점(special outlier) 으로 간주 그 위치에 ‘o’ 표시. * * o + +
경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료 통계자료의 탐색적 분석(EDA) 43 1995년 인구 및 주택 센서스 보고에 따른 경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료 1) <줄기와 잎그림> <다섯 수치요약> 경기도 수원 756 성남 869 의정부 276 안양 591 부천 779 광명 351 평택 313 동두천 72 안산 510 고양 518 과천 68 구리 142 남양주 229 오산 70 시흥 133 군포 235 의왕 109 하남 116 양주 95 여주 92 화성 159 파주 163 광주 86 연천 52 포천 119 가평 50 양평 71 이천 155 용인 243 안성 120 김포 108 경상남도 창원 482 울산 967 마산 441 진주 330 진해 126 통영 132 사천 113 김해 256 밀양 122 거제 148 의령 38 함안 60 창녕 71 양산 163 고성 60 남해 60 하동 55 산청 43 함양 45 거창 70 합천 62 서울시 종로 190 중구 136 용산 254 성동 334 광진 382 동대문 416 중랑 440 성북 490 강북 390 동봉 356 노원 569 은평 485 서대문 360 마포 386 양천 461 강서 503 구로 365 금천 285 영등포 414 동작 422 관악 548 서초 385 강남 535 송파 637 강동 487 부산시 중구 64 서구 175 동구 152 영도 506 부산진 453 동래 312 남구 312 북구 278 해운대 302 사하 381 금정 308 강서 67 연제 246 수영 196 사상 296 기장 69 9 0 767998557 단위 10(x첨영) 10 1 4301561520 4 2 7234 2 3 51 0 4 3 5 911 0 6 2 7 57 1 8 6 31V M 142 H 93.5 294.5 spr(H) = 201 1 70.5 554.5
2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시 I + I 통계자료의 탐색적 분석(EDA) 44 2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시 I + I 150 300 450 3) 안울타리(inner fence)값 IF를 계산 IFL = HL - 1.5 spr(H) = 93.5 - 1.5 201 = -208, IFU = HU + 1.5 spr(H) = 294.5 + 1.5 201 = 596. 바깥울타리(outer fence)값 OF를 계산 OFL = HL – 3.0 spr(H) = 93.5 - 3.0 201 = -509.5, OFU – HU + 3.0 spr(H) = 294.5 + 3.0 201 = 897.5. 4) 아래 인접값 AVL은 최소값과 같은 50, 위 인접값 AVU는 591. I + I 150 300 450 600 5) 위 안울타리 IFU와 바깥 울타리 OFU의 사이에 있는 자료점을 찾아‘*’표시 ‘o’자료는 없음. I + I * * * 150 300 450 600 750
안울타리(inner fence)값 IF IF = 정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다 통계자료의 탐색적 분석(EDA) 45 7. 특이점 정규분포 평균이 이고 분산이 인 정규분포의 경우 사분위수 H H = 0.675 이므로 spr(H) = 1.35 안울타리(inner fence)값 IF IF = 정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다 (즉, N=100인 경우 특이값으로 판정될 자료점의 수는 평균 1개 미만) 균일분포 균일분포 에서 동일한 확률밀도 사분위수 H H = 이므로 spr(H) = 안울타리(inner fence)값 IF IF = 이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로, 균일분포에서는 특이점이 검출 되지 않는다.
즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다. 통계자료의 탐색적 분석(EDA) 46 이중 지수분포 중심 이고 감소율 의 이중 지수분포 고려 사분위수 H H = 이므로 spr(H) = 안울타리(inner fence) 값 IF IF = 이중 지수분포에서는 즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다. 종합(결론) 균일분포에서는 특이값이 절대로 검출될 수 없으며, 정규분포에서는 간혹 검출될 수 있으나, 이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다.
47 8. 여러 묶음 수치자료의 비교 경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시 통계자료의 탐색적 분석(EDA) 47 8. 여러 묶음 수치자료의 비교 경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시 (1) 경기도 시군 인구 Depth Lower Upper Mid Spread N= 31 M 16.0 142.000 142.000 H 8.5 93.500 294.500 194.000 201.000 E 4.5 70.500 554.500 312.500 484.000 D 2.5 60.000 767.500 413.750 707.500 C 1.5 51.000 824.000 437.500 773.000 1 50.000 869.000 459.500 819.000 (2) 경상남도의 시군 인구 N= 21 M 11.0 113.000 113.000 H 6.0 60.000 163.000 111.500 103.000 E 3.5 50.000 385.500 217.750 335.500 D 2.0 43.000 482.000 262.500 439.000 1 38.000 967.000 502.500 929.000 (3) 서울•부산의 구 인구 N= 41 M 21.0 365.000 365.000 H 11.0 278.000 453.000 365.500 175.000 E 6.0 175.000 503.000 339.000 328.000 D 3.5 102.500 541.500 322.000 439.000 C 2.0 67.000 569.000 318.000 502.000 1 64.000 637.000 350.500 573.000
48 2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구 수부 성 --------------- 원천 남 통계자료의 탐색적 분석(EDA) 48 2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구 수부 성 --------------- 원천 남 ---I + I------------------- * * * --------------- --------+---------+---------+---------+---------+--------k-k 150 300 450 600 750 (2) 경상남도의 시군 인구 진 마창 울 ------ 주 산원 산 -I + I----- * * O O ------ +---------+---------+---------+---------+---------+------k-n 0 200 400 600 800 1000 (3) 서울 • 부산의 구 인구 ---------------- ------------------I + I--------------- +---------+---------+---------+---------+---------+------s-p 0 120 240 360 480 600
Graph > Character Graph > Boxplot…. @ 미니탭의 stack(쌓기) 통계자료의 탐색적 분석(EDA) 49 3) 세 그룹의 상자 그림(2) ----------- 경기도 --I + I--------------- ** * ------ 경상남도 -I + I----- * * O O ---------- 서울•부산 -----------I + I--------- +---------+---------+---------+---------+---------+------C5 0 200 400 600 800 1000 [미니탭의 활용] @ BOX-PLOT Graph > Character Graph > Boxplot…. @ 미니탭의 stack(쌓기) Manip > Stack/Unstack > Stack Columns….
1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 50 9. 요약 1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 2. 문자값 중위수 M, 사분위수 H, 8분위수 E, 16분위수 D, 32분위수 C 등등 3. 문자값에서의 mid(=두 분위수의 중앙값) - 왜도(skewness) 증가하는지, 감소하는지에 따라 분포의 기울기 정도, 방향을 알 수 있음 4. 문자값에서 spr(두 분위수의 차이) - 첨도(kurtosis) 증가하는 속도에 따라 꼬리가 얇은 분포인지, 두터운 분포인지 알 수 있음 5. 미니탭에서의 문자 값 전시를 위한 메뉴 명령 Stat > EDA > Letter Values …. 6. 상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것 7. 상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H) 특이한 특이점을 판정하는 경계선은 HL-3.0Ⅹspr(H), HU+3.0Ⅹspr(H) 8. 자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7%에 불과 9. 상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단 동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직