Download presentation
Presentation is loading. Please wait.
Published byTeodora Lazarević Modified 5년 전
1
제 3 장 수치요약 ∙ 상자그림 27 1. 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면
통계자료의 탐색적 분석(EDA) 27 제 3 장 수치요약 ∙ 상자그림 1. 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면 점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우 분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다. 큰 값에 편중, 작은 값 쪽으로 꼬리가 긴 모형 작은 값에 편중, 큰 값 쪽으로 꼬리가 긴 모형
2
(1) N이 홀수 중위수 = (N+1)/2 번째 자료점
통계자료의 탐색적 분석(EDA) 28 중위수(Median) 자료의 크기를(자료의 수) N이라고 할 때 (1) N이 홀수 중위수 = (N+1)/2 번째 자료점 (2) N이 짝수 중위수 = N/2번째와 (N+1)/2번째 자료 값의 평균 중위수의 깊이(depth) d(M) = (N+1)/ 짝수, 홀수에 관계없음 산포의 측도 표준편차 전통적인 통계방법론 두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성) 두 사분위수(H)의 깊이 정의 d(H) = ([d(M)]+1)/2 , [x]는 가우스 수
3
왜도(Skewness) – 분포의 기울어진 정도
통계자료의 탐색적 분석(EDA) 29 사분위수 Q1(제 1사분위수) HL Q2(중위수) M Q3(제 3사분위수) HU 왜도(Skewness) – 분포의 기울어진 정도 -1< SKEW <1 +1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형 EDA에서의 다섯 수치 요약 (최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =
4
SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]
통계자료의 탐색적 분석(EDA) 30 N=65 d(M)=(65+1)/2=33 (11) d(H)=(33+1)/2=17 M=48, HL=33, HU=58 min=0, max=99 65∨ (0, 33, 48, 58, 99) SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] = (10-15)/(10+15)=-5/25=-0.2 부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포
5
중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C,
통계자료의 탐색적 분석(EDA) 31 2. 문자 값 중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C, 64분위수 – B, 128분위수 - A 자료의 크기가 이상이 아닌경우 무의미 예 : N=65인 경우 중위수의 깊이 : d(M)=(N+1)/ d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/ d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/ d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/ d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/ * 64분위수의 깊이 : d(B)=([d(C)]+1)/ * 128분위수의 깊이 : d(A)=([d(B)]+1)/ * <수리통계학 시험점수 자료의 문자 값 전시> 깊이 문자값 중앙 mid 산포 spr 중위수 M * 4분위수 H 8분위수 E 16분위수 D 끝 값
6
문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우
통계자료의 탐색적 분석(EDA) 32 3. mid와 spr의 추이 문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우 M = mid H = mid E = mid D = mid C = mid B = mid A D E H M H E D
7
M > mid H > mid E > mid D > mid C > mid B > mid A
통계자료의 탐색적 분석(EDA) 33 (2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우 M > mid H > mid E > mid D > mid C > mid B > mid A D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우 M < mid H <mid E < mid D < mid C < mid B <mid A D E H M H E D
8
분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다. 분포가 정규분포인 경우 ∼ 문자값 mid spr M * H E D
통계자료의 탐색적 분석(EDA) 34 Spr값의 추이 분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다. 분포가 정규분포인 경우 ∼ 문자값 mid spr M * H E D 모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로 = spr(H)/ pseudo-sigma pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용 EDA의 첨도의 정의 KURTOE/H = (EU-EL)/(HU-HL) = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL) =spr(D)/spr(H)-2.274 (정규분포의 KURTO는 0이다)
9
## 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H E D
통계자료의 탐색적 분석(EDA) 35 ## 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H E D KURTOE/H = / = , KURTOD/H = / = KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이 집중되고 꼬리 부분에서는 상대적으로 자료점이 희박 KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박 꼬리부분에서는 상대적으로 자료가 많음
10
## 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려
통계자료의 탐색적 분석(EDA) 36 ## 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려 문자값을 구해보자.(위 꼬리 확률) 이므로 중위수 M은 이고 위 사분위 HU는 HU = 문자값 mid spr M * H E D KURTOE/H = loge(4) / loge(2) – = 0.296 KURTOD/H = loge(8) / loge(2) – = 0.726 KURTO의 값이 양수는 정규분포에 비하여 꼬리가 두껍다
11
2) 중위수(M)의 특성 – 편차 절대값을 최소화 자료값이 으로 표현하면 이 홀수 이 짝수
통계자료의 탐색적 분석(EDA) 37 4. 전통적인 수치요약과의 비교 1) 평균의 특성 - 편차 제곱합을 최소화( ) 증명) 2) 중위수(M)의 특성 – 편차 절대값을 최소화 자료값이 으로 표현하면 이 홀수 이 짝수 증명) 교재 참고 증가함수와 감소함수를 구분 짖는 위치를 선택
12
전통적인 왜도(skewness)와 첨도(kurtosis)의 정의 왜도 = 첨도 =
통계자료의 탐색적 분석(EDA) 38 전통적인 왜도(skewness)와 첨도(kurtosis)의 정의 왜도 = 첨도 = 평균이 인 확률변수 의 중심 차 적률 의 정의는 중심 차 적률 왜도 첨도 정규분포 , 가 짝수 0, 가 홀수 균일분포 , 가 짝수 0, 가 홀수 이중지수분포 , 가 짝수
13
데이터 불러오기 File > Open Worksheet…
통계자료의 탐색적 분석(EDA) 39 5. 미니탭을 이용한 수치요약의 계산 데이터 불러오기 File > Open Worksheet… 데이터
14
문자값 작성 Stat > EDA > Letter Values …
40 문자값 작성 Stat > EDA > Letter Values …
15
다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림) <단순한 상자 그림의 작성 방법>
통계자료의 탐색적 분석(EDA) 41 <OUTPUT> 6. 상자 그림(BOX PLOT) 다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림) <단순한 상자 그림의 작성 방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다. 3) 최소값과 최대값의 위치에 점을 찍고 이 점을 상자의 양끝과 선분으로 연결 Results for: Scores.TXT Letter Value Display: score 분위수 범위 Depth Lower Upper Mid N= 65 M H E D C B Spread
16
<대표적인 상자 그림 작성방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다.
통계자료의 탐색적 분석(EDA) 42 <대표적인 상자 그림 작성방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다. 3) 다음과 같이 양쪽 안울타리(inner fence)값 IF를 계산한다. 그리고, 양쪽 바깥울타리(outer fence)값 OF를 계산한다. 4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다. 이 자료점을 인접값(adjacent value) AV라고 한다. 인접값과 상자의 양끝과 연결 AVL HL M HU AVU 5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점(outlier)으로 간주하고 그 위치에 ‘*’ 표시. 바깥울타리의 바깥에 있는 자료점은 특별한 특이점(special outlier) 으로 간주 그 위치에 ‘o’ 표시. * * o + +
17
경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료
통계자료의 탐색적 분석(EDA) 43 1995년 인구 및 주택 센서스 보고에 따른 경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료 1) <줄기와 잎그림> <다섯 수치요약> 경기도 수원 성남 의정부 안양 부천 광명 평택 313 동두천 72 안산 510 고양 518 과천 68 구리 남양주 오산 70 시흥 133 군포 의왕 하남 양주 95 여주 92 화성 파주 163 광주 86 연천 52 포천 가평 50 양평 71 이천 용인 243 안성 김포 108 경상남도 창원 울산 마산 진주 진해 통영 사천 김해 밀양 122 거제 의령 38 함안 60 창녕 71 양산 163 고성 60 남해 60 하동 55 산청 43 함양 45 거창 70 합천 62 서울시 종로 중구 용산 성동 광진 동대문 중랑 성북 490 강북 390 동봉 노원 은평 서대문 마포 양천 강서 구로 금천 285 영등포 동작 관악 서초 강남 송파 강동 487 부산시 중구 64 서구 동구 영도 부산진 동래 남구 북구 해운대 302 사하 금정 강서 67 연제 수영 사상 296 기장 69 단위 10(x첨영) 31V M H spr(H) = 201
18
2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시 I + I
통계자료의 탐색적 분석(EDA) 44 2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시 I I 3) 안울타리(inner fence)값 IF를 계산 IFL = HL spr(H) = 201 = -208, IFU = HU spr(H) = 201 = 596. 바깥울타리(outer fence)값 OF를 계산 OFL = HL – 3.0 spr(H) = 201 = , OFU – HU spr(H) = 201 = 4) 아래 인접값 AVL은 최소값과 같은 50, 위 인접값 AVU는 591. I I 5) 위 안울타리 IFU와 바깥 울타리 OFU의 사이에 있는 자료점을 찾아‘*’표시 ‘o’자료는 없음. I I * * *
19
안울타리(inner fence)값 IF IF = 정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다
통계자료의 탐색적 분석(EDA) 45 7. 특이점 정규분포 평균이 이고 분산이 인 정규분포의 경우 사분위수 H H = 이므로 spr(H) = 1.35 안울타리(inner fence)값 IF IF = 정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다 (즉, N=100인 경우 특이값으로 판정될 자료점의 수는 평균 1개 미만) 균일분포 균일분포 에서 동일한 확률밀도 사분위수 H H = 이므로 spr(H) = 안울타리(inner fence)값 IF IF = 이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로, 균일분포에서는 특이점이 검출 되지 않는다.
20
즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다.
통계자료의 탐색적 분석(EDA) 46 이중 지수분포 중심 이고 감소율 의 이중 지수분포 고려 사분위수 H H = 이므로 spr(H) = 안울타리(inner fence) 값 IF IF = 이중 지수분포에서는 즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다. 종합(결론) 균일분포에서는 특이값이 절대로 검출될 수 없으며, 정규분포에서는 간혹 검출될 수 있으나, 이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다.
21
47 8. 여러 묶음 수치자료의 비교 경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시
통계자료의 탐색적 분석(EDA) 47 8. 여러 묶음 수치자료의 비교 경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시 (1) 경기도 시군 인구 Depth Lower Upper Mid Spread N= 31 M H E D C (2) 경상남도의 시군 인구 N= 21 M H E D (3) 서울•부산의 구 인구 N= 41 M H E D C
22
48 2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구 수부 성 --------------- 원천 남
통계자료의 탐색적 분석(EDA) 48 2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구 수부 성 원천 남 ---I I * * * k-k (2) 경상남도의 시군 인구 진 마창 울 주 산원 산 -I + I * * O O ------ k-n (3) 서울 • 부산의 구 인구 I I s-p
23
Graph > Character Graph > Boxplot…. @ 미니탭의 stack(쌓기)
통계자료의 탐색적 분석(EDA) 49 3) 세 그룹의 상자 그림(2) 경기도 I I ** * ------ 경상남도 -I + I * * O O 서울•부산 I I C5 [미니탭의 활용] @ BOX-PLOT Graph > Character Graph > Boxplot…. @ 미니탭의 stack(쌓기) Manip > Stack/Unstack > Stack Columns….
24
1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값
50 9. 요약 1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 2. 문자값 중위수 M, 사분위수 H, 8분위수 E, 16분위수 D, 32분위수 C 등등 3. 문자값에서의 mid(=두 분위수의 중앙값) - 왜도(skewness) 증가하는지, 감소하는지에 따라 분포의 기울기 정도, 방향을 알 수 있음 4. 문자값에서 spr(두 분위수의 차이) - 첨도(kurtosis) 증가하는 속도에 따라 꼬리가 얇은 분포인지, 두터운 분포인지 알 수 있음 5. 미니탭에서의 문자 값 전시를 위한 메뉴 명령 Stat > EDA > Letter Values …. 6. 상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것 7. 상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H) 특이한 특이점을 판정하는 경계선은 HL-3.0Ⅹspr(H), HU+3.0Ⅹspr(H) 8. 자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7%에 불과 9. 상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단 동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직
Similar presentations