제 3 장 수치요약 ∙ 상자그림 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

CS( 출동 ) 직 신입사원 채용 “ 『 KT 텔레캅』에서는 Total Security 사업을 함께 할 역량있는 참신한 인재를 모집합니다. ” ▣ 모집부문 구분모집인원모집분야담당업무근무지역 신입 00 명 CS ( 출동 ) 고객서비스, 사고예방 및 긴급대처 시스템 점검 등.
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.
SCU 멘토링 멘토 / 멘티 신청방법 ◎ [ 포털로그인 ]-[ 대학생활 ]-[ 멘토링활동 ]-[ 참가신청 ]-[ 멘토 / 멘티 클릭 ]
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
재료수치해석 HW # 박재혁.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
수치해석 6장 예제문제 환경공학과 천대길.
통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
제 3장. 수치를 통한 연속형 자료의 요약.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
Heesang kim PL/SQL 3 Heesang kim.
제 3 장 수치요약 ∙ 상자그림 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면
제2장 기초통계 양윤권 교수.
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
6장. printf와 scanf 함수에 대한 고찰
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
11장. 1차원 배열.
제4장 제어 시스템의 성능.
제 1 장 서 론 1. 탐색적 자료분석 - EDA- 1 ◈ EDA(Exploratory Data Analysis) 란?
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
군집 분석.
년도별 거래량 추이 50 만 35 만 25 만 (상) 년도별 가격 추이 매매가 대비 전세가 비율
SAS Statistical Analysis System 통계패키지 실습 (2011년 1학기)
(independent variable)
자료의 표현.
daum. net/society/others/newsview
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
균형이진탐색트리 이진 탐색(binary search)과 이진 탐색 트리(binary search tree)와의 차이점
수학10-나 1학년 2학기 Ⅳ.삼각함수 3. 삼각함수의 그래프(7/12) 삼각함수 수업계획 수업활동.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
이차방정식과 이차함수의 관계 이차함수의 그래프와 축의 위치 관계 이차방정식 의 그래프와 축이 만나는 점의 좌표는 이차방정식
감마분포 gamma distribution
Sampling Distributions
Excel 일차 강사 : 박영민.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter2. 기술통계(Descriptive Statistics)
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
5장. 선택 알고리즘.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
영역 기반 처리.
제 4 장 재 표 현 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

제 3 장 수치요약 ∙ 상자그림 27 1. 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면 통계자료의 탐색적 분석(EDA) 27 제 3 장 수치요약 ∙ 상자그림 1. 다섯 수치 요약 평균(Mean) – 어떤 경우에는 상당히 불확실 하다. 예를 들면 점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우 분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다. 큰 값에 편중, 작은 값 쪽으로 꼬리가 긴 모형 작은 값에 편중, 큰 값 쪽으로 꼬리가 긴 모형

(1) N이 홀수 중위수 = (N+1)/2 번째 자료점 통계자료의 탐색적 분석(EDA) 28 중위수(Median) 자료의 크기를(자료의 수) N이라고 할 때 (1) N이 홀수 중위수 = (N+1)/2 번째 자료점 (2) N이 짝수 중위수 = N/2번째와 (N+1)/2번째 자료 값의 평균 중위수의 깊이(depth) d(M) = (N+1)/2 짝수, 홀수에 관계없음 산포의 측도 표준편차 전통적인 통계방법론 두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성) 두 사분위수(H)의 깊이 정의 d(H) = ([d(M)]+1)/2 , [x]는 가우스 수

왜도(Skewness) – 분포의 기울어진 정도 통계자료의 탐색적 분석(EDA) 29 사분위수 Q1(제 1사분위수) HL Q2(중위수) M Q3(제 3사분위수) HU 왜도(Skewness) – 분포의 기울어진 정도 -1< SKEW <1 +1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형 EDA에서의 다섯 수치 요약 (최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =

SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] 통계자료의 탐색적 분석(EDA) 30 2 2 0 00 N=65 5 3 1 058 15 10 2 1333458889 d(M)=(65+1)/2=33 22 7 3 0355789 (11) 11 4 11133456678 d(H)=(33+1)/2=17 32 17 5 11122233344456688 15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478 4 2 8 29 min=0, max=99 2 2 9 09 65∨ (0, 33, 48, 58, 99) SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] = (10-15)/(10+15)=-5/25=-0.2 부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포

중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C, 통계자료의 탐색적 분석(EDA) 31 2. 문자 값 중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C, 64분위수 – B, 128분위수 - A 자료의 크기가 400-500이상이 아닌경우 무의미 예 : N=65인 경우 중위수의 깊이 : d(M)=(N+1)/2 d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/2 d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/2 d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/2 d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/2 * 64분위수의 깊이 : d(B)=([d(C)]+1)/2 * 128분위수의 깊이 : d(A)=([d(B)]+1)/2 * <수리통계학 시험점수 자료의 문자 값 전시> 깊이 문자값 중앙 mid 산포 spr 중위수 M 33 48 48 * 4분위수 H 17 33 58 45.5 25 8분위수 E 9 23 73 48 50 16분위수 D 5 18 78 48 60 끝 값 1 1 0 99 49.5 99

문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우 통계자료의 탐색적 분석(EDA) 32 3. mid와 spr의 추이 문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우 M = mid H = mid E = mid D = mid C = mid B = mid A D E H M H E D

M > mid H > mid E > mid D > mid C > mid B > mid A 통계자료의 탐색적 분석(EDA) 33 (2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우 M > mid H > mid E > mid D > mid C > mid B > mid A D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우 M < mid H <mid E < mid D < mid C < mid B <mid A D E H M H E D

분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다. 분포가 정규분포인 경우 ∼ 문자값 mid spr M * H E D 통계자료의 탐색적 분석(EDA) 34 Spr값의 추이 분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다. 분포가 정규분포인 경우 ∼ 문자값 mid spr M * H E D 모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로 = spr(H)/1.35 pseudo-sigma pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용 EDA의 첨도의 정의 KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(D)/spr(H)-2.274 (정규분포의 KURTO는 0이다)

## 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H E D 통계자료의 탐색적 분석(EDA) 35 ## 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H E D KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524 KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이 집중되고 꼬리 부분에서는 상대적으로 자료점이 희박 KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박 꼬리부분에서는 상대적으로 자료가 많음

## 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려 통계자료의 탐색적 분석(EDA) 36 ## 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려 문자값을 구해보자.(위 꼬리 확률) 이므로 중위수 M은 이고 위 사분위 HU는 HU = 문자값 mid spr M * H E D KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726 KURTO의 값이 양수는 정규분포에 비하여 꼬리가 두껍다

2) 중위수(M)의 특성 – 편차 절대값을 최소화 자료값이 으로 표현하면 이 홀수 이 짝수 통계자료의 탐색적 분석(EDA) 37 4. 전통적인 수치요약과의 비교 1) 평균의 특성 - 편차 제곱합을 최소화( ) 증명) 2) 중위수(M)의 특성 – 편차 절대값을 최소화 자료값이 으로 표현하면 이 홀수 이 짝수 증명) 교재 참고 증가함수와 감소함수를 구분 짖는 위치를 선택

전통적인 왜도(skewness)와 첨도(kurtosis)의 정의 왜도 = 첨도 = 통계자료의 탐색적 분석(EDA) 38 전통적인 왜도(skewness)와 첨도(kurtosis)의 정의 왜도 = 첨도 = 평균이 인 확률변수 의 중심 차 적률 의 정의는 중심 차 적률 왜도 첨도 정규분포 , 가 짝수 0 0 0, 가 홀수 균일분포 , 가 짝수 0 -1.2 0, 가 홀수 이중지수분포 , 가 짝수 0 3

데이터 불러오기 File > Open Worksheet… 통계자료의 탐색적 분석(EDA) 39 5. 미니탭을 이용한 수치요약의 계산 데이터 불러오기 File > Open Worksheet… 데이터

문자값 작성 Stat > EDA > Letter Values … 40 문자값 작성 Stat > EDA > Letter Values …

다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림) <단순한 상자 그림의 작성 방법> 통계자료의 탐색적 분석(EDA) 41 <OUTPUT> 6. 상자 그림(BOX PLOT) 다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림) <단순한 상자 그림의 작성 방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다. 3) 최소값과 최대값의 위치에 점을 찍고 이 점을 상자의 양끝과 선분으로 연결 Results for: Scores.TXT Letter Value Display: score 분위수 범위 Depth Lower Upper Mid N= 65 M 33.0 48.000 48.000 H 17.0 33.000 58.000 45.500 25.000 E 9.0 23.000 73.000 48.000 50.000 D 5.0 18.000 78.000 48.000 60.000 C 3.0 10.000 89.000 49.500 79.000 B 2.0 0.000 90.000 45.000 90.000 1 0.000 99.000 49.500 99.000 Spread

<대표적인 상자 그림 작성방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 통계자료의 탐색적 분석(EDA) 42 <대표적인 상자 그림 작성방법> 1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다. 2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다. 3) 다음과 같이 양쪽 안울타리(inner fence)값 IF를 계산한다. 그리고, 양쪽 바깥울타리(outer fence)값 OF를 계산한다. 4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다. 이 자료점을 인접값(adjacent value) AV라고 한다. 인접값과 상자의 양끝과 연결 AVL HL M HU AVU 5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점(outlier)으로 간주하고 그 위치에 ‘*’ 표시. 바깥울타리의 바깥에 있는 자료점은 특별한 특이점(special outlier) 으로 간주 그 위치에 ‘o’ 표시. * * o + +

경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료 통계자료의 탐색적 분석(EDA) 43 1995년 인구 및 주택 센서스 보고에 따른 경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료 1) <줄기와 잎그림> <다섯 수치요약> 경기도 수원 756 성남 869 의정부 276 안양 591 부천 779 광명 351 평택 313 동두천 72 안산 510 고양 518 과천 68 구리 142 남양주 229 오산 70 시흥 133 군포 235 의왕 109 하남 116 양주 95 여주 92 화성 159 파주 163 광주 86 연천 52 포천 119 가평 50 양평 71 이천 155 용인 243 안성 120 김포 108 경상남도 창원 482 울산 967 마산 441 진주 330 진해 126 통영 132 사천 113 김해 256 밀양 122 거제 148 의령 38 함안 60 창녕 71 양산 163 고성 60 남해 60 하동 55 산청 43 함양 45 거창 70 합천 62 서울시 종로 190 중구 136 용산 254 성동 334 광진 382 동대문 416 중랑 440 성북 490 강북 390 동봉 356 노원 569 은평 485 서대문 360 마포 386 양천 461 강서 503 구로 365 금천 285 영등포 414 동작 422 관악 548 서초 385 강남 535 송파 637 강동 487 부산시 중구 64 서구 175 동구 152 영도 506 부산진 453 동래 312 남구 312 북구 278 해운대 302 사하 381 금정 308 강서 67 연제 246 수영 196 사상 296 기장 69 9 0 767998557 단위 10(x첨영) 10 1 4301561520 4 2 7234 2 3 51 0 4 3 5 911 0 6 2 7 57 1 8 6 31V M 142 H 93.5 294.5 spr(H) = 201 1 70.5 554.5

2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시 I + I 통계자료의 탐색적 분석(EDA) 44 2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시 I + I 150 300 450 3) 안울타리(inner fence)값 IF를 계산 IFL = HL - 1.5 spr(H) = 93.5 - 1.5  201 = -208, IFU = HU + 1.5 spr(H) = 294.5 + 1.5  201 = 596. 바깥울타리(outer fence)값 OF를 계산 OFL = HL – 3.0 spr(H) = 93.5 - 3.0  201 = -509.5, OFU – HU + 3.0 spr(H) = 294.5 + 3.0  201 = 897.5. 4) 아래 인접값 AVL은 최소값과 같은 50, 위 인접값 AVU는 591. I + I 150 300 450 600 5) 위 안울타리 IFU와 바깥 울타리 OFU의 사이에 있는 자료점을 찾아‘*’표시 ‘o’자료는 없음. I + I * * * 150 300 450 600 750

안울타리(inner fence)값 IF IF = 정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다 통계자료의 탐색적 분석(EDA) 45 7. 특이점 정규분포 평균이 이고 분산이 인 정규분포의 경우 사분위수 H H = 0.675 이므로 spr(H) = 1.35 안울타리(inner fence)값 IF IF = 정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다 (즉, N=100인 경우 특이값으로 판정될 자료점의 수는 평균 1개 미만) 균일분포 균일분포 에서 동일한 확률밀도 사분위수 H H = 이므로 spr(H) = 안울타리(inner fence)값 IF IF = 이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로, 균일분포에서는 특이점이 검출 되지 않는다.

즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다. 통계자료의 탐색적 분석(EDA) 46 이중 지수분포 중심 이고 감소율 의 이중 지수분포 고려 사분위수 H H = 이므로 spr(H) = 안울타리(inner fence) 값 IF IF = 이중 지수분포에서는 즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다. 종합(결론) 균일분포에서는 특이값이 절대로 검출될 수 없으며, 정규분포에서는 간혹 검출될 수 있으나, 이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다.

47 8. 여러 묶음 수치자료의 비교 경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시 통계자료의 탐색적 분석(EDA) 47 8. 여러 묶음 수치자료의 비교 경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시 (1) 경기도 시군 인구 Depth Lower Upper Mid Spread N= 31 M 16.0 142.000 142.000 H 8.5 93.500 294.500 194.000 201.000 E 4.5 70.500 554.500 312.500 484.000 D 2.5 60.000 767.500 413.750 707.500 C 1.5 51.000 824.000 437.500 773.000 1 50.000 869.000 459.500 819.000 (2) 경상남도의 시군 인구 N= 21 M 11.0 113.000 113.000 H 6.0 60.000 163.000 111.500 103.000 E 3.5 50.000 385.500 217.750 335.500 D 2.0 43.000 482.000 262.500 439.000 1 38.000 967.000 502.500 929.000 (3) 서울•부산의 구 인구 N= 41 M 21.0 365.000 365.000 H 11.0 278.000 453.000 365.500 175.000 E 6.0 175.000 503.000 339.000 328.000 D 3.5 102.500 541.500 322.000 439.000 C 2.0 67.000 569.000 318.000 502.000 1 64.000 637.000 350.500 573.000

48 2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구 수부 성 --------------- 원천 남 통계자료의 탐색적 분석(EDA) 48 2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구 수부 성 --------------- 원천 남 ---I + I------------------- * * * --------------- --------+---------+---------+---------+---------+--------k-k 150 300 450 600 750 (2) 경상남도의 시군 인구 진 마창 울 ------ 주 산원 산 -I + I----- * * O O ------ +---------+---------+---------+---------+---------+------k-n 0 200 400 600 800 1000 (3) 서울 • 부산의 구 인구 ---------------- ------------------I + I--------------- +---------+---------+---------+---------+---------+------s-p 0 120 240 360 480 600

Graph > Character Graph > Boxplot…. @ 미니탭의 stack(쌓기) 통계자료의 탐색적 분석(EDA) 49 3) 세 그룹의 상자 그림(2) ----------- 경기도 --I + I--------------- ** * ------ 경상남도 -I + I----- * * O O ---------- 서울•부산 -----------I + I--------- +---------+---------+---------+---------+---------+------C5 0 200 400 600 800 1000 [미니탭의 활용] @ BOX-PLOT Graph > Character Graph > Boxplot…. @ 미니탭의 stack(쌓기) Manip > Stack/Unstack > Stack Columns….

1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 50 9. 요약 1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 2. 문자값 중위수 M, 사분위수 H, 8분위수 E, 16분위수 D, 32분위수 C 등등 3. 문자값에서의 mid(=두 분위수의 중앙값) - 왜도(skewness) 증가하는지, 감소하는지에 따라 분포의 기울기 정도, 방향을 알 수 있음 4. 문자값에서 spr(두 분위수의 차이) - 첨도(kurtosis) 증가하는 속도에 따라 꼬리가 얇은 분포인지, 두터운 분포인지 알 수 있음 5. 미니탭에서의 문자 값 전시를 위한 메뉴 명령 Stat > EDA > Letter Values …. 6. 상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것 7. 상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H) 특이한 특이점을 판정하는 경계선은 HL-3.0Ⅹspr(H), HU+3.0Ⅹspr(H) 8. 자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7%에 불과 9. 상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단 동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직