통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료 그룹 데이터나 계수형 데이터와 같이 빈도로 이루어진 데이터의 경우 어느 특정분포 (예를 들면, 정규분포 또는 포아송분포)와 비교되는지를 살펴보고, 특히 이 때 적합도에 관한 잔차(residual)의 활용에 대하여 논의 2. 도수 자료와 포아송 분포와의 비교 계수형 분포(예 : 포아송 분포) X : 어떤 특정한 사건의 도수를 나타내는 확률변수 분포 함수 : 특징 : 평균과 분산이 다 같은 모수 인 확률분포 단위시간당 발생하는 총 도수를 나타내는 분포
## 아래의 자료가 포아송 분포를 따르는지 검토 통계자료의 탐색적 분석(EDA) 85 ## 아래의 자료가 포아송 분포를 따르는지 검토 < 프러시아 200개 기병군단에서 각 군단별 말에 치여 사망한 병사의 수> 사망자수 관측빈도 기대빈도 2배 제곱근 잔차 0 109 10.4 108.6 0.062 1 65 8.1 66.2 -0.117 2 22 4.7 20.2 0.442 3 3 1.7 4.2 -0.477 4+ 1 1.0 0.8 0.400 합 계 200 200.0 X의 평균 = (0•109+1•65+2•22+3•3+4•1)/200 = 0.61 = 기대빈도 = 200 • 예) DRSS = 일 때, = 일 때 Histogram of C1 N = 200 Each * represents 5 observation(s) Midpoint Count 0 109 ********************** 1 65 ************* 2 22 ***** 3 3 * 4 1 *
히스토 그램 작성 (graph > Character Graphs > Histogram…) 통계자료의 탐색적 분석(EDA) 86 [미니탭 명령] 히스토 그램 작성 (graph > Character Graphs > Histogram…) 포아송 난수 생성 (Calc > Random Data > Poisson….)
< 세 임의생성 자료에 대한 히스토그램 > 통계자료의 탐색적 분석(EDA) 87 < 세 임의생성 자료에 대한 히스토그램 > DRSS(double root residuals) = 일 때, = 일 때 Histogram of C2 N = 200 Each * represents 5 observation(s) Midpoint Count 0 101 ********************* 1 69 ************** 2 25 ***** 3 3 * 4 2 * Histogram of C3 N = 200 Each * represents 5 observation(s) Midpoint Count 0 111 *********************** 1 69 ************** 2 18 **** 3 2 * Histogram of C4 N = 200 Each * represents 5 observation(s) Midpoint Count 0 104 ********************* 1 72 *************** 2 20 **** 3 3 * 4 1 * 제곱근 변환 루토그램(rootogram) @ DRSS의 값이 (-2, +2)구간의 범위를 벗어나면 주의 @ DRSS의 값이 (-3, +3)구간의 범위를 벗어나면 고려된 확률모형과 맞지 않음
원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우 통계자료의 탐색적 분석(EDA) 88 3. 그룹 데이터와 정규분포와의 비교 원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우 정규분포(Normal distribution / Gaussian distribution) 확률변수 X가 정규분포인 경우 확률밀도 함수 사이에 68%, 사이에 95.4%, 사이에 99.7% 통계적인 방법론에서의 모수 를 표본평균으로, 는 표본 표준편차로 적합 저항성을 전혀 갖고 있지 못하다 EDA에서의 추정치 예) 중위수 M을 의 추정치로 사용 연속형 자료 이면서 그룹화 되어 있는 자료의 예 스코틀랜드 군인 5738명의 가슴둘레 데이터(도수분포표 형태의 자료)
< 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) > 가슴둘레(x) 구간 중앙값 관측빈도(O) 통계자료의 탐색적 분석(EDA) 89 < 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) > 가슴둘레(x) 구간 중앙값 관측빈도(O) -33.5 33 3 33.5-34.5 34 18 34.5-35.5 35 81 35.5-36.5 36 185 36.5-37.5 37 420 37.5-38.5 38 749 38.5-39.5 39 1073 39.5-40.5 40 1079 40.5-41.5 41 934 41.5-42.5 42 658 42.5-43.5 43 370 43.5-44.5 44 92 44.5-45.5 45 50 45.5-46.5 46 21 46.5-47.5 47 4 47.5- 48 1
<그룹화 된 자료에서의 사분위수 구하는 방법> 통계자료의 탐색적 분석(EDA) 90 <그룹화 된 자료에서의 사분위수 구하는 방법> 아래 사분위수 HL을 구하기 위하여 우선 깊이 d(H)의 자료점이 속한 구간을 구한다. 그 구간을 이라고 하고 이 구간의 빈도를 이라고 하자 이 구간을 개의 동일 길이 의 소 구간으로 나누고 그 중간점을 구해보자 중간점 = 깊이 d(H)의 자료점은 같은 방법으로 위 사분위수 HU를 구할 수 있다.
37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명 통계자료의 탐색적 분석(EDA) 91 스코틀랜드 자료를 이용하여 예를 들면) 전체자료의 크기 n=5738이므로 d(H) = (1+[(5738+1)/2])/2 = 1435 37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명 (37.5, 38.5)에 749명이 있고, 이 구간 안에 아래 사분위수 HL이 속해 있다. HL = 37.5+(1/749){1435-707-0.5} = 38.471 41.5인치 이상의 사례수가 1196명, 40.5인치 이상인 사례가 2130명 (40.5, 41.5)에 934명이 있고, 이 구간 안에 위 사분위수 HU이 속해 있다. HU = 41.5-(1/934){1435-1196-0.5} = 41.245 위•아래 사분위수로부터 평균과 표준편차를 EDA를 이용한 저항성이 있는 추정치는 = 39.858 = 2.055
Stat > EDA > Rootgram… 92 Rootogram: C2 Bin Count RawRes DRRes Suspended Rootogram 1 3.0 -2.7 -1.13 . ------ . 2 18.0 -2.6 -0.52 . --- . 3 81.0 9.7 1.13 . ++++++ . 4 185.0 -11.2 -0.79 . ---- . 5 420.0 -7.7 -0.36 . -- . 6 749.0 10.2 0.38 . ++ . 7 1073.0 61.3 1.91 . ++++++++++. 8 1079.0 -21.4 -0.64 . ---- . 9 934.0 -13.3 -0.42 . --- . 10 658.0 10.2 0.41 . +++ . 11 370.0 19.0 1.01 . ++++++ . 12 92.0 -58.7 -5.34 *--------------- . 13 50.0 -1.3 -0.15 . - . 14 21.0 7.2 1.76 . +++++++++ . 15 4.0 1.0 0.66 . ++++ . 16 1.0 0.4 0.63 . ++++ . In display, value of one character is .2 OO [미니탭 활용] Stat > EDA > Rootgram…
어느 범주(또는 구간)의 관측도수를 라고 하자. 그 범주(또는 구간)가 확률 를 차지한다고 하자. 통계자료의 탐색적 분석(EDA) 93 4. 이론적 배경 어느 범주(또는 구간)의 관측도수를 라고 하자. 그 범주(또는 구간)가 확률 를 차지한다고 하자. 그 외의 다른 범주가 얻어질 확률은 인 시행이 되고 표본 크기가 인 경우 는 이항분포 를 따르게 된다. 가 작을 경우, 는 평균이 인 포아송 분포로 근사 평균이 인 포아송 확률변수 의 분산은 역시 이다. 분산이 평균에 비례하기 때문에 분산이 비교적 일정하게 되도록 확률변수 의 변환 을 고려해 보자. 를 어떤 매끄러운 변환이라고 하면 이므로 라는 새로운 확률변수의 기대값과 분산은 대략
즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로 통계자료의 탐색적 분석(EDA) 94 따라서, 의 분산이 에 관계없이 일정하려면 여야 한다. 즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로 이 된다. 한편, 확률변수 는 이 커짐에 따라 (즉, 가 커짐에 따라) 중심극한 정리(central limit theorem)에 의하여 따라서, 근사적으로 = 2배 관측빈도 – 2배 기대빈도 = 2배 제곱근 잔차임을 유의
95 각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를 크게 하기 위하여 범주의 통합이 필요 통계자료의 탐색적 분석(EDA) 95 여러 통계학자들은 라는 표현 대신 이와 비슷한 형태인 을 제안 이것이 정규근사 면에서 보다 약간 낫다는 것을 보였다. 이 재표현 된 변수의 평균과 분산이 대략 과 1이라는 것을 보였다. 그러므로, 또는 이와 거의 비슷한 는 대략 N(0, 1)을 따른다. 모형과 자료의 총체적인 적합도(goodness of fit)는 2배 제곱근 잔차의 제곱합인 여기서 는 각 범주(구간)를 나타내는 첨자 카이제곱 통계량의 자유도가 DF = (범주의 수)-1-(추정된 모수의 수) 적합도의 측도로 쓰이는 피어슨(K. Pearson)의 카이제곱 통계량 각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를 크게 하기 위하여 범주의 통합이 필요
크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정) 통계자료의 탐색적 분석(EDA) 96 5. 정규확률 플롯의 구성 크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정) 이 자료의 경험분포(empirical distribution function) EDF를 로 정의하기로 한다. 그러면, 가 표본 분위수(quantile)가 된다. 왜냐하면, EDA를 그냥 으로 정의하지 않은 이유는 과 같은 대칭성을 통상의 경험분포함수 이 만족시키지 못하기 때문( )
예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자. 이론적으로 분위수는 가 될 것이다. 통계자료의 탐색적 분석(EDA) 97 이 표본을 어떤 특정분포와 비교하려고 한다. 예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자. 이론적으로 분위수는 가 될 것이다. 여기서 는 정규분포 의 분포함수이고, 는 분포함수의 역함수 구체적으로 의 관계가 있으므로 정규분포 의 분위수 는 가 된다. 예를 들어, 인 경우 (=4.625/20.25=0.2284) 분위수는 이고 (=15.625/20.25=0.7716) 분위수는 이다. 만약, 관측자료 가 미리 정해진 와 의 정규분포를 잘 따른다면 정규분포 에서의 분위수와 자료에서의 분위수가 비슷 즉, 의 플롯은 기울기가 1인 직선 에 가까이 있게 될 것이다.
와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면 표준정규분포의 분위수와 자료에서의 분위수인 통계자료의 탐색적 분석(EDA) 98 와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면 표준정규분포의 분위수와 자료에서의 분위수인 를 플롯해 볼 수 있을 것이다. 만약 그렇다면 관계식 가 성립하므로 위의 플롯은 (절편이 이고 기울기가 인) 직선에 가까운 형태를 취하게 된다. [미니탭의 활용] 정규 점수를 구하기 위하여 Calc > Calculator…. 정규확률 풀롯 표준정규분포의 분위수인 를 번째 자료점의 정규점수(normal score)라고 하고 자료점의 정규점수와 그 자료점의 플롯을 말한다.
<정규 점수> <정규 점수와 D변수와의 플롯> 통계자료의 탐색적 분석(EDA) 99 <정규 점수> <정규 점수와 D변수와의 플롯> Graph > Character Graphs > Scatter Plot… <Scatter plot> D - x - - x x 50+ x - x - xx - xx x - x x x 0+ -50+ x - x +---------+---------+---------+---------+Nscore -2.0 -1.0 0.0 1.0 2.0
1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯 지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 통계자료의 탐색적 분석(EDA) 100 6. 정규확률 플롯의 여러 패턴 1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯 지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 모집단에서 40명의 표본을 추출 하여 지능지수 측정 모평균이 100, 모표준편차 15인 정규 확률변량 40개 모의 생성 정규확률 플롯 작성 [미니탭의 활용] 정규분포의 난수 생성 Calc > Random Data > Normal…
정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 통계자료의 탐색적 분석(EDA) 101 정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 정규확률 플롯 Graph > Character Graphs > Scatter Plot … C1(자료) - x - - x 125+ x - x x - x x - xxx - xxx 100+ xxxx2x - xx2xxxx - x xxxxxx - x x - x 75+ x - x --------+---------+---------+---------+---------+--------C2 (정규점수) -1.60 -0.80 0.00 0.80 1.60
2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 통계자료의 탐색적 분석(EDA) 102 2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 평균이 130이고 표준편차가 15인 분포로 부터 20명 [미니탭의 활용] Calc > Random Data > Normal… (평균 70, 표준편차 15 와 평균 130, 표준편차 15) Manip > Stack/Unstack > Stack Columns… Calc > Calculator… Normal Score 작성 Graph > Character Graphs > Scatter Plot… 이 자료들을 혼합시킨 표본자료의 정규확률 플롯 작성 - C3 - x x - x xx x x - xxx 120+ 2xxxx - xxx - 2 - x 80+ xxx - xxxxx - xxxx - x x xx - x 40+ - x --------+---------+---------+---------+---------+--------C4 -1.60 -0.80 0.00 0.80 1.60
3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯 통계자료의 탐색적 분석(EDA) 103 3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯 38개의 자료점은 평균이 100이고 표준편차가 15인 정규분포에서 모의생성 2개의 자료값은 25와 175로 입력 시켜 모두 40개의 자료 Calc > Random Data > Normal…. Manip > Stack > Stack Columns… Graph > Character Graphs > Scatter Plot… C3 - x - 150+ - x x x - xx xx - xxxx2xxxxxx 100+ xxxx2xxxx - x xxxx - x x - x x 50+ - x --------+---------+---------+---------+---------+--------C4 -1.60 -0.80 0.00 0.80 1.60 x x
4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 통계자료의 탐색적 분석(EDA) 104 4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 정규확률 플롯 작성 [미니탭의 활용] - 120+ x x x - x C1 - xx - x - 2xxxxxxx 105+ x - xx - 2 - xxxx - xx 90+ xxxx - x xxx - x x x - x x 75+ --------+---------+---------+---------+---------+--------C2 -1.60 -0.80 0.00 0.80 1.60
5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯 꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 통계자료의 탐색적 분석(EDA) 105 5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯 꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 정규확률 플롯 작성 단, 인 이중지수(라플라스)분포로 부터 40개의 자료 생성 [미니탭의 활용] - - x 210+ x - x C1 - 140+ - xx xx x - x2xxxxxx - xx2xxx2xx - xxx 70+ x xxx - x x x - x x --------+---------+---------+---------+---------+--------C2 -1.60 -0.80 0.00 0.80 1.60
6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 통계자료의 탐색적 분석(EDA) 106 6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 예인 로그 정규분포에서 자료생성 [미니탭의 활용] Calc > Random Data > Lognormal… - 2100+ x C1 - 1400+ - x x 700+ x - xx - xxxxx - xxxx - xxxxxxxx2xxx2xxxx 0+ x x x x xx --------+---------+---------+---------+---------+--------C2 -1.60 -0.80 0.00 0.80 1.60
7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 통계자료의 탐색적 분석(EDA) 107 7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 작은 값 쪽으로 꼬리를 뻗은 기울어진 분포의 한 예를 만들기 위하여 로그 정규분포 로부터 임의 생성된 변량에 음수 배를 한 후 일정 수를 더하여 표본자료 생성 - xx xx x x x x - x2xxx2xxx2xxxxxx 700+ xx - x xxxxx C2 - x - x - 0+ x x -700+ - x --------+---------+---------+---------+---------+--------C3 -1.60 -0.80 0.00 0.80 1.60
공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 통계자료의 탐색적 분석(EDA) 108 7. 지수분포 및 와이블 분포에의 적합 공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 지수분포(exponential distribution)나 와이블 분포(Weibull distribution)을 고려 지수분포와 와이블 분포의 적합도 Q-Q 플롯(quantile-quantile plot) 작성 지수분포의 확률밀도 함수와 분포함수 따라서 분위수 는 로 주어진다 즉, 표본자료 가 지수분포를 따르는 경우 자료점 를 세로축에, 를 가로축에 플롯 직선의 경향선이 나타남 예를 들면, 백혈병 환자 21명의 생존시간에 관한 자료를 지수분포에 적합 1 1 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23 (단위 : 주) Q-Q플롯을 작성 미니탭을 이용
109 [미니탭의 활용] 경향선의 초기에 많은 자료점이 쏠리게 된다. Q-Q플롯의 세로축 과 가로축을 동시에 세제곱근 변환이 통계자료의 탐색적 분석(EDA) 109 [미니탭의 활용] - 24.0+ - x x C1 - - x 16.0+ - x - x x - x x 8.0+ xxx x - xxxx - x - xxxx 0.0+ +---------+---------+---------+---------+---------+------C4 0.00 0.70 1.40 2.10 2.80 3.50 경향선의 초기에 많은 자료점이 쏠리게 된다. Q-Q플롯의 세로축 과 가로축을 동시에 세제곱근 변환이 필요하다고 인식
와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려 경향선이 약간 오목한 통계자료의 탐색적 분석(EDA) 110 백혈병 자료의 세제곱근 변환 후 Q-Q플롯 와이블 분포의 분포함수 여기서 인 경우는 바로 지수분포가 된다. 와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려 - x C5 - x - - x x 2.40+ - x x x x - xx x x 1.80+ - xx - x x - x 1.20+ x x - x x --+---------+---------+---------+---------+---------+----C6 0.25 0.50 0.75 1.00 1.25 1.50 경향선이 약간 오목한 형태의 곡선성을 보이 므로 자료가 지수분포 에 적합하지 않은 것 을 알 수 있다
(2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서 통계자료의 탐색적 분석(EDA) 111 변수변환에 의하여 의 확률밀도함수는 가 되고 분포함수는 가 유도된다. 이 분포의 분위수를 라고 하면 와이블 분포의 Q-Q플롯을 그리는 순서 (1) 자료를 (자연)로그 변환 후 (2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서 경향선이 직선 형태인 경우 표본자료가 대체적으로 와이블 분포를 따르는 것으로 생각 ( 이 때 직선의 기울기는 의 추정치임)
Graph > Character Graphs > Scatter Plot… 통계자료의 탐색적 분석(EDA) 112 [미니탭의 활용] Calc > Calculator… Graph > Character Graphs > Scatter Plot… 도표의 기울기가 대략 0.8정도인 직선형태 와이블 분포에서의 모수 a에 대한 추정치 는1/0.8=1.25 (즉, a=1(지수분포) 과 약간의 차이를 두고 있다. - x 3.0+ x - xx C5 - - x xxx - 2.0+ xx xx - xx - x x 1.0+ x - x x 0.0+ x x +---------+---------+---------+---------+---------+------C4 -4.0 -3.0 -2.0 -1.0 0.0 1.0
⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 통계자료의 탐색적 분석(EDA) 113 8. 요약 ⊙ 자료와 확률모형과의 적합도 평가 ⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 절대값이 2이상인 DRSS 는 우선 주목 대상이 된다. ⊙ 미니탭에서 DRSS를 구하기 위해서는 Rootogram 명령어 사용 ⊙ Q-Q플롯은 모형의 적합도를 평가 정규확률 플롯 이용 ⊙ 혼합 정규분포로 부터의 표본자료는 정규확률 플롯에서 좌하와 우상부분의 형태가 ‘ ’ 형태를 보이며 중간 부분에서의 자료점 밀도가 양 옆에 비하여 낮다. ⊙ 특이값이 내재된 표본자료는 정규확률 플롯에서 점들이 양쪽 끝에 떨어져 나가 있다. 작은값 특이점은 주경향선 보다 아래쪽에 있고 큰 값 특이점은 주경향선 보다 위쪽
⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태 통계자료의 탐색적 분석(EDA) 114 ⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태 ⊙ 정규분포보다 긴 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 역 S자형태 ⊙ 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 J자 형태의 경향선을 갖는다. ⊙ 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 역 J자 형태의 경향선을 갖는다. ⊙ 수명자료에 대하여는 지수분포 Q-Q플롯이나 와이블 분포 Q-Q플롯을 그릴 수 있다. 직선형태의 경향선이 보이는 경우 표본 자료는 해당하는 확률모형과 적합성을 갖는 다.