제 4 장 재 표 현 51 1. 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다 통계자료의 탐색적 분석(EDA) 51 제 4 장 재 표 현 1. 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다 어떤 값을 대표값으로 쓸 것인가? < 서울지역 I의 월 소득 자료> 줄기 그림 단위 = 10(만원) 6 0 566888 20 1 00111222333444 (9) 1 556788999 21 2 013344 15 2 5589 11 3 001114 5 3 57 3 4 3 4 568 문자값 전시 Depth Lower Upper Mid Spread N= 50 M 25.5 18.000 18.000 H 13.0 12.000 28.000 20.000 16.000 E 7.0 10.000 31.000 20.500 21.000 D 4.0 8.000 37.000 22.500 29.000 C 2.5 6.000 45.500 25.750 39.500 B 1.5 5.500 47.000 26.250 41.500 1 5.000 48.000 26.500 43.000 중위수 182만원, 아래 사분위수 123.7만원, 위 사분위수 283.8만원 비대칭
# 자료의 변환(transform) 즉, 재표현(re-expression) (1) 제곱근 변환 통계자료의 탐색적 분석(EDA) 52 # 자료의 변환(transform) 즉, 재표현(re-expression) (1) 제곱근 변환 비 대칭인 분포 줄기 그림 단위 = 0.1 3 2 244 6 2 888 14 3 11333444 22 3 66677788 (8) 4 01223334 20 4 57788 15 5 002344 9 5 55589 4 6 0 3 6 779 문자값 전시 Depth Lower Upper Mid Spread N= 50 M 25.5 4.243 4.243 H 13.0 3.464 5.292 4.378 1.827 E 7.0 3.162 5.568 4.365 2.405 D 4.0 2.828 6.083 4.456 3.254 C 2.5 2.449 6.745 4.597 4.296 B 1.5 2.343 6.855 4.599 4.512 1 2.236 6.928 4.582 4.692
(1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적 줄기 그림 1 6 9 통계자료의 탐색적 분석(EDA) 53 (2) 로그 변환 자료의 재표현(로그 변환후 대칭적인 모형) @ 자료의 재표현의 목적 (1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적 줄기 그림 단위 = 0.01 1 6 9 3 7 77 3 8 6 9 000 14 10 00444777 22 11 11144477 (7) 12 0355777 21 13 02668899 13 14 4677999 6 15 346 3 16 568 문자값 전시 Depth Lower Upper Mid Spread N= 50 M 25.5 1.255 1.255 H 13.0 1.079 1.447 1.263 0.368 E 7.0 1.000 1.491 1.246 0.491 D 4.0 0.903 1.568 1.236 0.665 C 2.5 0.778 1.658 1.218 0.880 B 1.5 0.739 1.672 1.205 0.933 1 0.699 1.681 1.190 0.982
## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료 통계자료의 탐색적 분석(EDA) 54 ## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료 --------------------- ---------I + I------------------------- ------+---------+---------+---------+---------+---------+C1 8.0 16.0 24.0 32.0 40.0 48.0 (2) 제곱변환 후 자료 ------------------- -------------I + I---------------- --+---------+---------+---------+---------+---------+----C2 2.0 3.0 4.0 5.0 6.0 7.0 (3) 로그변환 후 자료 -------------------I + I------------ +---------+---------+---------+---------+---------+------C3 0.60 0.80 1.00 1.20 1.40 1.60
박스-칵스 변환(Box-Cox transform) 통계자료의 탐색적 분석(EDA) 55 2. 재표현의 사다리 자료분석에서 가장 많이 사용되는 변환 방법 박스-칵스 변환(Box-Cox transform) 이면 무변환(no transform) 이면 제곱근 변환 이면 로그변환 이면 변환 단조함수(monoton function)이어야 함
<p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계> p=3 볼록 재 p=2 표 p=1 무변환 통계자료의 탐색적 분석(EDA) 56 <p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계> p=3 볼록 재 p=2 표 p=1 무변환 현 p=1/2 의 p=1/3 p=0 사 p=-1/3 오목 다 p=-1/2 리 p=-1 p=-2 p=-3 (1) 오른쪽으로 꼬리가 긴 모형 (p<1) 경향이 누그러진다 (2) 왼쪽으로 꼬리가 긴 모형 (p>1) 경향이 누그러진다 (3) 오른쪽으로 꼬리가 긴 모형 (p=1에서 p=0까지 변환) 계속 오른쪽으로 꼬리가 긴 모형 음의 역변환(p=-1) (4) 로그변환 후 오른쪽으로 꼬리가 긴 모형이 왼쪽으로 꼬리가 긴 모형으로 된다면 재표현의 사다리를 거슬러 올라가 제곱변환(p=1/2)
<표본으로 채취된 세 종류의 플랑크톤 수의 자료> (1) 자료 통계자료의 탐색적 분석(EDA) 57 3. 또 다른 사례 <표본으로 채취된 세 종류의 플랑크톤 수의 자료> (1) 자료 (2) 문자값 전시 Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 580.000 580.000 H 3.5 483.500 870.000 676.750 386.500 E 2.0 428.000 1020.000 724.000 592.000 1 387.000 1050.000 718.500 663.000 플랑크톤 IV N= 12 M 6.5 9075.000 9075.000 H 3.5 8080.000 10015.000 9047.500 1935.000 E 2.0 7600.000 11000.000 9300.000 3400.000 1 6060.000 15500.000 10780.000 9440.000 플랑크톤 III N= 12 M 6.5 30200.000 30200.000 H 3.5 27950.000 33700.000 30825.000 5750.000 E 2.0 22300.000 39500.000 30900.000 17200.000 1 18900.000 43300.000 31100.000 24400.000
<플랑크톤 자료의 제곱근 변환 결과> 통계자료의 탐색적 분석(EDA) 58 <플랑크톤 자료의 제곱근 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 24.069 24.069 H 3.5 21.986 29.493 25.740 7.506 E 2.0 20.688 31.937 26.313 11.249 1 19.672 32.404 26.038 12.731 플랑크톤 IV N= 12 M 6.5 95.258 95.258 H 3.5 89.883 100.071 94.977 10.187 E 2.0 87.178 104.881 96.029 17.703 1 77.846 124.499 101.172 46.653 플랑크톤 III N= 12 M 6.5 173.747 173.747 H 3.5 167.182 183.559 175.371 16.377 E 2.0 149.332 198.746 174.039 49.414 1 137.477 208.087 172.782 70.609 --- I I+I- ---- IV ----I+ I- * ----- III * -----I + I------- ------+---------+---------+---------+---------+---------+ 35 70 105 140 175 210
<플랑크톤 자료의 (상용)로그 변환 결과> 통계자료의 탐색적 분석(EDA) 59 <플랑크톤 자료의 (상용)로그 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 2.762 2.762 H 3.5 2.684 2.939 2.812 0.255 E 2.0 2.631 3.009 2.820 0.377 1 2.588 3.021 2.804 0.433 플랑크톤 IV N= 12 M 6.5 3.958 3.958 H 3.5 3.907 4.001 3.954 0.093 E 2.0 3.881 4.041 3.961 0.161 1 3.782 4.190 3.986 0.408 플랑크톤 III N= 12 M 6.5 4.480 4.480 H 3.5 4.446 4.527 4.487 0.081 E 2.0 4.348 4.597 4.472 0.248 1 4.276 4.636 4.456 0.360 ------- 플랑크톤 I --I + I--- --- 플랑크톤 IV ---I+I- * 플랑크톤 III * --I+I--- --------+---------+---------+---------+---------+--------C12 2.80 3.20 3.60 4.00 4.40
<플랑크톤 자료의 세제곱근 변환 결과> 통계자료의 탐색적 분석(EDA) 60 <플랑크톤 자료의 세제곱근 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 8.335 8.335 H 3.5 7.848 9.546 8.697 1.697 E 2.0 7.536 10.066 8.801 2.530 1 7.287 10.164 8.726 2.877 플랑크톤 IV N= 12 M 6.5 20.858 20.858 H 3.5 20.065 21.554 20.810 1.489 E 2.0 19.661 22.240 20.950 2.579 1 18.232 24.933 21.582 6.702 플랑크톤 III N= 12 M 6.5 31.136 31.136 H 3.5 30.348 32.298 31.323 1.950 E 2.0 28.147 34.056 31.102 5.909 1 26.637 35.115 30.876 8.478 ---- 플랑크톤 I -I+ I- 플랑크톤 IV ---I +I- * 플랑크톤 III * ----I+ I----- --+---------+---------+---------+---------+---------+---- 6.0 12.0 18.0 24.0 30.0 36.0
자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현 통계자료의 탐색적 분석(EDA) 61 4. 자료의 재표현과 문자값의 재표현 자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현 원 자료의 문자 값들만 변환하여 재표현 자료의 문자 값을 얻을 수 있다(수작업 가능) [미니탭의 활용] File > Open Worksheet….
Stat > EDA > Letter Values… 원자료의 문자 값 √ 변환한 문자값 62 자료의 변환 Calc > Calulator… Stat > EDA > Letter Values… 원자료의 문자 값 √ 변환한 문자값
이용하여 (중위수)을 중심으로 2차 항까지 전개 통계자료의 탐색적 분석(EDA) 63 5. 분포의 대칭화에 관한 수리적 이론 분포의 대칭화 대칭화 변환을 수리적으로 규명 함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 2차 항까지 전개 에 의하여 변환된 자료의 위,아래 사분위수 과 은 변환에 의하여 대칭분포를 만족하려면 이어야 하므로 근사적으로 가 성립하여야 한다.
예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로 통계자료의 탐색적 분석(EDA) 64 즉, 가 유도된다. 즉, 변환의 차수 는 근사적으로 으로 주어진다. 예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로 이다. 0에 가까우므로 최종적으로 시도한 로그변환이 거의 근사적으로 최적값에 근접
산포를 균일하게 해주는 변환 수리적인 이론을 설명 함수 ( 일 때는 로 해석)을 테일러 정리를 통계자료의 탐색적 분석(EDA) 65 6. 산포의 균일화에 관한 수리적 이론 산포를 균일하게 해주는 변환 수리적인 이론을 설명 함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 1차 항까지 전개 에 의하여 변환된 자료의 위,아래 사분위수 과 은 으로 근사되므로 가 성립한다. 따라서 위 식의 양변에 로그를 취하면 이 되는데, 변환에 의하여 산포가 균일해 진다면 좌변은 상수이므로 가 유도된다.
위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때 기울기가 대략 인 직선 형태 통계자료의 탐색적 분석(EDA) 66 위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때 기울기가 대략 인 직선 형태 를 구하여 2차원 그래프(산점도)로 출력시켰을 때 기울기가 인 직선 형태의 그래프가 도출 된다. 변환이 대략적으로 자료간의 산포를 균일하게 하는 변환 예를들면 세 종류의 플랑크톤 자료에 의한 문자값 전시로 부터 문자 값 M과 4분위수 산포 spr(H) 를 찾아 (상용)로그 변환을 실시 M spr(H) log(M) log{spr(H)} 플랑크톤 I 580 386.5 2.76 2.59 플랑크톤 IV 9075 1935 3.96 3.29 플랑크톤 III 30200 5750 4.48 3.76 세 점 중에서 양끝에 있는 자료 I과 III의 점 (logM,log{spr(H)}을 연결하는 직선의 기울기
(1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 통계자료의 탐색적 분석(EDA) 67 8. 통계분석에서 자주 쓰이는 그 밖의 변환 통계분석에 자주 사용되는 변환 (1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 포아송(Poisson distribution)로 모형화, 평균 , 분산 이 같은 경우 분산 안정화 변환(Variance stabilizing transform)은 제곱근 변환 (2) 자료가 비율인 경우 : 통계분석에 자주 사용되는 비율 의 변환 ① 로짓(logit) 변환 : ② 프로빗(probit) 변환 : 여기서, 는 N(0,1) ③ 각 변환(arcsin 변환) : (3) 상관계수 : 모 상관계수 인 경우 표본상관계수 의 표본분포는 복잡 Fisher의 변환 을 통하여 근사적인 정규분포
(4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환 통계자료의 탐색적 분석(EDA) 68 (4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환 EDA에서의 표준점수 (5) 로그변환 : 분포의 대칭화 또는 산포의 균일화를 위한 재표현 방법 승법모형의 가법모형화가 가능 예를들면, 경제•경영 시계열 는 승법 모형 : 로 표현되는 경우 로그변환 : 추세, : 순환, : 계절성, : 불규칙변동
자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출 통계자료의 탐색적 분석(EDA) 69 9. 요약 자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출 박스-칵스 변환 : 재표현 사다리는 p=1(무변환)을 기점으로 하여 p>1이면 올라가는 방향, p<1이면 내려가는 방향 분포가 오른쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 내려감 분포가 왼쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 올라감 중위수가 커짐에 따라 산포가 늘어나는 자료의 경우 : 산포의 균일화를 위하여 재표현 사다리를 내려야 함 원 자료의 수치 요약은 동일한 변환으로 재 표현 분포의 대칭화를 위한 변환의 차수 는 다음과 같다
여러 묶음의 자료간 산포를 균일하게 하기 위한 방법 : 기울기 통계자료의 탐색적 분석(EDA) 70 여러 묶음의 자료간 산포를 균일하게 하기 위한 방법 : 기울기 통계분석에서는 다음의 여러 변환들이 자주 쓰인다 ① 자료가 돗수인 경우 : 제곱근 변환 자료가 비율인 경우 : 로짓 변환, 프로빗 변환, arsin변환 ② 상관계수에 관한 변환 : 피셔(Fisher)의 z 변환이 대표적 ③ 표준화 점수로써 난이도가 다르게 출제된 시험에서 취득한 점수를 비교 ④ 로그 변환 : 승법모형 가법모형