Download presentation
Presentation is loading. Please wait.
Published byAldous Washington Modified 5년 전
1
제 4 장 재 표 현 51 1. 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다
통계자료의 탐색적 분석(EDA) 51 제 4 장 재 표 현 1. 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다 어떤 값을 대표값으로 쓸 것인가? < 서울지역 I의 월 소득 자료> 줄기 그림 단위 = 10(만원) (9) 3 4 문자값 전시 Depth Lower Upper Mid Spread N= 50 M H E D C B 중위수 182만원, 아래 사분위수 123.7만원, 위 사분위수 283.8만원 비대칭
2
# 자료의 변환(transform) 즉, 재표현(re-expression) (1) 제곱근 변환
통계자료의 탐색적 분석(EDA) 52 # 자료의 변환(transform) 즉, 재표현(re-expression) (1) 제곱근 변환 비 대칭인 분포 줄기 그림 단위 = 0.1 (8) 문자값 전시 Depth Lower Upper Mid Spread N= 50 M H E D C B
3
(1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적 줄기 그림 1 6 9
통계자료의 탐색적 분석(EDA) 53 (2) 로그 변환 자료의 재표현(로그 변환후 대칭적인 모형) @ 자료의 재표현의 목적 (1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적 줄기 그림 단위 = 0.01 3 8 (7) 문자값 전시 Depth Lower Upper Mid Spread N= 50 M H E D C B
4
## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료
통계자료의 탐색적 분석(EDA) 54 ## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료 I I C1 (2) 제곱변환 후 자료 I I C2 (3) 로그변환 후 자료 I I C3
5
박스-칵스 변환(Box-Cox transform)
통계자료의 탐색적 분석(EDA) 55 2. 재표현의 사다리 자료분석에서 가장 많이 사용되는 변환 방법 박스-칵스 변환(Box-Cox transform) 이면 무변환(no transform) 이면 제곱근 변환 이면 로그변환 이면 변환 단조함수(monoton function)이어야 함
6
<p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계> p=3 볼록 재 p=2 표 p=1 무변환
통계자료의 탐색적 분석(EDA) 56 <p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계> p= 볼록 재 p=2 표 p= 무변환 현 p=1/2 의 p=1/3 p=0 사 p=-1/ 오목 다 p=-1/2 리 p=-1 p=-2 p=-3 (1) 오른쪽으로 꼬리가 긴 모형 (p<1) 경향이 누그러진다 (2) 왼쪽으로 꼬리가 긴 모형 (p>1) 경향이 누그러진다 (3) 오른쪽으로 꼬리가 긴 모형 (p=1에서 p=0까지 변환) 계속 오른쪽으로 꼬리가 긴 모형 음의 역변환(p=-1) (4) 로그변환 후 오른쪽으로 꼬리가 긴 모형이 왼쪽으로 꼬리가 긴 모형으로 된다면 재표현의 사다리를 거슬러 올라가 제곱변환(p=1/2)
7
<표본으로 채취된 세 종류의 플랑크톤 수의 자료> (1) 자료
통계자료의 탐색적 분석(EDA) 57 3. 또 다른 사례 <표본으로 채취된 세 종류의 플랑크톤 수의 자료> (1) 자료 (2) 문자값 전시 Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M H E 플랑크톤 IV N= 12 M H E 플랑크톤 III N= 12 M H E
8
<플랑크톤 자료의 제곱근 변환 결과>
통계자료의 탐색적 분석(EDA) 58 <플랑크톤 자료의 제곱근 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M H E 플랑크톤 IV N= 12 M H E 플랑크톤 III N= 12 M H E --- I I+I- ---- IV I+ I- * ----- III * I + I
9
<플랑크톤 자료의 (상용)로그 변환 결과>
통계자료의 탐색적 분석(EDA) 59 <플랑크톤 자료의 (상용)로그 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M H E 플랑크톤 IV N= 12 M H E 플랑크톤 III N= 12 M H E 플랑크톤 I --I + I--- --- 플랑크톤 IV I+I- * 플랑크톤 III * --I+I--- C12
10
<플랑크톤 자료의 세제곱근 변환 결과>
통계자료의 탐색적 분석(EDA) 60 <플랑크톤 자료의 세제곱근 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M H E 플랑크톤 IV N= 12 M H E 플랑크톤 III N= 12 M H E ---- 플랑크톤 I I+ I- 플랑크톤 IV I +I- * 플랑크톤 III * ----I+ I-----
11
자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현
통계자료의 탐색적 분석(EDA) 61 4. 자료의 재표현과 문자값의 재표현 자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현 원 자료의 문자 값들만 변환하여 재표현 자료의 문자 값을 얻을 수 있다(수작업 가능) [미니탭의 활용] File > Open Worksheet….
12
Stat > EDA > Letter Values… 원자료의 문자 값 √ 변환한 문자값
62 자료의 변환 Calc > Calulator… Stat > EDA > Letter Values… 원자료의 문자 값 √ 변환한 문자값
13
이용하여 (중위수)을 중심으로 2차 항까지 전개
통계자료의 탐색적 분석(EDA) 63 5. 분포의 대칭화에 관한 수리적 이론 분포의 대칭화 대칭화 변환을 수리적으로 규명 함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 2차 항까지 전개 에 의하여 변환된 자료의 위,아래 사분위수 과 은 변환에 의하여 대칭분포를 만족하려면 이어야 하므로 근사적으로 가 성립하여야 한다.
14
예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로
통계자료의 탐색적 분석(EDA) 64 즉, 가 유도된다. 즉, 변환의 차수 는 근사적으로 으로 주어진다. 예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로 이다. 0에 가까우므로 최종적으로 시도한 로그변환이 거의 근사적으로 최적값에 근접
15
산포를 균일하게 해주는 변환 수리적인 이론을 설명 함수 ( 일 때는 로 해석)을 테일러 정리를
통계자료의 탐색적 분석(EDA) 65 6. 산포의 균일화에 관한 수리적 이론 산포를 균일하게 해주는 변환 수리적인 이론을 설명 함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 1차 항까지 전개 에 의하여 변환된 자료의 위,아래 사분위수 과 은 으로 근사되므로 가 성립한다. 따라서 위 식의 양변에 로그를 취하면 이 되는데, 변환에 의하여 산포가 균일해 진다면 좌변은 상수이므로 가 유도된다.
16
위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때 기울기가 대략 인 직선 형태
통계자료의 탐색적 분석(EDA) 66 위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때 기울기가 대략 인 직선 형태 를 구하여 2차원 그래프(산점도)로 출력시켰을 때 기울기가 인 직선 형태의 그래프가 도출 된다. 변환이 대략적으로 자료간의 산포를 균일하게 하는 변환 예를들면 세 종류의 플랑크톤 자료에 의한 문자값 전시로 부터 문자 값 M과 4분위수 산포 spr(H) 를 찾아 (상용)로그 변환을 실시 M spr(H) log(M) log{spr(H)} 플랑크톤 I 플랑크톤 IV 플랑크톤 III 세 점 중에서 양끝에 있는 자료 I과 III의 점 (logM,log{spr(H)}을 연결하는 직선의 기울기
17
(1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를
통계자료의 탐색적 분석(EDA) 67 8. 통계분석에서 자주 쓰이는 그 밖의 변환 통계분석에 자주 사용되는 변환 (1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 포아송(Poisson distribution)로 모형화, 평균 , 분산 이 같은 경우 분산 안정화 변환(Variance stabilizing transform)은 제곱근 변환 (2) 자료가 비율인 경우 : 통계분석에 자주 사용되는 비율 의 변환 ① 로짓(logit) 변환 : ② 프로빗(probit) 변환 : 여기서, 는 N(0,1) ③ 각 변환(arcsin 변환) : (3) 상관계수 : 모 상관계수 인 경우 표본상관계수 의 표본분포는 복잡 Fisher의 변환 을 통하여 근사적인 정규분포
18
(4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환
통계자료의 탐색적 분석(EDA) 68 (4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환 EDA에서의 표준점수 (5) 로그변환 : 분포의 대칭화 또는 산포의 균일화를 위한 재표현 방법 승법모형의 가법모형화가 가능 예를들면, 경제•경영 시계열 는 승법 모형 : 로 표현되는 경우 로그변환 : 추세, : 순환, : 계절성, : 불규칙변동
19
자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출
통계자료의 탐색적 분석(EDA) 69 9. 요약 자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출 박스-칵스 변환 : 재표현 사다리는 p=1(무변환)을 기점으로 하여 p>1이면 올라가는 방향, p<1이면 내려가는 방향 분포가 오른쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 내려감 분포가 왼쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 올라감 중위수가 커짐에 따라 산포가 늘어나는 자료의 경우 : 산포의 균일화를 위하여 재표현 사다리를 내려야 함 원 자료의 수치 요약은 동일한 변환으로 재 표현 분포의 대칭화를 위한 변환의 차수 는 다음과 같다
20
여러 묶음의 자료간 산포를 균일하게 하기 위한 방법 : 기울기
통계자료의 탐색적 분석(EDA) 70 여러 묶음의 자료간 산포를 균일하게 하기 위한 방법 : 기울기 통계분석에서는 다음의 여러 변환들이 자주 쓰인다 ① 자료가 돗수인 경우 : 제곱근 변환 자료가 비율인 경우 : 로짓 변환, 프로빗 변환, arsin변환 ② 상관계수에 관한 변환 : 피셔(Fisher)의 z 변환이 대표적 ③ 표준화 점수로써 난이도가 다르게 출제된 시험에서 취득한 점수를 비교 ④ 로그 변환 : 승법모형 가법모형
Similar presentations