Download presentation
Presentation is loading. Please wait.
1
제 5 장 두 변수의 관계 71 1. 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
통계자료의 탐색적 분석(EDA) 71 제 5 장 두 변수의 관계 1. 직선화의 방법 두 변수사이에 어떤 관계가 있는가? X(독립•설명변수), Y(종속•반응변수) X Y 가 직선인 경우 함수가 볼록 함수인 경우 : (재표현의 사다리를 내려가는 방향으로 Y를 변환) 또는 (올라가는 방향으로 X를 변환) 함수가 오목 함수인 경우 : (재표현의 사다리를 내려가는 방향으로 X를 변환) 또는 (올라가는 방향으로 Y를 변환)
2
자동차 속도 X와 급제동에 실제 요구되는 거리 Y에 관한 자료 <원 자료>
통계자료의 탐색적 분석(EDA) 72 <직선화에 관한 사례> 자동차 속도 X와 급제동에 실제 요구되는 거리 Y에 관한 자료 <원 자료> < X와 Y의 자료 Dot plot > Y - x x x x x x x x x x x x x x x x x x x x x x x x x x x x x 2 x x 2 x x x x - x x x x X
3
원 자료의 plot이 곡선 형태를 뛰고 있다. 즉, 일 가능성을 제시 으로 설명변수 변환 직선형태로 변환(산포가 커짐)
통계자료의 탐색적 분석(EDA) 73 - x Y - x x x x x x x x x x x x x x x x x x x x x xx x2 x x x - x x 2x x 2 - x xx x - x x x 0+ x X2 - 6.0+ x Y/X x x x x x x x x x x x x x x x - x x x x x x x x x x x x x x x x x x x x x x x x x - x x 0.0+ X 원 자료의 plot이 곡선 형태를 뛰고 있다. 즉, 일 가능성을 제시 으로 설명변수 변환 직선형태로 변환(산포가 커짐) 분산의 성질 에서 제동거리 Y 대신 속도당 제동거리 Y/X를 세로축으로 변환(산포의 균일성, 직선형태 확보)
4
회귀직선의 추정방법(최소제곱법 : least square method) 을 최소화 하는 방법
통계자료의 탐색적 분석(EDA) 74 2. 세 그룹 저항성 직선의 초기 추정 직선 경향의 두 변수간의 회귀식 회귀직선의 추정방법(최소제곱법 : least square method) 을 최소화 하는 방법 계산이 간단하고, 정규성의 가정 아래에서 통계적 추론 문제점) 특이점에 영향을 크게 받는다. EDA의 관점에서는 적합하지 않다. 해결책) 자료점에 저항성이 큰 세 그룹 저항성 직선(three-group resistant line : RLINE) 1) 세 그룹(three group) 자료 점들을 크기 순으로 나열 을 세 그룹 – 왼쪽그룹, 가운데 그룹, 오른쪽 그룹으로 나눈다. 자료수의 할당 그룹 L M R
5
각 그룹에서의 자료점들로 부터 x와 y의 중위수를 구한다.
통계자료의 탐색적 분석(EDA) 75 2) 요약점 각 그룹에서의 자료점들로 부터 x와 y의 중위수를 구한다. 예를들면, (1,8), (2,6), (3,9), (4,1), (5,10) 요약점(3,8) 왼쪽 그룹(L 그룹), 가운데 그룹(M 그룹), 오른쪽 그룹(R 그룹)의 요약점 3) 기울기 b외 절편 a의 초기 추정 회귀직선 에서의 기울기 는 L 그룹과 R 그룹의 요약점 과 을 연결하는 직선의 기울기 즉, 세 요약점에서의 잔차 의 합을 0으로 하도록 절편 를 정함 따라서
6
그린버그의 1953년 연구에서 나온 사립 초등학교 학생의 나이와 키에 관한 연구
통계자료의 탐색적 분석(EDA) 76 수치 예 : 사립초등학교 학생 자료 그린버그의 1953년 연구에서 나온 사립 초등학교 학생의 나이와 키에 관한 연구 나이의 변수 : x (측정단위 : 달수), 키의 변수 : y (측정단위 : cm) n=18명 학생번호 나이(x) 키(y) 잔차 r (r=y x) L M R
7
x의 중위수는 (126+129)/2=127.5, y의 중위수는 (147.5+148.3)/2=147.9 세 그룹의 요약점
통계자료의 탐색적 분석(EDA) 77 세 그룹 중 M 그룹의 중위수를 구해보자 x의 중위수는 ( )/2=127.5, y의 중위수는 ( )/2=147.9 세 그룹의 요약점 기울기 b와 절편 a의 초기 추정치는 결국, 세 그룹 저항성 직선 RLINE의 초기 추정식은 잔차 r은 잔차 - * 1 - * + 0 * + 1 * 2 .
8
가 된다. 이 관계로 부터 절편 와 기울기 의 새로운 추정치
통계자료의 탐색적 분석(EDA) 78 3. 미니탭에서의 저항성 직선 RLINE 좀 더 적합도가 나은 직선을 구해보자. 와 의 초기 추정치를 와 라고 하자. 그 때의 잔차 를 구하게 되는데 이 때 자료 에 세 그룹 저항성 직선을 같은 방법으로 적합 가 된다. 이 관계로 부터 절편 와 기울기 의 새로운 추정치 를 얻게 된다. 새로운 잔차를 구하고, 이들 잔차에 새 저항성 직선을 적합시켜 와 의 추정치 수정 반복 계산을 계속하되 추정치의 변화량이 아주 작으면 더 이상의 작업을 정지
9
Stat > EDA > Resistant Line….
79 [미니탭 활용] 저항성 직선 RLINE명령 사용 Stat > EDA > Resistant Line…. Resistant Line Fit: y versus x(OUTPUT) Slope = Level = Half-slope ratio = 0.307 Half-slope ratio=
10
@ 잔차의 줄기 그림(Graph > Character Graphs > Stem and Leaf….)
통계자료의 탐색적 분석(EDA) 80 @ 잔차의 줄기 그림(Graph > Character Graphs > Stem and Leaf….) Stem-and-leaf of RESI1 N = 18 Leaf Unit = 1.0 @ 상자 그림 (Graph > Character Graphs > Boxplot….) * I I * RESI1 최종적인 저항성 직선의 적합식은
11
<자동차의 속도와 제동거리의 자료>
통계자료의 탐색적 분석(EDA) 81 <자동차의 속도와 제동거리의 자료> 위 자료를 이용한 저항성 직선 (Stat > EDA > Resistant Line ) <출력> Resistant Line Fit: Y/X versus X Slope = Level = Half-slope ratio = 적합 된 회귀식 : Y/X = X Y = X^2
12
Manip > Display Data…. ---------------
통계자료의 탐색적 분석(EDA) 82 <잔차 줄기 그림과 상자 그림> Stem-and-leaf of RESI1 N = 50 Leaf Unit = 0.10 1 2 <자료의 표현> Manip > Display Data…. I I * RESI1 Data Display Row X Y/X RESI1 FITS2
13
(재표현의 사다리를 내려가는 방향으로 Y를 변환) 또는 (올라가는 방향으로 X를 변환) 변환(재표현) 오목 함수인 경우 :
통계자료의 탐색적 분석(EDA) 83 4. 요약 변환(재표현) 볼록 함수인 경우 : (재표현의 사다리를 내려가는 방향으로 Y를 변환) 또는 (올라가는 방향으로 X를 변환) 변환(재표현) 오목 함수인 경우 : (재표현의 사다리를 내려가는 방향으로 X를 변환) 또는 (올라가는 방향으로 Y를 변환) 세 그룹 저항성 직선 RLINE를 하는 EDA의 절차 1) 자료를 크기가 가급적 같은 세 그룹으로 나누고 2) 각 그룹의 요약 점을 정한다 3) 세 요약 점 중 양끝 점을 이용하여 기울기를 구하고, 세 점의 잔차의 합이 0이되도록하여 절편을 구한다. 4) 잔차를 구하고, 같은 방법으로 잔차를 회귀시켜 얻은 결과를 이용하여 보다 나은 추정치를 구한다. 잔차를 분석하여 회귀분석에서의 특이점을 식별해 낸다.(EDA 기법)
Similar presentations