Download presentation
Presentation is loading. Please wait.
1
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수 사분위수와 상자그림 백분위수와 정규분포곡선
2
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
3
1. 단위 변환 모든 관측 값에 상수를 더하거나, 곱하는 변환
단위 변환 가운데 평균을 빼주고 표준편차로 나누어 주는 변환을 특별히 표준화(standardization)라 부른다. - 상수를 더하면 평균은 상수만큼 증가, 표준편차 불변 - 양의 상수를 곱하면 평균과 표준편차는 상수배 증가
4
1. 단위 변환 보기 : (1) 1, 3, 4, 4, 5, 7에 대한 평균과 표준편차를 구한 다음, (2) 위 숫자에 3을 곱하고 7을 더한 숫자들에 대한 평균과 표준편차를 구하라. 평균=4, 표준편차는? = = 2 (2) 1*3+7, 3*3+7, 4*3+7, 4*3+7, 5*3+7, 7*3+7 → 10,16,19,19,22,28 → 평균, 표준편차 구함? !!! 평균=3*4+7=19, 표준편차=3*2=6
5
1. 단위 변환 표 준 화 분포의 전반적인 모습은 단위와 무관하다 단위 변환 1 2 3 4 5 6 7
분포의 전반적인 모습은 단위와 무관하다 -1.5 –1 –
6
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
7
2. 정규분포곡선 정규분포곡선 정규분포곡선은 하나의 이상적인 히스토그램이다. 이는 실제 자료의 분포를 근사시켜 줄 하나의 수학적 모형이다. 개념상 모집단의 분포에 해당된다. 는 모평균, 는 모표준편차이다.
8
2. 정규분포곡선 정규분포곡선 중, E(X)=0, SD(X)=1 을 만족하는 곡선 표준정규분포 곡선 아래의
표준정규분포곡선 정규분포곡선 중, E(X)=0, SD(X)=1 을 만족하는 곡선 표준정규분포 곡선 아래의 표준단위 -1부터 1까지 구간의 넓이 : 약 68% 표준단위 -2부터 2까지 구간의 넓이 : 약 95% 표준단위 -3부터 3까지 영역의 넓이 : 약 99.7%
9
2. 정규분포곡선 여성의 키 히스토그램과 정규분포곡선
10
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
11
3. 표준정규분포곡선 아래의 영역 찾기 표준정규분포표를 이용한다 0과 1 사이 구간의 면적은 전체의 34.13%
표준정규분포곡선 아래의 영역 찾기 (I) 표준정규분포표 z .00 .01 .02 0.0 .0000 .0040 .0080 0.1 .0398 .0438 .0478 0.2 .0793 .0832 .0871 0.3 .1179 .1217 .1255 0.4 .1554 .1591 .1628 0.5 .1915 .1950 .1985 0.6 .2257 .2291 .2324 0.7 .2580 .2611 .2642 0.8 .2881 .2910 .2939 0.9 .3159 .3186 .3212 1.0 .3413 .3438 .3461 1.1 .3643 .3665 .3686 표준정규분포표를 이용한다 z 0과 1 사이 구간의 면적은 전체의 34.13%
12
표준정규분포곡선 아래 –2부터 1사이 영역의 넓이를 알아보자
3. 표준정규분포곡선 아래의 영역 찾기 표준정규분포곡선 아래 영역 찾기 (II) 표준정규분포곡선 아래 –2부터 1사이 영역의 넓이를 알아보자 -2 = 1 + ☞ 대칭이므로 –2와 0사이의 넓이는 0과 2사이의 넓이와 동일 ☞ 0과 2 사이는 대략 48%, 0과 1사이는 대략 34%이다. ☞ 따라서 –2와 1사이의 넓이는 대략 = 82 % 가 된다
13
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
14
4. 자료에 대한 정규 근사 정규분포를 따르는 히스토그램은 중심과 중심주위로 퍼진 정도에 의해 잘 요약된다.
평균과 SD 정규분포를 따르는 히스토그램은 중심과 중심주위로 퍼진 정도에 의해 잘 요약된다. 평균과 표준편차만으로 히스토그램의 모든 정보가 요약
15
4. 자료에 대한 정규 근사 정규 근사 Ex) 건강검진에서 남성의 키 평균 167.5cm 표준편차 8.5cm → 키가 150.4cm에서 176cm 사이인 남성의 비율은 ? -2 +1 150.4cm 167.5cm 176cm 표준단위로 변환 - 2 +1 표준정규분포곡선 이용 ☞ 원하는 구간의 값을 표준단위로 변환 (-2부터 1까지) ☞ 표준정규분포 곡선을 이용 해당 영역의 면적 계산 ☞ 대략 82% 값을 갖는다. (실제 자료에서는 83.2%)
16
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
17
5. 백분위수 모든 히스토그램이 정규분포곡선과 유사한 것은 아니다.
가구소득 분포 히스토그램 모든 히스토그램이 정규분포곡선과 유사한 것은 아니다. 0.01 0.02 0.03 0.04 0.05 2,000 4,000 6,000 8,000 12,000 10,000 소득 분포 히스토그램에서 연간 소득이 0 미만인 사람은 없다. 그러나 정규화 시키면 0 미만인 가구가 전체가구의 8%나 되어야 한다. 가구소득 히스토그램은 정규분포를 따르지 않는다.
18
5. 백분위수 꼬리가 치우친 히스토그램을 요약할 때는 백분위수가 좀더 유용하다.
가구소득 분포 백분위수 꼬리가 치우친 히스토그램을 요약할 때는 백분위수가 좀더 유용하다. 백분위 백분위수(만원/년) 1 147.3 10 743.6 25 1,200 50 1,800 75 2,572.5 90 3,696.3 99 11,540 10%의 가구가 연간 만원 이하의 소득을, 나머지 90%의 가구가 그 이상의 소득을 올린다 만약 100명이라고 하면 10분위는 소득이 낮은 순서로 10번째 사람이고 나머지 90%의 사람은 얘보다 소득이 많은거다.
19
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
20
(사분위수 범위)=(제3사분위수)-(제1사분위수)
6. 사분위수와 상자그림 사분위수 사분위수 백분위수 가운데 25번째, 50번째, 75번째 백분위수를 각각 제1사분위수, 제2사분위수, 제3사분위수라 한다. 특히 50번째 백분위수는 제2사분위수이면서 중앙값이다. 사분위수 범위(interquartile range) 제3사분위수에서 제1사분위수를 뺀 것으로 중앙의 자료 50%가 속한 구간의 폭을 의미한다. 전체 100을 25씩 잘라서 보기 편하게 만든거… 100번째는 4사분위가 된다. 제2사분위 수는 중앙값이기도 하다. (사분위수 범위)=(제3사분위수)-(제1사분위수)
21
6. 사분위수와 상자그림 자료의 다섯 숫자 요약: 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값으로 하나의 자료를 요약할 수 있다. 자료를 요약하는 다섯 숫자를 그림으로 표현할 수 있는데 이를 상자그림이라고 한다. 상자의 양끝 세로 선은 최소값과 최대값을 나타내고 몸통의 세 가로 선은 세 개의 사분위수를 나타낸다. 종종 최소값과 최대값 대신 제10백분위수와 제90백분위수를 사용하기도 한다.
22
6. 사분위수와 상자그림 상자그림 (가구소득 분포)
2572.5(3사분위)-1200(1사분위)=사분위수 범위 : 이 값은 인구의 50%가 속해있다. 2교시 50분
23
6. 사분위수와 상자그림 거래소 종목별 2000년 주간 수익률 1 : KOSPI 2 : 삼성전자 3 : SK 텔레콤
15 1 : KOSPI 2 : 삼성전자 3 : SK 텔레콤 4 : 한국전력 5 : 포항제철 6 : 현대차 7 : 기아차 8 : 신한은행 9 : 삼성전기 10 : 삼성증권 10 5 주간수익률(%) -5 -10 -15 -20 1 2 3 4 5 6 7 8 9 10 이 데이터를 보면 중위값과 변동폭을 알 수 있다. 가장 변동이 적은 주가는 (코스피제외)한전이고 가장 큰 변동폭을 보이는 것은 skt이다 종목
24
6. 사분위수와 상자그림 포항제철과 삼성전자 주간 수익률 비교 삼성전자의 주간 수익률은 최고 37%에서 최저 –26%까지 실현
40 30 20 삼성전자의 주간 수익률은 최고 37%에서 최저 –26%까지 실현 주간수익률(%) 10 포항제철의 경우 범위가 삼성전자에 비해 작음 -10 -20 -30 포항제철 삼성전자 종목
25
INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6
사분위수와 상자그림 7 백분위수와 정규분포곡선
26
7. 백분위수와 정규분포곡선 백분위수 구하기 Ex) 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라.(E(X)=27.93, Var(X)=8.522) ☞ z =1.65일 때 [0,1.65] 구간의 면적이 45% ☞ 1.65 * 8.52 = 14.06 ☞ = 41.99 -0.19 13.87 27.93 41.99 56.05 중간고사성적 1.65 표준단위
Similar presentations