제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
1. 2 차원 배열  배열은 동일한 데이터 유형으로 여러 개의 변수를 사용할 경우 같은 이 름으로 지정하여 간편하게 사용할 수 있도록 하는 것으로서 앞에서 1 차원 배열을 공부하였습니다.  2 차원 배열은 바둑판을 생각하면 되며, 1 차원 배열에서 사용하는 첨자를 2.
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
경영통계 제 1 장 통계란 무엇인가 도수분포표. 도수분포 도수분포 상대도수분포 상대도수분포 누적 도수 누적 도수 분석 도구 - 히스토그램 분석 도구 - 히스토그램.
Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
5. 통계 1. 산포도와 표준편차.
Keller: Stats for Mgmt & Econ, 7th Ed
재료수치해석 HW # 박재혁.
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
Excel 일차 강사 : 박영민.
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
수치해석 6장 예제문제 환경공학과 천대길.
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
제 3장. 수치를 통한 연속형 자료의 요약.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
제2장 기초통계 양윤권 교수.
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
Keller: Stats for Mgmt & Econ, 7th Ed
자료의 표현.
4 장 신호(Signals) 4.1 아날로그와 디지털(Analog and Digital)
자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도.
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
5장 선택제어문 if 선택문 switch-case 선택문 다양한 프로그램 작성 조건 연산자.
논문작성을 위한 연구모형 설정 양동훈.
미분방정식.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Excel 일차 강사 : 박영민.
제3장 함수와 배열수식 전진환
감마분포 gamma distribution
Sampling Distributions
1학기 수학 연산 풀이 (3학년) 와이즈캠프 담임선생님.
에어 PHP 입문.
Excel 일차 강사 : 박영민.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
기초 통계학 지도위원 이광희.
통계해석 및 오차의 제거.
Chapter2. 기술통계(Descriptive Statistics)
Chapter 1 단위, 물리량, 벡터.
1. 접선의 방정식 2010년 설악산.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
비교분석 보고서 Template 2015.
상관계수.
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
문장제 쉽게 풀기 -최소공배수 응용 문제.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
프로그래밍 개론 Ⅰ-실습 2장 데이터와 식①.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 3. 부등식의 영역에서 최대, 최소(5/5) 부등식 영역 수업계획 수업활동.
문제의 답안 잘 생각해 보시기 바랍니다..
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
Survey Sampling Sangji University.
Presentation transcript:

제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수 제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수 사분위수와 상자그림 백분위수와 정규분포곡선

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

1. 단위 변환 모든 관측 값에 상수를 더하거나, 곱하는 변환 단위 변환 가운데 평균을 빼주고 표준편차로 나누어 주는 변환을 특별히 표준화(standardization)라 부른다. - 상수를 더하면 평균은 상수만큼 증가, 표준편차 불변 - 양의 상수를 곱하면 평균과 표준편차는 상수배 증가

1. 단위 변환 보기 : (1) 1, 3, 4, 4, 5, 7에 대한 평균과 표준편차를 구한 다음, (2) 위 숫자에 3을 곱하고 7을 더한 숫자들에 대한 평균과 표준편차를 구하라. 평균=4, 표준편차는? = = 2 (2) 1*3+7, 3*3+7, 4*3+7, 4*3+7, 5*3+7, 7*3+7 → 10,16,19,19,22,28 → 평균, 표준편차 구함? !!! 평균=3*4+7=19, 표준편차=3*2=6

1. 단위 변환 표 준 화 분포의 전반적인 모습은 단위와 무관하다 단위 변환 1 2 3 4 5 6 7 10 13 16 19 22 25 28 분포의 전반적인 모습은 단위와 무관하다 -1.5 –1 –0.5 0 0.5 1 1.5

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

2. 정규분포곡선 정규분포곡선 정규분포곡선은 하나의 이상적인 히스토그램이다. 이는 실제 자료의 분포를 근사시켜 줄 하나의 수학적 모형이다. 개념상 모집단의 분포에 해당된다.  는 모평균,  는 모표준편차이다.

2. 정규분포곡선 정규분포곡선 중, E(X)=0, SD(X)=1 을 만족하는 곡선 표준정규분포 곡선 아래의 표준정규분포곡선 정규분포곡선 중, E(X)=0, SD(X)=1 을 만족하는 곡선 표준정규분포 곡선 아래의 표준단위 -1부터 1까지 구간의 넓이 : 약 68% 표준단위 -2부터 2까지 구간의 넓이 : 약 95% 표준단위 -3부터 3까지 영역의 넓이 : 약 99.7%

2. 정규분포곡선 여성의 키 히스토그램과 정규분포곡선

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

3. 표준정규분포곡선 아래의 영역 찾기 표준정규분포표를 이용한다 0과 1 사이 구간의 면적은 전체의 34.13% 표준정규분포곡선 아래의 영역 찾기 (I) 표준정규분포표 z .00 .01 .02 0.0 .0000 .0040 .0080 0.1 .0398 .0438 .0478 0.2 .0793 .0832 .0871 0.3 .1179 .1217 .1255 0.4 .1554 .1591 .1628 0.5 .1915 .1950 .1985 0.6 .2257 .2291 .2324 0.7 .2580 .2611 .2642 0.8 .2881 .2910 .2939 0.9 .3159 .3186 .3212 1.0 .3413 .3438 .3461 1.1 .3643 .3665 .3686 표준정규분포표를 이용한다 z 0과 1 사이 구간의 면적은 전체의 34.13%

표준정규분포곡선 아래 –2부터 1사이 영역의 넓이를 알아보자 3. 표준정규분포곡선 아래의 영역 찾기 표준정규분포곡선 아래 영역 찾기 (II) 표준정규분포곡선 아래 –2부터 1사이 영역의 넓이를 알아보자 -2 = 1 + ☞ 대칭이므로 –2와 0사이의 넓이는 0과 2사이의 넓이와 동일 ☞ 0과 2 사이는 대략 48%, 0과 1사이는 대략 34%이다. ☞ 따라서 –2와 1사이의 넓이는 대략 48 + 34 = 82 % 가 된다

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

4. 자료에 대한 정규 근사 정규분포를 따르는 히스토그램은 중심과 중심주위로 퍼진 정도에 의해 잘 요약된다. 평균과 SD 정규분포를 따르는 히스토그램은 중심과 중심주위로 퍼진 정도에 의해 잘 요약된다. 평균과 표준편차만으로 히스토그램의 모든 정보가 요약

4. 자료에 대한 정규 근사 정규 근사 Ex) 건강검진에서 남성의 키 평균 167.5cm 표준편차 8.5cm → 키가 150.4cm에서 176cm 사이인 남성의 비율은 ? -2 +1 150.4cm 167.5cm 176cm 표준단위로 변환 - 2 +1 표준정규분포곡선 이용 ☞ 원하는 구간의 값을 표준단위로 변환 (-2부터 1까지) ☞ 표준정규분포 곡선을 이용 해당 영역의 면적 계산 ☞ 대략 82% 값을 갖는다. (실제 자료에서는 83.2%)

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

5. 백분위수 모든 히스토그램이 정규분포곡선과 유사한 것은 아니다. 가구소득 분포 히스토그램 모든 히스토그램이 정규분포곡선과 유사한 것은 아니다. 0.01 0.02 0.03 0.04 0.05 2,000 4,000 6,000 8,000 12,000 10,000 소득 분포 히스토그램에서 연간 소득이 0 미만인 사람은 없다. 그러나 정규화 시키면 0 미만인 가구가 전체가구의 8%나 되어야 한다. 가구소득 히스토그램은 정규분포를 따르지 않는다.

5. 백분위수 꼬리가 치우친 히스토그램을 요약할 때는 백분위수가 좀더 유용하다. 가구소득 분포 백분위수 꼬리가 치우친 히스토그램을 요약할 때는 백분위수가 좀더 유용하다. 백분위 백분위수(만원/년) 1 147.3 10 743.6 25 1,200 50 1,800 75 2,572.5 90 3,696.3 99 11,540 10%의 가구가 연간 743.6 만원 이하의 소득을, 나머지 90%의 가구가 그 이상의 소득을 올린다 만약 100명이라고 하면 10분위는 소득이 낮은 순서로 10번째 사람이고 나머지 90%의 사람은 얘보다 소득이 많은거다.

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

(사분위수 범위)=(제3사분위수)-(제1사분위수) 6. 사분위수와 상자그림 사분위수 사분위수 백분위수 가운데 25번째, 50번째, 75번째 백분위수를 각각 제1사분위수, 제2사분위수, 제3사분위수라 한다. 특히 50번째 백분위수는 제2사분위수이면서 중앙값이다. 사분위수 범위(interquartile range) 제3사분위수에서 제1사분위수를 뺀 것으로 중앙의 자료 50%가 속한 구간의 폭을 의미한다. 전체 100을 25씩 잘라서 보기 편하게 만든거… 100번째는 4사분위가 된다. 제2사분위 수는 중앙값이기도 하다. (사분위수 범위)=(제3사분위수)-(제1사분위수)

6. 사분위수와 상자그림 자료의 다섯 숫자 요약: 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값으로 하나의 자료를 요약할 수 있다. 자료를 요약하는 다섯 숫자를 그림으로 표현할 수 있는데 이를 상자그림이라고 한다. 상자의 양끝 세로 선은 최소값과 최대값을 나타내고 몸통의 세 가로 선은 세 개의 사분위수를 나타낸다. 종종 최소값과 최대값 대신 제10백분위수와 제90백분위수를 사용하기도 한다.

6. 사분위수와 상자그림 상자그림 (가구소득 분포) 2572.5(3사분위)-1200(1사분위)=사분위수 범위 : 이 값은 인구의 50%가 속해있다. 2교시 50분

6. 사분위수와 상자그림 거래소 종목별 2000년 주간 수익률 1 : KOSPI 2 : 삼성전자 3 : SK 텔레콤 15 1 : KOSPI 2 : 삼성전자 3 : SK 텔레콤 4 : 한국전력 5 : 포항제철 6 : 현대차 7 : 기아차 8 : 신한은행 9 : 삼성전기 10 : 삼성증권 10 5 주간수익률(%) -5 -10 -15 -20 1 2 3 4 5 6 7 8 9 10 이 데이터를 보면 중위값과 변동폭을 알 수 있다. 가장 변동이 적은 주가는 (코스피제외)한전이고 가장 큰 변동폭을 보이는 것은 skt이다 종목

6. 사분위수와 상자그림 포항제철과 삼성전자 주간 수익률 비교 삼성전자의 주간 수익률은 최고 37%에서 최저 –26%까지 실현 40 30 20 삼성전자의 주간 수익률은 최고 37%에서 최저 –26%까지 실현 주간수익률(%) 10 포항제철의 경우 범위가 삼성전자에 비해 작음 -10 -20 -30 포항제철 삼성전자 종목

INDEX 1 단위변환 2 정규분포곡선 3 표준정규분포곡선 아래의 영역 찾기 4 자료에 대한 정규 근사 5 백분위수 6 사분위수와 상자그림 7 백분위수와 정규분포곡선

7. 백분위수와 정규분포곡선 백분위수 구하기 Ex) 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라.(E(X)=27.93, Var(X)=8.522) ☞ z =1.65일 때 [0,1.65] 구간의 면적이 45% ☞ 1.65 * 8.52 = 14.06 ☞ 27.93 + 14.06 = 41.99 -0.19 13.87 27.93 41.99 56.05 중간고사성적 1.65 표준단위