기초통계학
제 1장 통계학이란 무엇인가? 1-1 통계학이란 무엇인가? 통계학은 관심의 대상에 대한 자료를 수집·정리·요약하여 주어진 통계학 : 자료에 근거하여 자연 또는 사회 제 현상에 대한 과학적인 추론과 불확실한 미래를 대비하기 위한 합리적인 의사결정을 하고자 하는학문 ex1) 우리나라 직종별 월 임금수준의 최근동향 정리, 요약하여 동향을 파악할 수 있는 통계적 방법 필요 ex2) 전국의 평균수명 몇개만 선택하여 전체전구의 평균수명을 추측 통계학은 관심의 대상에 대한 자료를 수집·정리·요약하여 주어진 자료나 정보를 토대로 불확실한 사실에 대하여 과학적인 판단을 내릴 수 있도록 방법을 제시하여 주는 학문
제 1장 통계학이란 무엇인가? 1-2 모집단과 표본 모집단 (population) : 모든 개체의 관측값 or 측정값의 집합 표 본 ( sample ) : 통계적 처리를 위해 모집단에서 실제로 추출한 관측값이나 측정값의 집합을 의미 표본 모집단
제 1장 통계학이란 무엇인가? 1-3 기술 통계학과 추측통계학 기술통계학 (記述; Descriptive statistics): 자료를 수집하고 표나 그림 또는 대표값, 변동의 크기 등을 통하여 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리, 요약하는 방법을 다루는 분야 추측통계학 (推測; Inferential statistics): 표본에 내포된 정보를 분석, 모집단의 특성에 대한 과학적 추론 현대 통계학의 핵심 ! !
제 2장 자료의 정리 Ⅰ 2-1 자료의 종류 질적자료 (gualitative data) 범주형 자료 (catagorical date) : 원칙적으로 숫자로 표현될 수 없는 자료 ex) 성별, 교육수준 (초졸-1, 중졸-2 등으로 숫자화된“약속”은 가능) 양적자료: 자료자체가 숫자로 표현, 자료의 속성을 그대로 반영 ex) 키, 몸무게, 성적 등…
제 2장 자료의 정리 Ⅰ 양적자료 질적자료로 변환 : 예를들어, 90~100(수), 80~90(우)등… 이 과정을 집단화(grouping) 라고 함/ 결과는 grouped data 변수(variable): 성별, 키, 몸무게와 같이 한가지 이상의 자료값을 가지고 있는것 질적변수: 성별과 같이 질적 자료값 가짐 양적변수: 키, 몸무게와 같이 양적 자료값 가짐
제 2장 자료의 정리 Ⅰ 2-2 질적 자료의 해석 2-2-1 도수분포표 그래프, 도표를 통해 정리, 요약 -도 수 (freguency): 각 자료값이 나타내는 빈도수 상대도수(relative frequency): 도수를 전체자료수로 나눈것 도수분포표(freguency table): 각 자료값에 대해 도수/상대도수를 나열해 놓은것 ex) 진로희망 계수(tally) 도수(f) 상대도수 취 직 6 0.30 대학원 7 0.35 군입대 4 0.20 유 학 3 0.15 합 계 20 1.00
제 2장 자료의 정리 Ⅰ 2-2-2 상대도수 막대 그래프 상대도수 [그림2-1] 졸업 후 진로희망의 막대그래프
제 2장 자료의 정리 Ⅰ 2-2-3 원형그래프 군입대 20% 대학원 35% 해외유학 15% [그림2-3] 졸업 후 진로희망의 원형그래프
제 2장 자료의 정리 Ⅰ 2-3 양적 자료의 해석 2-3-1 줄기-잎-그림(stem and leaf diagram) ex) 시험성적 (표 2-4의 줄기-잎-그림) <줄기> <잎> 5 7 3 9 6 8 3 2 6 5 1 7 7 1 5 7 3 4 8 5 4 0 8 4 7 1 5 9 6 7 9 1 8 4 3 [그림 2-4] 시험성적의 줄기-잎-그림 - 장점: 원래 자료값 파악용이, 크기순 나열용이, 특정위치 자료값 파악용이, 자료의 군집상태 파악용이 - 단점: 자료집합의 크기가 커지면 줄기개수를 정하기 애매해 지므로 부적합 Bell-shape
제 2장 자료의 정리 Ⅰ 2-3-2 도수분포표 자료의 최대, 최소값 구함 5~20개 정도의 계급의 개수를 정함 ex) 6명의 시험성적 •최대=98 •최소=53 • 첫번째 계급의 하측경계값 └자료최소단위 2-3-2 도수분포표 자료의 최대, 최소값 구함 5~20개 정도의 계급의 개수를 정함 동일 간격의 계급구간 설정 (종목이 없어야 하며 어떤 자료값도 계급간의 경계점에 놓이면 안됨) 계급별 도수/ 상대도수를 구함 계급번호 계급구간 도 수 상대도수 1 52.5~60.5 3 0.10 2 60.5~68.5 7 0.23 68.5~76.5 4 76.5~84.5 0.13 5 84.5~92.5 6 0.20 92.5~100.5 총 계 30 0.99 표<2-5> 시험성적의 도수분포표
제 2장 자료의 정리 Ⅰ 2-3-3 히스토그램 0.25 0.20 상대도수 0.15 0.10 0.05 [그림2-7] 시험성적의 히스토그램
제 2장 자료의 정리 Ⅰ Homework !! (2장 연습문제) 2-1, 2-2, 2-5, 2-10
제 3장 자료의 정리Ⅱ 3-1 서론 2장의 자료정리방법 줄기수, 계급수가 주관적 판단에 좌우, 모집단 아닌 표본일 경우 포본자료가 모집단에 얼마나 가까운지 알수없음 자료를 객관적으로 대표할 수 있는 수리적 측도 필요 중심위치의 측도, 산포도의 측도, 상대적 위치의 측도
제 3장 자료의 정리Ⅱ 3-2 중심위치의 측도(measure of central tendency) 평균= : 평균(mean), 중앙값(median), 최빈값(mode) 3-2-1 평균(mean) 산술평균 평균= 표본평균: (sample mean) 모 평 균: (population mean) (모집단자료수: N ) (표본자료수: n )
제 3장 자료의 정리Ⅱ 3-2-2 중앙값 (median) 자료를 크기순으로 나열했을때 가운데 놓이는 값 자료수 n인경우 : (크기순나열) ex) 6, 9, 4, 10, 15 4, 6, 9, 10, 15 6, 9, 4, 10, 11, 15 4, 6, 9, 10, 11, 15 중앙값 중앙값 9.5
제 3장 자료의 정리Ⅱ 3-2-3 최빈값 (mode) : 자료중 가장 자주 나오는 값 질적자료: (예제 2-2) 졸업후 진로희망의 경우 ‘대학원’이 최빈값 양적자료: 대부분의 경우 많은 종류의 자료값을 가짐 자료값이 한번씩만 나타남 최빈값 구하기 어려움 자료를 몇 개의 계급으로 나누어 가장 도수가 높은 계급을 ‘최빈계급’(modal class)라 하고 이의 중간값을 최빈값으로 함 ex) 월급액 도 수 30~50 2 50~70 5 70~90 1 90~110 110~ <표 3-2> 월급자료의 분포
제 3장 자료의 정리Ⅱ 3-3 산포도 (measure of dispersion) : 자료가 중심위치에서 얼마나 떨어져 있는가 측정하는 측도 3-3-1 분산과 표준편차 4, 8, 7, 5, 2, 6, 3 평균 = 5 -1, 3, 2, 0, -3, 1, -2 편차는 하나로 합하여 나타내면 합은 = 0 편차
제 3장 자료의 정리Ⅱ ∴표준편차의 합 대신“제곱의 합”을 사용 分散(variance) 과 표준편차(standard deviation) 분산: 편차의 제곱의 합을 자료수로 나눈것 모분산(population variance) 표본분산(sample variance) 표준편차(standard deviation): 분산의 제곱근 모 표준편차(population standard deviation): 표본 표준편차(sample standard deviation): ※ 대부분의 경우 자료는 “표본” !! 를 사용 ! !
제 3장 자료의 정리Ⅱ 분산과 표준편차의 간편식: 분산: , 표준편차: < 예제 3-5 > 자료값 편 차 편차의 제곱 4 4 – 5 = -1 (-1)2 = 1 8 8 – 5 = 3 32 = 9 7 7 – 5 = 2 22 = 4 5 5 – 5 = 0 02 = 0 2 2 – 5 = -3 (-3) 2 = 9 6 6 – 5 = 1 12 = 1 3 2 - 5 = -2 (-2) 2 = 4 합 = 0 합 = 28 < 표 3-3 > 분산과 표준편차의 간편식: 분산: , 표준편차:
제 3장 자료의 정리Ⅱ < 예제 3-6 > 간편식을 이용한 계산식 간편식을 이용하여 <표 3-3>의 자료의 분산을 구해 보자
제 3장 자료의 정리Ⅱ 3-3-2 다른 종류의 산포도 변동계수 (coefficient of variation) : <예제 3-7> 두자료의 산포도 비교시 분산/표준편차 사용은 무의미 (∵ 성인의 경우 개인차가 신생아 때보다 커짐 ) 변동계수의 사용 ! ! (단위: kg) 자료1 (신생아) 자료2 (성인) 4.0 3.0 3.5 3.4 3.6 71.0 64.0 67.0 66.0 59.0
제 3장 자료의 정리Ⅱ 범위 ( Range ) = 자료의 최대값 – 최소값 자료1 자료2 평 균 표준편차 변동계수 < 표 3-4 > 신생아와 성인 몸무게의 변동계수 범위 ( Range ) = 자료의 최대값 – 최소값 이상점이 있을 경우 올바른 산포의 측도가 되지 못함 두 극단값의 차이만 나타냄 단점보완한 것이 사분위 범위 (interquartile range): 사분위 범위= 제 3사분위수 – 제 1사분위수 = Q3 - Q1 <예제 3-9> 2 3 4 5 6 7 8 사분위범위(IQR) = Q3 - Q1= 6.5-3.5= 3.0 Q1 = 중앙값= 3.5 Q3 = 중앙값= 6.5 2345 5678
제 3장 자료의 정리Ⅱ 3-4상대적 위치의 측도(Measure of relative standing) : 특정 자료값이 어떤 위치에 있는지 파악하기 위함 3-4-1 백분위수 (percentiles) 제 P백분위수 (Pth percentile): ex) 제 1사분위수= 25백분위수, 중앙값= 제50백분위수. . <예제 3-12> <표3-5> 성적자료의 70백분위수? 전체 자료수= 30 이므로 제 70백분위수보다 작은 자료의 수는 30×70/100= 21개, 그보다 큰 수는 30×(300/100)= 9개 70 백분위수= 21번째 ~ 22번째수= 84.5 85점 받은 학생의 경우 자신이 상위 30%임을 알수있음 자료값중 P%가 그 값보다 작거나 같게되는 값/(100-P)%가 크거나 같게되는값
제 3장 자료의 정리Ⅱ 3-4-2 z점수 (z- score) : 특정한 자료값이 평균으로 부터 표존편차의 몇배만큼 떨어져 있는가 측정 자료값 x의 z점수: 자료가 모집단인 경우: 자료가 표본인 경우 : <예제 3-13> <표 3-5>에서 85점의 z 점수? 평균=75.43 표준편차= 12.05
제 3장 자료의 정리Ⅱ 체비셰프의 법칙(Chebyshev’s Rule) : 자료중 적어도 가 점수의 절대값이 보다 작다. 자료중 적어도 가 점수의 절대값이 보다 작다. ※ 즉, z-점수가 특정한 값 ±k를 가질때, 자료중 적어도 가 ±k 사이에 존재한다 minimum or ( k배 만큼 평균에서 떨어져 있다)
제 3장 자료의 정리Ⅱ <표 3-6>처럼 집단화된 자료로부터 평균, 분산, 표준편차를 구해보자 일반식 표본일때: 모집단일때:
제 3장 자료의 정리Ⅱ 집단화된 자료의 중앙값과 사분위범위 -누적도수 (cumulative frequency) i 번째 계급의 누적도수= 첫년째부터 i 년째 계급까지 모든계급의 도수 를 합한것 <표3-7>은 <표3-6>의 누적도수!
제 3장 자료의 정리Ⅱ Q1= 처음 15개자료의 중앙값인 8번째 자료값 = 12.5+(17.5-12.5)×½ = 15.0 계급구간 도수 누적도수 7.5~12.5 7 12.5~17.5 2 9 17.5~22.5 8 17 22.5~27.5 4 21 27.5~32.5 23 32.5~37.5 27 37.5~42.5 29 총계 중앙값= 15번째 자료값 17.5+(22.5-17.5)×6/8 =21.25 Q1= 처음 15개자료의 중앙값인 8번째 자료값 = 12.5+(17.5-12.5)×½ = 15.0 Q3 = 나머지 15개 자료 중앙값인 22번째 자료값 = 27.5+(32.5-27.5)×½= 30.0 ∴ 사분위범위= Q3 - Q1= 30-15= 15
제 3장 자료의 정리Ⅱ 집단화된 자료의 i번째 자료값: L= 계급의 시작점 h= 계급의 간격 f= i 번째 자료값이 속한 계급의 도수 α= 앞 계급구간까지의 누적도수
제 3장 자료의 정리Ⅱ Homework !! (3장 연습문제) 3-1, 3-3, 3-7, 3-9, 3-11(체비셰프응용문제)
제 4장 확률과 확률분포 4-1 서론 추측통계학: 표본에 내포되어있는 정보를 이용하여 모집단에 대한 과학적 추론을 하는 학문 ex) 표본평균으로 모평균에 대한 추론을 함 이경우, 추론이 얼마나 믿을만 한가? 본장의 내용(확률)은 이러한 추론의 정확도를 따져주는 논리적 근거 제시 확률: 불확실한 상황에서 어떤일이 일어날 가능성이 어느정도인지 측정 ex) (1) 내일 비올 확률 80%이다. (2) 흡연자가 비흡연자보다 폐암발병 확률이 높다. (3) 월드컵에서 한국이 우승확 확률이 90%이다.
제 4장 확률과 확률분포 4-2 확률의 정의 확률(probability): 똑같은 실험을 무수히 많이 반복할때 어떤일이 일어나는 비율(상대도수의 극한) ex) 윶 횟수 1 3 7 33 67 667 던진 횟수 10 50 100 1,000 10,000 윶의비율 0.1 0.06 0.07 0.067 던진 횟수가 증가함에 따라 에 접근 윶 나올 가능성15번중 1번 을 윶이 나올 확률이라 함 ! ! 상대도수의 극한
제 4장 확률과 확률분포 <예제 4-1> 실험없이 확률계산 가능한 경우 : 동전의 앞면이 나올 확률 앞면과 뒷면이 나올 “가능성”은 같다 앞면 나올 확률은 ½이다. 용어정의 표본공간(sample space): 모든 가능한 실험결과의 집합 <예제4-1>의 표본공간= {앞면, 뒷면} 사상(event): 관심있는 실험결과의 집합 <예제 4-17>에서 관심있는 사상은 {앞면}! 확률의 고전적 정의 표본 공간의 모든 원소가 일어날 가능성은 같다. 사상 A의 확률 = = P(A) 사상A에 속하는 원소의 개수 표본공간 전체 원소의 개수
제 4장 확률과 확률분포 , <예제 4-2> 두개의 동전던지기 한 개의 동전만이 앞면일 확률/ 적어도 한 개의 동전이 앞면일 확률? Sol) - 한 개의 동전만이 앞면일 사상 A - 적어도 한 개가 앞면일 사상 B - 표본공간= { (앞,앞) (앞,뒤) (뒤,앞) (뒤,뒤) } A= { (앞,뒤), (뒤,앞) } B= { (앞,앞) (앞,뒤) (뒤,앞) } , <예제 4-3> 엘리베이터 example p77
제 4 장 확률과 확률분포 4-3 확률의 계산 어떤 사상의 확률계산을 위해서는 표본공간 및 그 사상에 속하는 모든 원소의 수를 세어야 함. 실험 결과 수 많은 경우 , 작업 수행 곤란! 나무가지그림 (Tree graph) 사용. 4-3-1 나무가지그림 참고 <예제4-4> 5마리 경주마 중 3마리 선택 시 1,2등이 포함되어 있을 확률? (“모든말이 뽑힐 가능성이 모두같다” “랜덤하게 추출한다”)
제 4 장 확률과 확률분포 Sol) 나무가지 그림 작성 Page.79 <그림 4-1> 4-3-2 조합 제 4 장 확률과 확률분포 Sol) 나무가지 그림 작성 Page.79 <그림 4-1> P(A) = = 이 방법역시 표본공간이 커지면 불편 ! “조합” 개념 이용 ! 4-3-2 조합 비복원 추출 추출된 것은 되돌려 넣지 않고 추출해나가는 방법 복원 추출 추출된 것을 되돌려 넣고 추출하는 방법 순서에 상관없이 n개중 r개를 뽑는 방법수를 n개중 r개를 뽑는 조합(combination)의 수라함
제 4 장 확률과 확률분포 <예제4-4>를 조합의 개념을 이용하여 풀이 제 4 장 확률과 확률분포 <예제4-4>를 조합의 개념을 이용하여 풀이 전체 방법의 수 : 비 복원 추출로 5중 3을 선택하는 경우의 수 3중 1,2등 포함될 경우의 수 = 1,2등을 제외한 3마리 중 1마리 뽑는 방법의 수
제 4 장 확률과 확률분포 <예제4-5> 불량품 4개가 섞인 50개 제품에서 비복원 방식으로 제 4 장 확률과 확률분포 <예제4-5> 불량품 4개가 섞인 50개 제품에서 비복원 방식으로 랜덤하게 5개를 뽑았을 때 2개의 불량품이 발견될 확률은? Sol) 50개의 제품에서 5개를 뽑는 방법의 수 뽑힌 5개중 불량품이 2개 들어 있을 경우의 수 =전체 불량품 4개중 2개 선택 & 나머지 46개중 3개 선택하는 방법의 수 곱하는이유 경우 각각에 대해 3개 양호 품 뽑는 경우의수 개가존재
제 4 장 확률과 확률분포 4-4 확률의 법칙 주사위 한번 던져서 3의 배수 혹은 2의 배수 확률은? 2개 랜덤 추출 제 4 장 확률과 확률분포 4-4 확률의 법칙 주사위 한번 던져서 3의 배수 혹은 2의 배수 확률은? 위에서 두개 중 적어도 하나가 검은공일 확률? 2개 랜덤 추출 처음공이 흰공 다시넣고 2번째공 추출 처음공이 검은공 검은공 1개 추가해서 넣고 2번째공 추출 처음공이 검은공 & 두번째공 흰공일 확률?
제 4 장 확률과 확률분포 4-4-1 덧셈 법칙 덧셈 법칙 P(A∪B) = P(A) + P(B) – P(A∩B) 제 4 장 확률과 확률분포 4-4-1 덧셈 법칙 A∪ B (사상 A 또는 B가 일어날 사상) A ∩ B (사상 A와 B 가 모두 일어날 사상) 표본 공간 A B A B 표본 공간 덧셈 법칙 P(A∪B) = P(A) + P(B) – P(A∩B)
제 4 장 확률과 확률분포 <예제4-6> 52장의 trump 카드에서 random 하게 한장추출 킹 또는 검은색 무늬 카드 나올 확률은?? Sol) 킹이 나올 사상 : A 검은 무늬 나올 사상 : B ※서로 배반인 사상 (mutually exclusive event) P(A U B) = P(A) + P(B) A B 표본 공간 ∴ P(A∩B) = 0
제 4 장 확률과 확률분포 <예 4-7> 52장 카드 1장 random 추출 킹 or 퀸 나올 확률 Sol)
제 4 장 확률과 확률분포 4-4-2 조건부 확률 주사위 1회 던질때 홀수 확률 = 결과가 4이상 이라는 사실을 아는 경우 = 제 4 장 확률과 확률분포 4-4-2 조건부 확률 주사위 1회 던질때 홀수 확률 = 결과가 4이상 이라는 사실을 아는 경우 = 눈의 수가 4이상인 사상이 주어지고, 눈의 수가 홀수인 사상 조건부 확률 조건부확률 눈의 수가 4이상인 사상을 A, 홀수인 사상을 B 조건부 확률
제 4 장 확률과 확률분포 <예제4-8> 통계학 수강 학생 중 20% 가 A학점 1학년 중 A학점 학생은 전체의 15% , 랜덤하게 뽑은 한 학생이 A학점 일때 그 학생이 1학년일 확률은? Sol) A학점 학생일 사상 = A 1학년 학생일 사상 = B
제 4 장 확률과 확률분포 4-4-3 곱셈법칙 2)번 문제: 위 조건부 확률 법칙으로부터: 제 4 장 확률과 확률분포 4-4-3 곱셈법칙 위 조건부 확률 법칙으로부터: P (A∩B) = P( B l A) P(A) 2)번 문제: P[(첫 번째 검은 공) ∩ (두 번째 흰 공)] =P(두 번째 흰 공 l 첫 번째 검은 공) P(첫 번째 검은공)
제 4 장 확률과 확률분포 독립사상과 종속사상 -독립사상 두 사상 A , B 가 P(B l A) = P(B) 제 4 장 확률과 확률분포 독립사상과 종속사상 -독립사상 두 사상 A , B 가 P(B l A) = P(B) (A 사상이 B사상에 영향 없음) *곱셈법칙 : P(A∩B) = P(A) P(B) -종속사상 P(B l A) ≠ P(B) 일때 <예제4-10> 궁수 두명,명중확률 각각 0.7 ,0.6 모두 명중 확률 = 0.7 × 0.6 = 0.42
제 4 장 확률과 확률분포 4-4-4 여사상과 확률의 분할 법칙 사상A의 여사상 = 제 4 장 확률과 확률분포 4-4-4 여사상과 확률의 분할 법칙 사상A의 여사상 = ex) 주사위 던져 홀수 나올 사상의 역사상은 짝수 나올 사상 3)번문제 : A∪AC 표본공간, A와 AC서로배반 ! !
제 4 장 확률과 확률분포 확률의 문제2) 에서 (“첫 번째 공에 상관없이”라는 말이 숨어 있음) 제 4 장 확률과 확률분포 문제2) 에서 (“첫 번째 공에 상관없이”라는 말이 숨어 있음) 두 번 째 공이 흰 공일 확률은? Sol) P (첫째 공이 흰공 이고 두번째 공이 흰공) +P (첫째 공이 검은공 이고 두번째 공이 흰공) 이제, 첫째 흰공 = A , 둘째 흰공 = B 로 놓으면 P(B) = P(A ∩ B) + P(AC∩ B) = P(B l A) P(A) + P(B l AC) P(AC ) 확률의 분할법칙
제 4 장 확률과 확률분포 <예제 4-11> 평소 말 70% 거짓인 사람을 탐지기로 검사 탐지기 정확도는 90% 그 사람의 대답이 거짓이라는 결과가 나올 확률? Sol) P(거짓이라고 탐지) = P(거짓말 했고 거짓으로 탐지) +P(거짓말 안 했고 거짓으로 탐지) 이제 거짓말 할 사상 = A , 탐지기가 거짓으로 답할 사상 = B로 놓으면 , P(A) = 0.7 , P(AC ) = 0.3 , P(B I A) = 0.9 , P(B I AC ) = 0.1 P(B) = P ( A ∩ B ) + P (∩ B ) = P ( B I A ) P(A) + P ( B I AC ) P( AC) = 0.9 × 0.7 + 0.1 × 0.3 = 0.66
제 4 장 확률과 확률분포 <예제 4-12> 사고 잘 일으키는 그룹 : 1년 안에 사고확률 = 0.4 제 4 장 확률과 확률분포 <예제 4-12> 사고 잘 일으키는 그룹 : 1년 안에 사고확률 = 0.4 사고 잘 안 일으키는 그룹 : 1년 안에 사고확률 = 0.2 & 인구의 30%는 사고 잘 일으키는 성향에 속함. 이때, 새로운 보험 상품 가입자 한 사람이 1년 안에 사고를 일으킬 확률은? Sol) P( 1년 안에 사고 ) = P (사고 잘 내는 성향이고 1년 안에 사고 냄) + P(사고 잘 안내는 성향이고 1년 안에 사고 냄) P(B) = P ( A∩ B ) + P (AC∩ B ) = P ( B I A ) P (A) + P (B I AC) P(AC) = 0.4 × 0.3 + 0.2 × 0.7 = 0.26 B A
제 4 장 확률과 확률분포 4-5 베이즈의 정리 <예제 4-11> 에서 탐지기 조사결과 “거짓 ”일때 이걸 얼마나 믿을 수 있을까? 결과가 “거짓”일 때, 거짓말 했을 조건부 확률 사상A = 거짓말할 사상 , B = 탐지기가 거짓으로 답할 사상 P( A ∩ B ) = P( B I A ) P(A) = 0.9 × 0.7 = 0.63 정리1 P(A ∩ B) =P(A I B) P(B) =P(B I A) P(A) P(A I B)를 구하기 위해 P(B I A)를 이용 또는 역으로도 마찬가지 정리1or정리2(뒤 페이지)
제 4 장 확률과 확률분포 위 문제에서 거짓말 확률은 처음 0.7 에서 0.955 로 개선 정리2 제 4 장 확률과 확률분포 정리2 베이즈의 정리(Bayes theorem) 사전확률! 사후확률! 위 문제에서 거짓말 확률은 처음 0.7 에서 0.955 로 개선 (∴ 탐지기 조사 결과가 반영 됐기 때문 )
제 4 장 확률과 확률분포 <예제 4-13> 범인지문 = 피고지문, 그런 지문은 100명에 1명 제 4 장 확률과 확률분포 <예제 4-13> 범인지문 = 피고지문, 그런 지문은 100명에 1명 현장에는 200명 있었음. 피고가 범죄를 저질렀을 확률? Sol) 범인 = 피고 일 사상을 A ,현장지문 = 피고의 것일 사상을 B 구 하는 확률 P ( A I B ) ! 만약 지문정보 없으면 피고가 범인일 확률 P(A) = (사전확률) 지문정보 있으므로 이 확률을 개선 시킬수 있다 (“사후확률”) 피고가 범인 일 때 지문 일치 할 확률은 1.0 !! 피고가 유죄라고 주장 하기 어렵다 !! 피고가 범인 아닌데 지문 일치할 확률
제 4 장 확률과 확률분포 4-6 이산 확률 변수 확률 변수 ( Random Variable) 제 4 장 확률과 확률분포 4-6 이산 확률 변수 확률 변수 ( Random Variable) 이산 확률 변수 ( discrete random variable ) 카드 52장 중 3장 뽑을 때 나오는 Queen의 수 시험에서 학생이 맞춘 정답 수 etc . 연속 확률 변수 ( continuous random variable ) 신생아의 체중 / 키 학교까지 등교 시간 / 전구의 수명 etc. Χ로 표기 하며, 취하는 값은 χ로 표시 ( 확률 변수 Χ가 특정한 값 χ를 취하는 사상 (Χ = χ) )
제 4 장 확률과 확률분포 ¼ ½ 4-6-1 확률분포 (probability distribution) 제 4 장 확률과 확률분포 4-6-1 확률분포 (probability distribution) : 확률 변수 수 값에 확률을 대응 시키는 관계 <예제 4-15> 두 개의 동전 투척 , 앞면 횟수Χ 확률분포? Sol) ∴확률분포 표본공간 (뒤,뒤) (뒤,앞) (앞,뒤) (앞,앞) Χ의 값 1 2 χ 1 2 P(Χ=χ) ¼ ½
제 4 장 확률과 확률분포 4-6-2 확률변수의 평균과 분산 평균 제 4 장 확률과 확률분포 4-6-2 확률변수의 평균과 분산 평균 2개의 동전 실험에서 , 무수히 실험 반복 시 모집단에서 안 나오는 경우 (χ= 0)은 전체 , 하나앞면은 , 둘 다 앞면은 만큼 존재 확률변수의 평균
제 4 장 확률과 확률분포 <예제 4-16> 복권 상금 이 8천원은 복권 구입 후 기대 할 수 있는 금액 ! 제 4 장 확률과 확률분포 <예제 4-16> 복권 상금 이 8천원은 복권 구입 후 기대 할 수 있는 금액 ! 이를 기대값 (expected value )라 하고 E(X)로 표기 분산과 표준 편차 ※ 전구회사가 전구 평균 수명 1500시간이나 주장, 하나 구입해서 시험해 보니 수명 = 700 시간 , 우연일까 ? 거짓일까 ? 확률변수가 취하는 값이 어느 정도 변동을 갖는가를 측정하는 측도필요 ! 분산 / 표준편차 ! <예제4-17,4-18> p.101 책 내용 설명
제 4 장 확률과 확률분포 4-7 두 확률변수의 결합 분포 제 4 장 확률과 확률분포 4-7 두 확률변수의 결합 분포 : 2개 이상 확률변수가 동시에 취하는 값에 확률을 대응시키는 것을 의미 (joint probability) ※주변확률분포 (marginal probability distribution ) :결합 분포로부터 얻어진 1개의 변수의 확률 분포 ( 표 4-4 , 4-5 ) TV 수 1 2 3 4 0.20 0.15 ‥ 0.10 0.04 자동차 수
제 4 장 확률과 확률분포 <예제 4-19> 동전 3번 투척 , 앞면 수 X , 두번 시행에서 뒤면 수 Y X 와 Y 의 결합 분포 ? X와 Y 의 주변 확률 분포 ? Sol) 결합확률분포표 표본공간 앞앞앞 앞앞뒤 앞뒤앞 뒤앞앞 앞뒤뒤 뒤앞뒤 뒤뒤앞 뒤뒤뒤 X 3 2 1 Y y x 1 2 3 ⅛ ¼
제 4 장 확률과 확률분포 주변확률분포 x 1 2 3 P(X=x) ⅛ ⅜ y 1 2 P[Y=y] ¼ ½
제 4 장 확률과 확률분포 4-7-2 공분산과 상관 계수 공분산 확률변수 x = 영어 성적 y = 국어 성적 z = 체육 성적 제 4 장 확률과 확률분포 4-7-2 공분산과 상관 계수 공분산 확률변수 x = 영어 성적 y = 국어 성적 z = 체육 성적 (X - )(Y - ) 는 양의 값일 가능성 큼 . (같이증감) (X - )(Z - ) 는 양/음 가능성 반반. ( ∵ 영어/국어 는 같이 감 ) 기대값
제 4 장 확률과 확률분포 (X - μx )(Y - μy ) , (X - μz )(Z - μz ) 각각을 확률변수 취급! 제 4 장 확률과 확률분포 (X - μx )(Y - μy ) , (X - μz )(Z - μz ) 각각을 확률변수 취급! 평균을 구하면 , 이는 두 변수 ( X , Y ) 또는 ( X , Z )가 같이 변하는 정도에 대한 측도! Avg[(X - μx )(Y - μy )] > 0 같이 증감. Avg[(X - μx )(Z - μz )] ≈ 0 X , Z 는 무관하게 변함 . 두 확률 변수의 공분산 (covariance): X , Y 가 같이 변하는 정도의 측도 Cov (X , Y) = E [(X - μx )(Y - μy )] = {(X - μx )(Y - μy )P[X = x , Y = y] } ※간편식 Cov (X , Y) = E ( XY ) - μx μy = xy P[X = x , Y = y] - μx μy
제 4 장 확률과 확률분포 <예제 4-20> 예제 4–19 의 X , Y 의 공분산 ? 제 4 장 확률과 확률분포 <예제 4-20> 예제 4–19 의 X , Y 의 공분산 ? Sol) Cov ( X , Y ) = = - 0.5 서로 다른 방향으로 증감 ! 상관계수 ( Correlation coefficient ) 공분산은 단위에 따라 값의 크기가 달라짐 단위 의존도를 없애기 위해 공분산을 두 확률변수의 표준 편차 곱으로 나눔 상관계수 P = Corr ( X , Y ) =
제 4 장 확률과 확률분포 <예제 4-21> Var (X) = σx2 = 0.75 Var (y) = σy2 = 0.5 ∴ P = Corr (X , Y) = 앞의 p.100 분산/표준편차 식 이용! ※ 유의점 공분산 , 상관계수 모두 두 확률변수의 직선 적 관계 (linear)의 정도를 측정 ! (가령 곡선관계를 가지고 있음에도 공분산/상관계수 가“0”인 경우도 있다. (예제4-22))
제 5장 이항분포와 정규분포 5-1 이항분포 베르누이 시행(Bernoulli trial) : 실험결과의 둘 중 하나 ex) 실험결과의 둘 중 하나 양호/불량, 찬성/반대 … <예제 5-1> 5개문항의 정답/오답 선택, 정답의 수(=X) 확률분포? 0 1 2 3 4 5 • 동일한 성공확률울 가진 베르누이 시행을 독립적으로 시행할때 성공의 횟수 : 이항확률변수(binomial random variable) • 성공횟수의 분포 : 이항분포(binomial distribution)
제 5장 이항분포와 정규분포 ※ 이항확률변수의 특징 (a) n번의 베르누이 시행이 독립적으로 시행된다. (b) 각 베르누이 시행에서 성공확률은 동일한 값 P (c) 이항확률변수는 베르누이 시행의 반복에서 성공의 횟수 n번의 시행에서 성공횟수 일 확률 구하는 문제 • … + … 성공 번 실패 번 • … … 성공 ( -1)번 실패 성공 실패
제 5장 이항분포와 정규분포 n번 실험에서 번의 성공확률 이항분포 <예제5-2> 주식값 예측 맞을 확률 = , 20개 종목의 등락 예측할 때 14개 맞을 확률? 풀이) 성공확률이 인 20번의 베르누이 시행!
제 5장 이항분포와 정규분포 누적확률 :어떤 한점까지의 확률을 모두 더한것 ex) 일반적으로
제 5장 이항분포와 정규분포 <예제5-3> 나사못 불량확률 = 0.01, 10개 한묶음 판매, 불량이 1개보다 많으면(2개이상) 반품가능 한 묶음이 반품될 확률? 풀이) 불량품개수 = X, 반품되는 사건은 10개중 2개 이상 불량
제 5장 이항분포와 정규분포 <예제5-4> (예제5-2)에서 옳은 예측수가 12~14개일 확률? 15개일 확률? 풀이) p.500의 부록<표3> •
제 5장 이항분포와 정규분포 5-1-2 이항분포의 평균과 분산 <예제5-1> ∴
제 5장 이항분포와 정규분포 <예제5-5> 항공권예약 승객 중 10%가 예약 취소, 항공권예약 승객 1000명일 때 이 중 몇 명이 예약 취소할 것으로 기대되나? 예약취소 승객수의 표준편차? 풀이) 예약취소 실험결과“성공”으로 간주 ∴
제 5장 이항분포와 정규분포 5-2 정규분포 5-2-1 확률밀도함수 ▪ 연속적으로 값이 변화하는 관측대상(ex:키/몸무게…) <예제5-1> 초등학생 100명의 키(랜덤추출) <그림 5-1> 간격세분 <그림 5-2>계속 간격을 줄이면 <그림 5-3>
제 5장 이항분포와 정규분포 그 점을 중심으로 확률이 어느 정도 밀집돼 있나를 나타냄 ( 높이는 그 값을 변수X가 어떤값 x주위를 x-a와 x+1사이 값 취할 확률 ※ a가“0”에 가까워 지면 면적(확률)은 0이 됨 이때 graph의 높이는? 그 점을 중심으로 확률이 어느 정도 밀집돼 있나를 나타냄 ( 높이는 그 값을 x-a x x+a 취할 확률이 아님) 그래서 확률밀도라고 함
제 5장 이항분포와 정규분포 확률밀도함수 전체의 넓이 = 1 a b
제 5장 이항분포와 정규분포 5-2-2 정규분포(nomal distribution) : 연속확률분포, 좌우대칭 <특징> (1) 종모양, 평균을 중심으로 대칭 (2) 평균주위값 많이 취하며, 좌우 표준편차 3배이상 떨어진 값은 거의 취하지 않음 (3) 평균과 표준편차에 의해 완전히 결정 (평균과 표준편차가 같은 두개의 다른 정규분포는 존재 할 수 없음)
제 5장 이항분포와 정규분포 정규분포의 확률밀도 함수 ※ 여러형태의 정규분포 -2 0 3
제 5장 이항분포와 정규분포 • 정규확률변수가 어떤 범위의 값 취할 확률계산 : 매번 밀도함수 사용은 번거로움! 표를 이용 (부록 표5) (정규확률변수로 변환!) (평균 = 0, 표준편차는 = 1인 정규분포) 위 그림의 (b) (a), (c)의 확률변수를 X1, X2라 하면, (X1+2)/0.5, (X2-3)/2의 분포와 같음 <표5> : Z
제 5장 이항분포와 정규분포 <예제5-7> 평균 20, 표준편차 5 인 정규분포 풀이) 는 정규분포를 따름! 풀이) 는 정규분포를 따름! (a) = 1-0.9772 <표5>=0.0228 0 2
제 5장 이항분포와 정규분포 = 1-0.8413 = 0.1587 (c) -2 1 = 0.8413 - {1-0.9772} (b) = 1-0.8413 = 0.1587 (c) -2 1 = 0.8413 - {1-0.9772} = 0.8185
제 5장 이항분포와 정규분포 <예제5-8> 대학생 키 평균 171cm, 표준편차 5cm 정규분포 풀이) 뽑힌 학생의 키 = X 근사적으로 정규분포를 따름!
제 5장 이항분포와 정규분포 <예제5-9> 표준정규확률변수 Z가 Z0보다 클 확률이 0.2인 Z0는? 풀이) 0.2 Z0=? 부록 <표-5>에서 확률 0.8에 해당되는 Z0값 찾기! ∴ 대략 Z0 ≒ 0.84
제 5장 이항분포와 정규분포 <예제5-10> 과거자격시험 성적분포 : 평균 70, 표준편차 8인 정규분포 올해 시험도 비슷한 수준 출제, 상위30% 합격시키고자 함 몇 점을 받아야 합격? 풀이) 0.30 Z0 X0를 구함! <표준정규확률 분포도>
제 5장 이항분포와 정규분포 과거성적 = X 은 근사적으로 정규분포 따름. 상위 30%의 가장낮은점수 = X0
제 6장 표본분포 6-1 서론 여론조사 : 전체조사 없이 일부만 추출조사 이 경우의 여론과 유권자전체여론 사이의 관계? • 모집단 전체조사 불가능한 경우가 대부분 표본조사 • 표본은 모집단의 일부 오차가 수반됨 ∴ 모집단을 잘 대표하는 표본을 추출해야 함 + 표본정보와 모집단정보간의 관계 모집단 특성이해 용이 • 통계적 추론 : 표본을 추출하고, 표본으로부터의 정보를 해석하는 방법
제 6장 표본분포 6-2 랜덤추출법 6-2-1 랜덤표본 • 모집단 전체를 잘 대표하는 표본은 랜덤하게 뽑혀져야 함 ▪ 랜덤추출법과 랜덤표본 모집단의 모든 원소가 표본으로 뽑힐 확률이 같도록 표본을 추측하는 방법을 랜덤추출법 또는 임의추출법(Random Sampling) 이라 한다. 이러한 방법으로 추출된 표본을 랜덤표본이라 한다.
제 6장 표본분포 <예제6-1> (a) 비복원추출 : 모집단{a, b, c}, 표본의 크기2 비복원추출 가능한 표본 (a, b) (a, c) (b, c) 실제표본이 될 확률 a, b, c가 각각 표본으로 뽑힐확률은 모두 로 같다! 비복원추출로 랜덤하게 뽑는 방법은 랜덤추출법이다!
제 6장 표본분포 (a) 복원추출의 경우 가능한 표본 (a, b) (a, b) (a, c) (b, a) (b, b) (b, c) (c, a) (c, b) (c, c) 표본될 확률 - a, b, c가 2번 들어갈 확률은 로 모두같다! - a, b, c가 1번 들어갈 확률은 로 모두같다! 복원추출로 랜덤하게 뽑는 방법은 랜덤추출법이다.
제 6장 표본분포 6-2-2 난수표 사용 • 난수표(Random number table) : 0~9 숫자가 의 상대도수로 랜덤하게 나열되어 있는 난수(Random number)들의 모임 부록<표1> : 10000개의 난수 ex) 난수표 사용, 5000명 학생에서 100명 비복원추출로 뽑는 방법 STEP1) 5000학생 1번에서 5000번까지 부여 STEP2) 난수표의 시발점(페이지, 행,열) 랜덤선택 STEP3) 100명 학생번호 모두 뽑힐때까지 아래로 네자리 나수 읽어 나감 STEP4) 뽑혀진 번호의 학생을 표본으로 삼음
제 6장 표본분포 6-3 표본분포 6-3-1 표본분포란? • 모수 : 모집단을 묘사하는 특정 값. (모집단의 평균, 분산 등) 난수표 33행 24열 : 0949, 8144, … 중복되거나 5000넘는 것 버리면서 100개 6-3 표본분포 6-3-1 표본분포란? • 모수 : 모집단을 묘사하는 특정 값. (모집단의 평균, 분산 등) • 통계량 : 표본으로부터 계산되는 표본의 특성 값 • 표본분포 : 한 모집단에서 같은 크기로 뽑을 수 있는 모든 표본에서 통계량을 계산할 때, 이 통계량이 이루는 확률분포
제 6장 표본분포 6-3-1 평균의 표본분포 • 상자 안에 1, 2, 3, 4 숫자 씌어진 카드4장에서 2장을 랜덤하게 뽑아 평균을 구하는 경우 → 모집단{1, 2, 3, 4}에서 크기가 2인 랜덤표본을 뽑아 평균을 구하는 것 모집단의 확률분포 : <표6-2> p.161 ① 비복원추출시 랜덤표본과 평균 : <표6-2> 평균의 표본분포 : <표6-3> ② 복원추출시 랜덤표본과 평균 : <표6-4> 평균의 표본분포 : <표6-5>
제 6장 표본분포 6-3-3 표본평균의 기대 값 : (모집단평균)와 (표본평균)간의 관계 : (모집단평균)와 (표본평균)간의 관계 • 는 뽑혀진 표본에 따라 값이 달라지는 확률변수 의 확률분포의 평균 = 표본평균 의 기대 값 <표6-3><6-5> ▪ 모평균 ↔ 표본평균간 관계 모평균 인 모집단에서 크기 n인 랜덤표본 추출시 , 표본평균 에 대하여
제 6장 표본분포 ex) 위 <표6-3><6-5>에서 ←<표6-1> 6-3-4 표본평균의 분산 • 비복원추출의 경우 • 복원추출의 경우
제 6장 표본분포 모분산과 표본평균의 분산과의 관계 모분산 , 크기N인 모집단에서 크기n인 랜덤표본 뽑을때 비복원 : 복원 : 표본평균 에 대하여 비복원 : 복원 : ex) N=4, n=2, <표6-1>에서
제 6장 표본분포 <예제6-3> 대학 남학생 전체 2000명, 평균신장 170cm 분산 9cm, n=50인 표본 랜덤추출시 표본평균의 분산 비복원 : ≒ 0.1756(cm) 복원 : 모집단의 크기N이 n에 비하여 매우 클때, 이므로 비복원, 복원의 의 값은 근사적으로 같다 ※ 표본평균의 표준편차 또는 를 표준편차(Standard error)라 함
제 6장 표본분포 <예제6-4> 전구수명 표준편차 = 150시간, 100개 전구 랜덤 추출 시 표본평균의 표준오차? 모집단은 무한 모집단이므로 비복원/복원 모두
제 6장 표본분포 6-4 표본분포의 모양과 중심극한정리 6-4-1 정규모집단의 경우 ▪ 평균의 표본분포 ( 정규모집단의 경우 ) 모집단의 분포가 정규분포 일 때, 표본평균 는 정규분포 을 따른다. 평균의 표본분포 모집단의 분포
제 6장 표본분포 <예제6-5> 대학생 신장 평균 167.5cm, 표준편차 5cm인 정규분포를 따름. 100명 학생 랜덤 추출하여 평균신장 측정 시 169cm이상일 확률? 풀이) 비 ※ 한 학생키 169cm이상일 확률 교
제 6장 표본분포 6-4-2 비정규 모집단의 경우 ※중심극한의 정리 (Central Limit Theorem) 평균이 분산이 σ2인 무한 모집단에서 크기 n인 랜덤표본 추출시, n이 충분히 크면 모집단 분포에 관계없이 표본평균 x는 근사적으로 N(μ, σ2/n)을 따른다. <예제6-6>난수표에서 크기5인 100개 랜덤표본을 복원추출로 뽑는 경우 난수표는 0 ~ 9가 1/10의 상대도수로 랜덤 나열된 난수 모임 1/10 X 0 1 2 3 4 5 6 7 8 9
제 6장 표본분포 ※표본평균 의 100개 관측값에 대한 히스토그램 X 0 1 2 3 4 5 6 7 8 9 ※표본평균 의 100개 관측값에 대한 히스토그램 0 1 2 3 4 5 6 7 8 9 X 크기5에 불과하나 정규분포에 가까움
제 6장 표본분포 ※비대칭모집단의 경우(u=3 , 10일때 분포 예시) n=10일때 n=3일때 모집단
제 6장 표본분포 <예제6-7>대기업 남자사원 표준체중 68kg, 표준편차3kg Sol) 중심극한에 의하면 : ANS.
제7장 추 정 통계적 추론 (Statistical inference) 통계추론의 종류 7-1 서론 통계적 추론 (Statistical inference) :모수에 대한 판단을 위해 표본을 추출하여 데이터를 분석하며 통계이론에 의한 결론을 내리는 것 통계추론의 종류 추정(estimation): 표본을 이용하여 모집단의 어떤 값을 추측하는과정 가설검정(hypothesis testing): 모집단에 대한 예상/주장의 옳고 아님을 판단하는 과정 『8장』
제7장 추 정 7-2 점 추정과 구간추정의 개념 점추정 (Point estimation): 모수를 하나의 값으로 추정 (ex; 모평균 u 추정을 위해 표본평균 이용) 구간추정(Interval estimation): 모수가 포함되리라고 기대되는 범위를 구하는 것 오차의 개념이 나타나지 않음 단점 보안
제7장 추 정 7-3 점 추정 7-3-1 모평균의 추정 모평균의 추정량 표본평균 표본평균 X의 성질 7-3 점 추정 7-3-1 모평균의 추정 모평균의 추정량 표본평균 표본평균 X의 성질 ( 는 의 불편추정량 ) 표준오차: ※일반적으로: Θ의 추정량 Θ에 대하여 E(Θ)= Θ일때, Θ을 Θ의 불편추정량(unbiased estimator)라 함 ② Θ의 표준편차 추정값 SE(Θ) 를 Θ의 표준오차라함 추정
제7장 추 정 ※표준오차의 의미 (표본평균 의 예) : 의 값이 모평균 μ로 부터 표준편차 거리내에 있는 값을 취할 확률(가능성)은 68.3%이다. <예제7-1> (교재 p.191-192)
제7장 추 정 7-3-2 모분산과 모표준편차의 추정 : 데이터 퍼짐을 나타낼수 없음 (제곱합)을 사용! 표본분산(Sample variance) (X1, X2, .....Xn:평균 분산 인 모집단에서 의 랜덤표본) 자유로(deqree of freedom)
자유도(degree of Freedom)에 관하여.. 통계에서 우리가 쓰는 평균, 분산과 같은 것들은 추정량 이라고 합니다.. 통계에는 좋은 추정량의 조건이 몇가지가 있습니다.. 불편성 일치성 등등 그 중 불편성이란, 그 통계량이 그 모수값을 실제로? 나타내고 있는가에 관한 조건이에요. 이 조건이 맞게되면 이 추정량을 불편추정량! 이라고 하고 좋은 추정량을 쓰게 된답니다. 흔히 우리가 사용하는 평균 역시 불편추정량이에요, 하지만 우리가 아는 분산의 공식이 2가지가 있죠? n으로 나눈 분산과 n-1로 나눈 분산. 이중 n으로 나눈 분산은 불편추정량이 아니랍니다. n-1로 나눈 분산의추정량이 불편추정량, 즉 더 좋은 추정량이 되는거에요 ~~ n으로 나눈 분산은 일치추정량? 인가 그럴거에요. 그렇기에 우리가 더 좋은 추정량을 구하기 위해서 자유도로 나눈답니다.. 자유도,에 대해서 그냥 간단하게 설명하자면 말그대로 우리가 n개의 표본을 가지고 있고 그에 대한 표본평균값을 알고있을때 자유로운 갯수가 n-1개라서 그래요. 예를들어 1,2,3,4,5 의 5가지 표본이 있고 이들의 평균이 3이라고 합시다. 그때 우리가 만약 5번째의 표본 5가 표본이 없었더라 하면, 1,2,3,4,? 의 평균이 3이 되는것이지요. 이때 다섯번째숫자는 자유롭지가 못해요(5로 정해져있거든요) 그렇기에 자유로운 숫자는 4개밖에 없구.. 자유도는 n-1이 된답니다
제7장 추 정 ※ 모분산 / 모표준편차 추정량 1) 모분산의 추정량 표준분산 E(S2 )= σ2 2) 모표준편차의 추정량 표본표준편차 <예제 7-3> 교재p195 “S2 은σ2의 불편추정량”
제7장 추 정 7-3-3 모비율의 추정 ※모비율: 모집단에서 특정속성을 갖는것의 비율 (ex:불량률, 시험률,찬성률) ▪ 특정속성 모비율 P인 무한 모집단에서 n개 표본 추출하여 그 속성을 갖는 것의 개수를 X라 하면, X는 이항분포 B(n, p)를 따름. ▪ 모비율 P의 추정량: 표본 비율 P= 을 사용 표본비율 P의 성질 ① E( P )= P( P 는 P의 불편 추정량 ) ② 표준오차:
제7장 추 정 7-4 구간추정 7-4-1 대표본에서 모평균의 신뢰구간 *표준정규분포 확률변수 Z에 대하여 Za는 P(Z > Za) = 를 만족하는 점 (오른쪽 꼬리 면적이 인 점) *표본평균 에 대하여; 0 Za -Za/2 0 Za/2
제7장 추 정 ∴정규분포에서 σ를 알때, 모평균 μ의 100( 1- α )% 신뢰구간은: ※100(1 - α )% 상하한: ( μ의 추정량) ±Za/2 (추정량의 표준오차) n이 충분이크면 μ의 추정량 표준편차
제7장 추 정 <예제7-5> 철선 평균 인장강도를 추정 해야한다! 30개 표본 추출 결과; 표본평균/표준편차가 =62.5 , S=3.75 평균인장강도( )에 대한 95% 신뢰구간은? Sol) Za/2 * = 62.5 Z0.05/2 * =62.5 Z0.025 * = 62.5 1.34 ∴ 가 구간 (61.5 , 63.84)에 포함될 것을 95% 신뢰할수 있다!)
제7장 추 정 7-4-2 소표본에서 모평균의 신뢰구간 *표본의 크기 n이 작은경우에는 Z= 에서 대신 S를 대입한 것이 정 규분포 보다 크게 다를 수 있음 t - 분포 사용! *t분포: X1, X2, ……, Xn이 N( , )에서의 랜덤 표본일때, t = 은 자유도 n-1인 t분포를 따른다. ※t분포는 0을 중심으로 좌우 대칭이나 정규분포 보다는 두터운 원리! (자유로가 커짐에 따라 (n이 커짐에 따라) 정규분포에 가까워 짐) 정규분포 t분포
제7장 추 정 *자유도 n인 t분포 t(n) P(t > ta(n) ) = (우측 꼬리 면적 인 점 => ta(n) *부록<표6>:여러 자유로에 대한 t분포표 *소표본에서 모평균 의 100(1- )% 신뢰구간 p t(n) ta(n)
제7장 추 정 <예제7-9>TV프로그램 시청률조사, 1200명 랜덤추출 전화조사결고 450명이 시청중 이 프로그램 시청률에 대한 95% 신뢰구간? Sol) 표준오차 ∴
제7장 추 정 7-5표본 크기의 결정 7-5-1 모평균 추정시 표본크기 결정 *주어진 정밀도를 만족시키기 위한 표본크기의 결정 (표본이 클수록 허용높고 정밀도는 높아짐) 7-5-1 모평균 추정시 표본크기 결정 *X1, X2, …,Xn 이 평균 , 분산 인 모집단에서의 랜덤 표본일때 의 100(1- )% 신뢰구간은 에서 의 의미: 오차가 이것보다 작을 가능성이 100(1- )%임을 의미! 를 추정에서 100(1- )%오차의 한계라 함 *과거 데이터로 부터 를 알 경우, 오차한계를 d로 하기위한, (신뢰구간의 길이를 2d로 하기위한)표본의 크기 n은:
제7장 추 정 ※ 를 모를 경우; 작은 크기 예비표본 추출하여 추정하여 사용 ※ 를 모를 경우; 작은 크기 예비표본 추출하여 추정하여 사용 <예제7-2> 라면 내용물 무게가 80g으로 표시되어 있다. 사전조사로 10개 표본을 랜덤 추출하여 무게 측정결과 =78.5g, S=6.5g 이었다. 평균 무게 추정시 90% 오차한계까 2g 이내가 되기 위한 표본크기? <Sol> ∴필요한 표본크기 n=29 *구어 표본 설명 “아직 결과를 모르지만 표본크기를 29이상으로 하면, 평균무게가 불평균 와 비교하여 2g이내에 있을 것을 90%확신한다.”
제7장 추 정 7-5-2 모비율 추정에서 표본크기 결정 *대표본에서 표본 비율 의 100(1- )% 오차의 한계는 ; *대표본에서 표본 비율 의 100(1- )% 오차의 한계는 ; *오차한계를 d이내로 하기위한 표본크기 n은: ※P에 대한 정보 전혀 없을때; (∵ )
제7장 추 정 <예제7-13> 선거시 특정후보 지지율조사, 지난번 조사결과42%, 지지율의 95%(추정)오차한계가 3%이내가 되기 위한 표본크기? Sol)
제7장 추 정 7-6두 모집단의 비교 7-6-1대표본에서 두 모평균의 차에 관한 추정 *통계량 ( )의 기대값 = *통계량 ( )의 기대값 = ( )의 분산 = *두 모평균 간의 차이 추정 ① 의 추정량: ②표준오차: 표본크기 표본평균 표본분산 모집단1 n1 모집단2 n2
제7장 추 정 대표본에서 의 100(1- )% 신뢰구간 <예제7-15>① 추정값: =75.0 – 71.2 = 3.8 표준오차 : ② 의95% 신뢰구간; =3.8 1.96(1.90) = (0.08 , 7.52)
제8장 검 정 8-1 서론 :모집단 분포의 모양이나 모수에 대한 가설을 세우고, 표본에 가설검정(hypothesis testing) :모집단 분포의 모양이나 모수에 대한 가설을 세우고, 표본에 기초하여 가설의 채택이나 기각을 결정하는 통계적 기법 표본오류의 허용확률: 오류에 가능성을 사전에 관리 (ex: 마술사가 마술을 10번해서 우연히 9번이상 성공할 확률?) 초능력이 없는데 있다고 하는 주장을 받아들이는 오류를 범할 가능성? 허용확률을 미리 정해놓고, 그에 따라 몇번이상 맞추면 초능력이 있다고 결론을 내릴 것인가 결정
제8장 검 정 새로운 공업이 개발되어 수명이 길다고 주장! 이를 확인하기 8-2 검정의 원리 전구 생산 공정은 평균시간 1200시간으로 품질관리 해왔음. 새로운 공업이 개발되어 수명이 길다고 주장! 이를 확인하기 위해 100개를 표본추출, 평균수명 X = 1220 S=100시간 신공업에 의한 평균수명이 기존 수명보다 길어졌다고 확실 할 수 있는가? 가설설정 H0: u = 1200 귀무가설(null hypothesis) H1: u > 1200 대립가설(alternative hypothesis) X 값이 충분히 크면 H1을 채택해야하는데, 얼마나 커야하나? Z통계량으로 변환한다 Z = (X-1200)/10 (표준편차 S/ n = 100/ 100 = 10) =>X가 충분히 커서 Z값이 측정한 Za보다 커지면 Ho를 기각하고 H1을 채택함
제8장 검 정 가능성을 의미 (제 1종류 – Type I error) =>유의수준 Z a = Z0.05 = 1.645 이때의 “x”는; H0가 참인데도 불구하고 우연히 X가 커졌고 따라서 다 커지는 바람에 H1을 선택하고 H0를 기각하게 되는 오류를 범함 가능성을 의미 (제 1종류 – Type I error) =>유의수준 *가령, 위에서 x= 0.05 (제1종 오류 가능성 5%)로 하면; Z a = Z0.05 = 1.645 ∴표본으로부터 계산된 Z값이 1.645보다 크면 H0를 기각하고 H1을 선택 Z = (X – 1200)/10 = 20/10 = 2.0 >1.645 ∴H0를 기각 / H1을 선택 (새공법에 의하면 평균수명이 증가) ※ Type Ⅱerror ;H1이 참인데 H0를 택하는 오류확률 ∴Type I <-> Type II는 Trade off 관계 기각역
제8장 검 정 *정리 : 겅정문제 풀이 단계 1. H0 , H1 설정 2. 유의수준 a설정 3. 검정 통계량 선택 4. 기각역 구하기 5. 주어진 데이터로부터 유의성을 판정, 결과를 해석 단측검정과 양측검정 단측: 대립가설에서 모수영역이 한쪽으로만 주어지는 검정 (one-side test) 양측: 대립가설에서 모수영역이 양쪽으로 주어지는 검정 (two-side test)
제8장 검 정 (ex 모수 세타에대한 검정 귀무가설; H0 ; = 대립가설; H1: > H1: < H1: ≠ 단측검정 양측검정
제8장 검 정 8-3-1 대표본에서 모평균의 검정 귀무가설 H0 ; u = u0 검정통계량 기각역 (i) H1 : u > u0 -> Z ≥ Za (ii)H1 : u > u0 -> Z ≤ -Za (iii)H1: u ≠ u0 ->│Z│ ≥ Za/2 (i) (ii) (iii) 기각역 기각역 Za -Za -Za Za
제8장 검 정 ∴ 검정에서 사용하는 대표적인 Za값 (i) a = 0.05 Za = Z0.05 = 1.645 Za/2 = Z0.025 = 1.96 (ii) a = 0.01 Za = Z0.01 = 2.326 Za/2 = Z0.005 = 2.576 (iii) a = 0.10 Za = Z0.10 = 1.282 Za/2 = Z0.05 = 1.645 <예제8-1> 통조림공장 내용물 무게 350g으로 표시; 평균무게 360g관리 확인을 위해서 랜덤하게 30개 표출 X = 356g S = 10g 공정에 이상있는지 유의수준 5%에서 검정하라
제8장 검 정 1. 귀무가설 H0: μ = 360g 대립가설 H1: μ < 360g 2. 유의수준 a = 0.05 Sol) “공정에 이상이 있다” “μ < 360g이다” 1. 귀무가설 H0: μ = 360g 대립가설 H1: μ < 360g 2. 유의수준 a = 0.05 3. 검정통계량 4. 기각역 Z ≤ –Z0.05 = -1.645 5. 검정통계량 관측값 ∴H0기각 “공정에 이상이 있다”
제8장 검 정 <예제8-2> 어느 특수 컴퓨터칩 생산회사에서는 칩의 평균수명에 대하여 15000시간 이상을 보증한다고 선전하고 있다. 이를 확인하기 위하여 100개의 칩을 단축실험으로 검사한 결과 x = 15200(시간), s = 1220(시간)을 얻었다. 이 회사의 선전을 믿을 수 있는가? 유의수준 1%에서 검정 <예제8-3>어느 치즈 스팸 통조림에는 치즈함량이 12.5%라고 표시 이를 확인하기 위하여 64통을 조사한 결과 치즈함량이 x = 11.5(%), s = 2.0(%)이었다. 이 통조림의 내용물 함량표시는 정당하다고 할 수 있는가? 유의수준 5%에서 검정
제8장 검 정 <예제8-2> soln) 1.귀무가설H0 ; u = 15000 대립가설H0 ; u > 15000 2.유의수준 a = 0.01 3.검정통계량 Z = (X-u0)/(S/ n ) 4.기각역 Z ≥ z0.01 = 2.326 5.검정통계량 관측값은 Z = (X-u0)/(S/ n ) = (15200-15000)/(1220/ 100) =1.64 ∴Z=1.64<2.326이므로 유의수준 1%에서 H0를 기각하지 못한다 즉, 이 자료에 의하면 평균수명이 15000시간 이상 이라고 보증할수 없다 0.01 2.326
제8장 검 정 <예제8-3> soln) 1. 귀무가설 H0 : u = 12.5 대립가설 H0 : u ≠ 12.5 2. 유의수준 a = 0.05 3. 검정통계량 Z = (X-u0)/(S/ n ) 4. 기각역 │Z│≥ z0.025 = 1.96 5. 검정통계량의 관측 값 Z = (X-u0)/(S/ n ) = (11.5-12.5)/(2.0/ 64) = -4.0 ∴│Z│= 4.0>1.96이므로 유의수준 5%에서 H0를 기각한다. 즉, 내용물의 함량표시는 적당하지 않다. 0.025 0.025 -1.96 1.96
제8장 검 정 8-3-2 소표본에서 모평균의 검정 t-test (t-검정) 귀무가설 H0 : u = u0 검정통계량 기각역 (i) H1 ; u > u0 -> t ≥ t a(n-1) (ii) H1 ; u < u0 -> t ≤ -t a(n-1) (iii) H1 ; u ≠ u0 ->│t│ ≥ t a/2(n-1)
제8장 검 정 <예제8-6>1987년 가구소득 654만원, 어느마을 평균 소득이 전국소득과 차이가 있는지 알아보기 위해 10가구 추출 조사 = 620만원, S = 120만원 유의 수준 10%에서 검정하라! Sol) 1.귀무가설 Ho: μ = 654 대립가설 H1: μ ≠ 654 2. 유의수준 μ = 0.10 3.검정통계량 4.기각역 ∴Ho기각 “이 마을의 평균 소득은 전국 평균과 다르다”
감사합니다 수고 하셨습니다 ^_^