기 초 통 계
목 차 ❖ 1 장. 서 론 ❖ 2 장. 표와 그림을 통한 자료의 요약 ❖ 3 장. 수치를 통한 연속형 자료의 요약 목 차 ❖ 1 장. 서 론 ❖ 2 장. 표와 그림을 통한 자료의 요약 ❖ 3 장. 수치를 통한 연속형 자료의 요약 ❖ 4 장. 두 변수 자료의 요약 ❖ 5 장. 확 률 ❖ 6 장. 확률분포 ❖ 7 장. 이항분포와 그에 관련된 분포들 ❖ 8 장. 정규분포 ❖ 9 장. 표집분포 ❖ 10 장. 통계적 추론 ❖ 11 장. 정규모집단에서의 추론 ❖ 12 장. 두 모집단의 비교 ❖ 13 장. 회귀분석 ❖ 14 장. 분산분석 ❖ 15 장. 범주형 자료 분석
통계적 추론 관심대상 통계적 추론이란 : 표본이 갖고 있는 정보를 분석하여 모수에 관한 결론을 유도하고 모수에 대한 가설의 옳고 그름을 판단하는 것을 말한다. (추정,검정) 관심대상 모집단
점추정 추출된 표본으로부터 모수의 값에 가까우리라 예상되는 하나의 값을 제시하는 것이다. 추출된 표본으로부터 모수의 값에 가까우리라 예상되는 하나의 값을 제시하는 것이다. eg) : 중학교 3학년 남학생의 평균키 (p.260참고) : 추정값 이유? * 추출된 표본의 평균을 이용 : 추정량 : 추정하는데 쓰이는 통계량 : 표본의 함수 (표본이 주어지면 하나의 값이 주어진다.) 추정치 : 하나의 표본에 대응되는 추정량의 수치 : 추정량 : 추정치 ex) 두개의 모집단: A- 2 2 3 3 4 2개 추출 의 값이 비슷하다 B- 0 1 2 4 6 의 값이 상대적으로 퍼져있다. 오차의 정도를 표현해주는 것이 필요하다.
구간추정 표본으로부터 모수를 포함하리라 예상되는 구간을 구하여 제시하는 것이다. 신뢰구간 : 표본으로부터 개별의 신뢰구간이 구하여진다. 통계량 분포가 필요
검정 모수에 대한 가설이 적합한지를 추출한 표본으로부터 판단하고자 하는 것이다.
(표본의 크기가 클 때) 모평균의 추정 추정량( Estimator ) 예 제 eg) 30명의 중3 남학생 평균키 : 평균이 이고 분산이 인 모집단으로부터 추출된 표본 추정량( Estimator ) eg) 30명의 중3 남학생 평균키 : 표준오차 - 추정량의 표준편차 (Standard Error; ) 추정량의 정확도를 재기 위해서 표준 오차를 계산 표본의 크기가 클수록 좀더 정확한 추정이 가능하다. 단, 가 미지수일 때는 를 로 대체한다. 예 제
표본의 크기가 클 때 모평균의 구간 추정 에 대한 구간추정 ; 를 이용 : 평균이 이고 분산이 인 모집단으로부터 추출된 표본 에 대한 구간추정 ; 를 이용 : 신뢰구간 => 짧을수록 좋다. ( 단, 모수를 포함할 확률; 신뢰도, 신뢰수준(90%, 95%, 99% 등)이 일정할 때 )
신뢰구간의 도출 이 클 때 중심극한정리에 의하여 1- 신뢰구간 : 오차범위 (error margin)
신뢰구간의 비교 예 제 가 미지수일 때 대신 를 이용한다. 신뢰구간 : 가 작을수록 이 클수록 신뢰구간이 짧다. 이 클수록 신뢰구간이 짧다. 신뢰수준이 낮을수록 가 미지수일 때 대신 를 이용한다. 신뢰구간 : 예 제
신뢰구간의 의미 표본을 여러 번 추출하여 신뢰구간을 계속 구하면 그 중 모평균을 포함하는 구간의 비율이 에 가까워진다. 표본을 여러 번 추출하여 신뢰구간을 계속 구하면 그 중 모평균을 포함하는 구간의 비율이 에 가까워진다. 95%: 10000번 중 약 9500번 정도 포함
표본 크기의 결정 원하는 정확도를 얻을 수 있는 범위 내에서 가능한 작은 표본의 크기를 원한다. 원하는 정확도 : 정해진 크기의 오차범위 (신뢰구간의 길이) Want : 중심극한정리를 이용할 수 있도록 은 30 이상이어야 한다. 가 미지수일 때 : 이용 ? 표본 추출 ? 소규모 예비표본 => 계산. 이로부터 을 구한다 => 은 30 이상이어야 유효함. 예 제1 예 제2
표본의 크기가 클 때 모평균에 대한 검정 - 1 Q : 도시 보건당국의 캠페인이 성인의 콜레스테롤 수치를 줄이는 데 효과적인가? 캠페인 시작 전의 성인의 콜레스테롤 수치의 분포 캠페인 이후의 성인의 평균 콜레스테롤 수치 : 증명하고자 하는 것? 캠페인 후 -> 40명의 콜레스테롤 수치 조사 : 아주 작으면 즉, 캠페인 이전의 분포였다면 나오기 힘든 정도로 작은 수치를 얻었다면 캠페인에 효과가 있다고 판단한다.
표본의 크기가 클 때 모평균에 대한 검정 - 2 만약 새로운 사료가 기존 사료와 별 차이가 없다면 : 나오기 힘든 수치 만약 새로운 사료가 기존 사료와 별 차이가 없다면 : 나오기 힘든 수치 콜레스테롤 양을 줄이는 데 효과가 있다. 효과가 있다고 할 충분한 증거가 없다. 200
가설 두 개의 가설 : 주장하고자 하는 가설 – 대립가설 (Alternative hypothesis; ) eg. 주장할 수 없을 때 받아들이는 가설 – 귀무가설 (Null hypothesis; ) 표현 (eg)
오류의 종류 가능한 검정의 결론 : 가 옳다고 주장한다 : 를 기각하고 을 채택한다. 가 옳다고 주장한다 : 를 기각하고 을 채택한다. 가 옳다고 주장하지 못한다 : 를 기각할 수 없으므로 를 유지한다. *주장하기에 앞서 신중할 필요 제 1종 오류에 주의!! 결론 실제상황 를 기각 를 기각하지 않음 가 맞다 오류(제1종 오류) 옳은 결론 가 틀리다 오류(제2종 오류)
검정통계량 표본으로부터 검정의 결론을 유도 => 이때 이용되는 통계량 : 검정통계량 에 대한 검정을 위해 를 이용 에 대한 검정을 위해 를 이용 검정통계량 : 표준화된 형태를 사용하는 것이 바람직함 :
기각역 (Rejection region) 를 기각하게 하는 검정통계량이 취하는 구간. 기각역의 결정 : 를 주장하고자 할 때 오류를 적게 하도록 : 제 1종 오류의 확률( ) 제 2종 오류의 확률( )
제 1 종 오류와 제 2 종 오류의 확률 <제 1종, 제 2종 오류의 확률> 와 를 동시에 줄일 수 없다. 200 200 200 195 195 195 <제 1종, 제 2종 오류의 확률> 와 를 동시에 줄일 수 없다. 제 1종 오류에 더 주의 : 상한 유의수준 (Significance level)
기각역 도출 유의수준 ( ) = ( 가 맞는데 기각역에 포함된다) 의 최대값 = ( ) = 만약 이 되려면 일반적인 에 대하며
표준화된 검정통계량 이용 단측가설 단측검정 - 양측가설 - 양측검정 에 대한 가설 이용. 이 큰 경우 중심극한정리. 이용. 이 큰 경우 중심극한정리. - 검정 : 정규분포를 이용한 검정 단측가설 단측검정 - 양측가설 - 양측검정
유의확률 - 1 => 강력히 을 뒷받침 기각 => 어느 정도 을 뒷받침 기각 => 강력히 을 뒷받침 기각 => 어느 정도 을 뒷받침 기각 => 충분치는 않다. 기각하지 않음 => 이 전혀 설득력이 없다. 기각하지 않음 유의확률 ( -값, -value, -value) 관측된 검정통계량의 값으로부터 를 기각하게 하는 최소의 유의수준 eg)
유의확률 - 2 유의확률이 작을수록 을 채택할 근거가 충분하다고 판단하고 유의확률이 작을수록 을 채택할 근거가 충분하다고 판단하고 유의수준보다 큰 경우, 그 값이 클수록 를 기각할 근거가 희박하다고 판단한다. 로 관측되었을 때 이면 예 제1 예 제2
표본의 크기가 클 때, 모비율에 대한 점추정 예 제 : 개 중의 의 수 : 점추정
의 구간추정 ( 이 클 때) 을 이용한 에 대한 구간 추정 표준화 : ( 이 클 때)
의 구간추정 ( 이 클 때) 에 대한 신뢰구간 ( 이 클 때) 예 제 : 표본으로부터 계산되어지지 않는다. 의 구간추정 ( 이 클 때) 에 대한 신뢰구간 ( 이 클 때) : 표본으로부터 계산되어지지 않는다. 를 으로 추정하여 구한다. 예 제
표본 크기의 결정 예 제 원하는 정확도를 만족하는 가장 작은 표본의 크기를 구한다. 오차범위가 보다 작게 하는 가장 작은 을 구한다. 에 대한 정보가 없다면…. 이므로 로 대체. (30보다 커야..) 예 제 가 대강 어느 정도의 값을 갖는지 알려져 있으면 그 값 중 ½에 가까운 값을 자리에 넣어 계산한다.
모비율에 대한 검정 ( 이 클 때) 검정통계량 하에서 이므로 표준화 된 검정통계량은 이다. 예 제
각 대립 가설에 따른 기각역 모평균의 경우와 마찬 가지로 검정통계량의 관측값이 일 때, -값은 다음과 같이 구한다. 이면 이면 모평균의 경우와 마찬 가지로 검정통계량의 관측값이 일 때, -값은 다음과 같이 구한다. 이면 이면 이면
Thank You!
예제3 전기휴즈의 평균수명 40개의 휴즈로부터 수명 측정 :
예제 5 사과의 평균무게 : , 에 대한 95%, 99% 신뢰구간은? *계산된 신뢰구간에서 확률의 의미는 없다. 길어진다
예제6 호수의 성분을 연구하는 학자; 호수의 단위부피당 평균무게 에 관심 호수의 성분을 연구하는 학자; 호수의 단위부피당 평균무게 에 관심 무게의 표준편차 일 때, 90% 오차범위가 가 되도록 함. 90% 오차범위 :
#2.16 화학 실험에서 구리 침전물량의 표준편차가 4.5(g) 99% 오차범위
예제 8 중학교 3학년 학생의 키 다른 도시의 평균 = 159cm 차이가 있다고 하겠는가? 자료 :
예제 7 다이어트 상품 주장 : 5주 10kg 넘게 감소. 주장의 근거 : 56명의 5주 감소량 주장이 옳은지 유의수준 로 검정하라
예제 9
예제 10
예제 11
예제 12