출석수업 자료 교과서 범위: 제1장-4장
1강 통계학의 기초 개념 교과서 범위: 제1장. 통계학의 기초개념
1. 통계학의 개념 통계학(統計學, statistics)이란? - 관측자료의 수집, 정리, 요약, 분석 및 제시 방법과 관련된 이론을 다루며, 자료분석을 통하여 결론을 유도하거나 판단의 근거를 제공하는 과학의 한 분야 통계학은 다른 학문의 기초 도구 - 통계학의 기본원리와 분석방법은 거의 모든 학문 분야에 활용된다. (예. 인문과학, 사회과학, 자연과학, 보건학 등) - 실증적인 연구방법
1. 통계학의 개념 통계학의 범위 - 조사목적에 따라 정리하고 분석하는 데 필요한 방법 제시 - 미래에 대한 예측과 합리적인 의사결정을 내리는 데 도움 - 과학적 이론과 실증적인 연구방법을 포함함
1. 통계학의 개념 환경보건학과 통계학 - 지역간 수질 오염, 대기오염도, 소음공해 수준 비교 - 인구집단에서 환경요인과 질병의 연관성 평가 - 실험군과 대조군(control) 간의 차이가 있는지 판단
2. 기술통계학과 추리통계학 통계적 방법론의 구분 기술(記述)통계학 - 기술(descriptive) 통계학 vs. 추리(inferential )통계학 기술(記述)통계학 - 자료를 수집하고, 요약하는 통계학의 분야 - 대표값, 산포도 및 분포 - 표, 그래프, 도수분포표 등 시각적 표현도 중요
2. 기술통계학과 추리통계학 추리(推理)통계학, 추측(推測)통계학 - 모집단으로부터 추출된 표본의 통계량을 이용하여 모집단의 특성을 추측하고 검정하는 통계적 방법론 - 표본으로부터 유도되는 추측은 불가피하게 오차를 수반하는데, 이러한 오차를 확률적으로 설명하면서 모집단에 대한 일반성을 찾아내는 분야 - 모집단의 특성에 대한 추정과 가설검정
2. 기술통계학과 추리통계학 기술통계학 추리통계학 자료의 수집 자료의 정리 및 요약 자료의 분석 자료가 표본인가, 모집단인가 모집단 특성에 관한 결론 확률이론 적용 통계적 추론 모집단 표본 기술통계학 추리통계학
2. 기술통계학과 추리통계학 기술통계학의 예 추리통계학의 예 - 환경보건학과 학생들의 보건통계학 시험점수 자료를 가지고, 표나 그림 또는 평균, 표준편차 등과 같은 몇 가지 수치로 요약, 정리 추리통계학의 예 - 우리나라 대학생들의 보건통계학적 지식을 알아보기 위해 일부 학생들을 표본으로 뽑아 시험을 치르게 한 다음, 그들의 보건통계학 시험점수를 바탕으로 전체 대학생의 평균점수를 추정하거나 , 남녀 대학생들 간에 점수 차이가 있는지를 검정
3. 보건통계학의 정의 통계학은 이론통계학과 응용통계학으로 나뉨 - 이론통계학은 새로운 통계기법을 개발하는데 관심이 있고, 고도의 수학적 지식이 요구됨 - 응용통계학은 자연과학이나 사회과학 등 특정 영역에 응용하는 데 관심을 두고 있음 보건통계학(biostatistics, health statistics) - 보건통계학은 건강-질병에 관련된 여러 현상에 대하여 통계학적 방법을 도입하여 그 현상을 기술하고 추론하는 학문으로 응용통계학의 한 분야
4. 변수의 개념 변수(變數, variable)의 정의 - 측정하고자 하는 특성, 관심 있는 특성으로 상수(constant)가 아닌 변화하는 값을 가지는 것 - 보건통계학 수강생의 나이 (20, 25, 34, 40, 50, …) - 보건통계학 수강생의 키 (165, 171, 175, 182, …) - 보건통계학 수강생의 성적 (A, B, C, D, …) 양적(quantitative) 변수 vs. 질적(qualitative) 변수 - 양적변수: 수치(number)로 나타내는 변수 - 질적변수: 범주(category)로 구분하여 나타내는 변수
4. 변수의 개념 양적변수의 예 이산(discrete)변수 vs. 연속(continuous) 변수 - 대장균의 수 - 토양시료에서 중금속 농도 - 심혈관계 질환자의 혈압 - 종합병원에 내원하는 환자 수 이산(discrete)변수 vs. 연속(continuous) 변수 - 이산변수: 셀 수 있는 숫자 (예. 정수)로 표현되는 변수 - 연속변수: 어떠한 값이라도 취할 수 있는 변수
4. 변수의 개념 질적변수의 예 양적변수를 질적변수로 변환할 수 있음 - 성별 구분 (남자 vs. 여자) - 소득 수준 (상, 중, 하) 양적변수를 질적변수로 변환할 수 있음 - 월평균 소득액, 수질 오염도 -> 양적 변수 - 적절한 기준으로 나누어, ‘상’, ‘중’, ‘하’의 세 가지 값으로 대체할 수 있음
5. 모집단과 표본 모집단(母集團, population) 모집단의 예 모집단의 종류 - 연구의 조사대상이 되는 전체 집단 또는 전체 변수 값 모집단의 예 - 어떤 대학교에 재학 중인 학생들 전체의 몸무게 - (3학년만 관심이 있다면), 그 학교 3학년 학생들의 몸무게 모집단의 종류 - 유한모집단(finite population): 측정값 숫자가 고정된 경우 - 무한모집단(infinite population)
5. 모집단과 표본 표본(標本, sample) 표본의 종류 - 모집단에서 추출한 일부 집단 (모집단을 구성하는 전체 조사단위 중에서 뽑은 일부 조사단위) - 통계적 처리를 위하여 모집단에서 추출한 측정값의 집합 표본의 종류 - 확률표본: 표본을 추출할 때 조사단위가 뽑힐 수 있는 확률이 동일한 상태에서 뽑힌 조사단위로 이루어진 표본 - 비확률표본: 조사자의 편견이 개입되거나 선택적으로 뽑힌 표본
5. 모집단과 표본 통계학은 확률표본을 다룸 - 표본에서 계산되는 기술적인 특성값을 통계량(statistic)이라고 하고, 모집단으로부터 산출되는 특성값을 모수(parameter)라고 함 - 모집단으로부터 확률표본을 추출하여 통계자료를 수집하고 표본통계량을 계산하면 표본통계량으로부터 모수를 추정(estimation)할 수 있음
5. 모집단과 표본 전수조사(complete survey) vs. 표본조사 - 모집단 전체를 대상으로 통계자료를 수집하는 조사를 전수조사라고 하며, 표본으로부터 통계자료를 수집하는 것을 표본조사라고 한다. - 일반적으로 표본조사를 수행함 <= 장점이 있기 때문
5. 모집단과 표본 표본조사를 하는 이유 1) 모집단이 큰 경우 전수조사가 어렵다. 2) 비표본오차를 줄일 수 있다. - 모집단의 크기가 큰 경우에는 전수조사가 곤란하고 무한모집단의 경우 전체를 조사하기가 실제로 불가능하다. 2) 비표본오차를 줄일 수 있다. - 모집단 전체를 조사하는 전수조사가 가능하더라도 자료를 수집, 정리, 계산하는 과정에서 일어날 수 있는 오차, 즉, 비표본오차(non-sampling error)가 커진다.
5. 모집단과 표본 표본조사를 하는 이유 3) 짧은 기간 내에 특성을 파악할 수 있다. 4) 경제적 이득이 있다. - 여름철의 짧은 기간에 유행하는 어떤 전염병의 발생률을 파악하거나 전염병의 유행에 대해 시급히 조치를 취해야 할 경우, 많은 시간이 필요한 전수조사는 적절하지 않다. 4) 경제적 이득이 있다. - 표본조사가 전수조사보다 비용, 시간, 노력 등이 적게 든다.
5. 모집단과 표본 표본조사를 하는 이유 5) 표본통계량으로부터 모수를 추정할 수 있다. - 표본추출이 잘 되었다면, 적당한 오차한계 내에서 모수를 예측할 수 있는 통계적 방법이 있으므로, 표본조사를 한다. 표본의 통계량으로부터 모수를 예측해 내는 것을 추정(estimation)이라고 하는데, 표본에서 얻은 평균과 분산을 가지고 모집단의 평균과 분산을 추정할 수 있다. - 표본에서 얻은 평균과 분산은 모수와 차이가 나타날 수 있는데, 이를 표본오차(sampling error)라고 한다.
5. 모집단과 표본 표본추출 방법 - 확률표본추출(probability sampling): 모집단을 구성하는 각 개체가 표본으로 선택될 확률이 모두 동일한 상태에서 표본을 추출하는 것 - 비확률표본추출(non-probability sampling): 연구자가 모집단과 비슷하다고 판단하는 표본을 임의로 추출하는 방법 - 확률표본추출의 경우에 통계적 추정이 가능함
5. 모집단과 표본 확률표본추출 - 무작위추출(無作爲抽出, random sampling)이라고도 함 - 확률표본추출에 의하여 모집단을 효과적으로 추정하기 위해서는 적절한 규모의 표본을 가져야 하며 모집단을 대표할 수 있도록 무작위성(randomness)이 확보되어야 함 - 단순확률추출법, 계통추출법, 층화추출법, 집락추출법 등
5. 모집단과 표본 단순확률추출법(simple random sampling) - 가장 기본적인 확률표본추출방법으로, 모집단의 구성요소인 표본추출단위가 표본으로 선택될 기회가 동등한 가운데 표본을 추출하는 것 - N개의 표본추출단위가 있는 모집단으로부터 n개인 표본을 무작위로 뽑는다고 할 때, 각 표본추출단위가 뽑힐 확률은 n/N 으로 동일 - 쪽지 추첨, 난수표 이용, 통계프로그램 난수발생 등
5. 모집단과 표본 쪽지 추첨 - 100 명 중에서 10명을 뽑을 때, 각각 뽑힐 확률은 1/10임 - 뽑은 쪽지를 다시 통속에 넣지 않는 방법은 비복원추출(without-replacement)이며, 추출한 쪽지를 다시 통속에 넣고 추출하는 방법은 복원추출(with replacement)임
5. 모집단과 표본 난수표 이용 (교과서 부록 표8) - 예) 59, 44, 79, 30, 43, 25, 33, 22, 20, 55 선택 1. 임의로 선택! 2. 밑으로 선택!
5. 모집단과 표본 통계 프로그램 난수생성 - 엑셀, SPSS, SAS, R 등 - 엑셀의 경우: 함수 이용 (rand, randbetween), 분석도구에서 난수생성 메뉴 이용
5. 모집단과 표본 계통추출법(systematic sampling) - 표본추출단위가 있는 모집단(N)으로부터 크기가 n인 표본을 뽑을 때 일정한 간격을 두고 표본을 추출하는 방법 - 최초 시작번호 X1을 확률적으로 선정하고(예. 난수표 이용), K(=N/n)의 간격을 두고 표본의 크기가 될 때까지 뽑음. - 예. 모집단 (N=90), 크기 n=9인 표본을 계통추출법으로 - 시작은 난수표에서 뽑고, 간격(K)은 10 - 3이 뽑히면 => 3, 13, 23, 33, 43, 53, 63, 73, 83 선택
5. 모집단과 표본 층화추출법(stratified sampling) - 모집단을 그 구성성분에 따라 몇 개의 동질적인(homogeneous) 소집단으로 분류한 다음 각 소집단으로부터 단순확률추출을 하는 것 - 이때 나뉜 각 소집단을 층(stratum)이라고 함 - 예. 대학 1, 2학년생 200명을 대상 의식조사 - 학년을 단일 기준: 학년마다 100명씩 또는 ‘1학년생 수: 2학년생 수’의 비에 맞게 - 학년과 남녀 혼합기준: 층별 50명씩 또는 각 층의 비에 따라
5. 모집단과 표본 집락추출법(cluster sampling) - 모집단의 구성단위를 자연적 또는 인위적으로 몇 개 집락으로 구분한 다음 무작위로 필요한 집락을 추출하고, 추출된 집락에 대하여 일부 또는 전수조사 - 예. 도시지역 주민 대상 조사 (집락분할 기준: 행정구역) 시 A구 B구 C구 2동 1동 3동 4동
2강 자료의 정리 교과서 범위: 제2장. 자료의 정리 및 통계적 측정
1. 비율 백분율 비 율 비율(比率, proportion) - 비율(proportion)은 전체를 1로 보았을 때 한 항목이 차지하는 값 (예. N=N1+N2+N3) - 비율을 구할 때 유의할 점은 각 항목이 서로 배타적이어야 한다는 것이다. 한 사례는 한 항목에만 들어가야 한다.
1. 비율 백분율 비 율 백분율(百分率, percentage) - 백분율로 나타낼 때에는 사례 수를 같이 제시하는 것이 좋음 (특히 사례수가 크지 않을 때)
1. 비율 백분율 비 율 비(比, ratio) - 두 항목 간의 대비 - 비는 비율과는 달리 1보다 큰 값을 가질 수도 있으며, 각 항목이 서로 배타적인 경우에 사용 - 보건통계에서 흔히 쓰는 비: 성비(여자 100명당 남자 수), 종족비, 사망비 등
1. 비율 백분율 비 율 율(率, rate) - 모집단을 구성하고 있는 구성원의 특정 사건 수 (속도개념) - 율은 특정 사건 수를 A를 A가 속한 모집단의 수 A + B로 나누어 준 것으로서, 모집단 구성원 X명 중 사건을 가진 구성원 x명꼴로 표현 (단위인구 및 단위시간 당) - 단위인구 혹은 성, 나이, 직업과 같은 소집단 단위당 사건의 빈도로 표현한 것 (총 관찰시간 당 빈도)
2. 도수분포표 도수분포표(度數分布表, frequency table)란? - 측정한 변수를 항목별로 비슷한 값끼리 묶어서 계급을 만든 다음 이에 속하는 자료의 개수가 얼마나 되는지를 알 수 있도록 분류, 집계한 표 - 자료의 특성을 요약하고 정리하는 기술통계학에 속함 - 도수분포표만 가지고는 최대값과 최소값을 알 수가 없고 평균이 얼마나 되는지 정확히 알기가 어려움
2. 도수분포표 도수분포표 관련 용어 - 계급 또는 급 (class) : 변수를 일정한 기준에 따라 구간으로 구분한 것 (서로 연결이 되면서 중복되지 않게 설정) - 급간 (class interval): 계급의 폭 - 급하한값 (class lower limit) : 각 계급에서 가장 작은 값 - 급상한값 (class upper limit) : 각 계급에서 가장 큰 값 - 도수 (frequency): 각 계급에 속하는 측정값의 개수 - 상대도수 (relative frequency) : 측정값의 총수에 대한 각 계급의 도수가 차지하는 비율 또는 백분율
2. 도수분포표 도수분포표의 작성방법 1) 측정값 개수를 파악한다. 2) 계급의 수를 결정한다. - 도수분포표를 작성하기 위해서는 먼저 측정값의 개수, 즉, 자료의 개수를 알아야 한다. 2) 계급의 수를 결정한다. - 계급의 수를 결정하는 데 절대적인 원칙은 없지만, 일반적으로 5~15개의 범위에서 같은 간격으로 정한다.
2. 도수분포표 도수분포표의 작성방법 3) 계급의 간격을 계산한다.
2. 도수분포표 도수분포표의 작성방법 4) 계급의 하한값과 상한값을 정한다. 5) 빈도를 계산한다. - 첫 번째 계급의 하한값은 측정값의 최소값이 가능한 한 그 계급의 중간값이 되도록 한다(소수점 이하 다루기 쉬운 수). 5) 빈도를 계산한다. - 측정값의 하나하나를 해당하는 계급에 正자나 /, //, /// 등으로 빈도를 표시한 다음 숫자로 환산하여 적어준다. 6) 제목, 측정단위, 합계 등 형식을 갖추어 도수분포표를 작성한다.
2. 도수분포표 도수분포표의 표현 1) 제목 2) 단위의 표시 - 표현하려는 내용을 집약한 것으로서 간단명료해야 한다. - 표 전체의 내용에서 동일한 측정단위를 사용하였다면 단위를 도수분포표 우측 상단에 기입한다.
2. 도수분포표 도수분포표의 표현 3) 주석 4) 표번호 - 도수분포표에 대한 보충설명으로서 주석을 단다. : 아랫부분에 참조번호나 기호를 설명하고, 약자를 사용한 경우에는 약자 설명, 남의 자료를 인용하였을 때에는 자료출처를 명시한다. 4) 표번호 - 작성하는 도수분포표가 여러 개일 경우에는 표번호로 구분 (표 1, 표 2, 표 3; 표1-1, 표2-1, 표2-2)
2. 도수분포표 도수분포표 표 2-1 서울시내 57개 지점에서 측정한 공기중의 먼지양 (단위 : ㎍/m3) 68 63 42 37 30 36 28 32 79 22 33 24 25 44 65 43 74 51 31 38 35 45 12 57 49 27 50 16 34 69 47 23 19 46 표 2-2 계급의 표시방법 (1) 표 2-3 계급의 표시방법 (2) 10 ~ 19 20 ~ 29 30 ~ 39 40 ~ 49 50 ~ 59 60 ~ 69 70 ~ 79 10 이상 ~ 20 미만 20 이상 ~ 30 미만 30 이상 ~ 40 미만 40 이상 ~ 50 미만 50 이상 ~ 60 미만 60 이상 ~ 70 미만 70 이상 ~ 80 미만
2. 도수분포표 도수분포표 표 2-5 서울시내 일부 지역 공기중의 먼지양 (단위 : ㎍/m3) 급 도수 누적도수 10 ~ 19 20 ~ 29 10 15 30 ~ 39 19 34 40 ~ 49 13 47 50 ~ 59 4 51 60 ~ 69 55 70 ~ 79 2 57 계
3. 그래프 그래프(graph)의 장점? 자주 사용되는 그래프 ① 빠른 대화방법 ② 말보다 강력한 의미 ① 빠른 대화방법 ② 말보다 강력한 의미 ③ 명확한 설명력 ④ 흥미 유발 - 그래프는 잘 이용하면 통계자료의 뜻을 분석하는 데 좋은 방법이 될 수 있지만 통계자료에 맞지 않는 그래프를 사용하면 통계자료의 뜻을 오해하기 쉬움 자주 사용되는 그래프 ① 막대그래프 ② 원그래프 ③ 히스토그램 ④ 선그래프 ⑤ 도수다각형 ⑥ 점그래프
3. 그래프 그래프 선택 - 자료가 한 시점에서 측정한 횡단적인 자료인가, 또는 여러 시점에서 측정한 시계열 자료인가? - 설명하고자 하는 변수가 어떤 형태의 변수인가? 즉 질적 자료인지, 아니면 양적 자료인지, 그리고 양적 변수이면 이산변수인지 연속변수인지 고려 - 관심있는 변수가 어떤 척도로 되어 있는가?
3. 그래프 막대그래프(bar graph) - 명목척도 또는 서열척도로 측정된 변수들의 도수나 상대도수를 동일한 폭을 가지는 막대의 길이로 표현한 그래프 - 이산변수 (discrete variable)인 경우 (환자 수, 출생아 수, 불량품의 개수) - 가로막대그래프 또는 통계프로그램을 이용한 다양한 막대 그래프 가능
3. 그래프 막대그래프(bar graph) 자녀 수 가구 수 3 1 8 2 12 9 4 5 계 39 표 2-6 어느 지역의 자녀 수 별 가구 수 자녀 수 가구 수 3 1 8 2 12 9 4 5 계 39
3. 그래프 원그래프(pie chart, circle chart) 원그래프의 특성 - 원의 중심으로부터 일정 각도에 포함되는 면적을 이용하여 측정값의 구성비율을 나타내는 그래프 (전체를 구성하는 각 부분의 구성비를 그림으로 나타낼 때 적절함) 원그래프의 특성 ① 자세한 정보보다는 개괄적인 정보를 제공하기 위해 사용 ② 일정한 순서(크기, 학력 등 서열)에 의해 범주별 영역구분 ③ 절대빈도보다는 백분율을 사용함 (백분율의 합은 100) ④ 12시 위치에서 시작하여 시계방향으로 그림. ⑤ 너무 많은 영역의 표현은 곤란함
3. 그래프 원그래프(pie chart, circle chart) 자녀 수 가구 수 1 3 2 8 12 4 9 5 6 계 39 표 2-6 어느 지역의 자녀 수 별 가구 수 자녀 수 가구 수 1 3 2 8 12 4 9 5 6 계 39
3. 그래프 히스토그램(histogram) 도수다각형(frequency polygon) - 간격척도나 비율척도로 측정된 변수들을 그래프로 표현하는 방법 - 수평축에 변수의 계급구간을 표시, 수직 축에 각 계급구간에 해당하는 도수에 비례하는 높이의 서로 맞닿는 직사각형 막대 도수다각형(frequency polygon) - 히스토그램의 막대 윗면 중간점을 연결하여 그린 그래프(대략적인 자료의 분포상태를 나타냄)
3. 그래프 히스토그램(histogram) 표 2-7 환경보건학과 3학년 학생 50명의 몸무게 몸무게 (kg) 도수 40 이상 ~ 45 미만 2 45 이상 ~ 50 미만 5 50 이상 ~ 55 미만 12 55 이상 ~ 60 미만 15 60 이상 ~ 65 미만 10 65 이상 ~ 70 미만 4 70 이상 ~ 75 미만 합계 50 <그림 2-4> 3학년 학생 몸무게의 히스토그램
3. 그래프 선그래프(line graph) - 가로축에 변수의 값을 표시하고 세로축에 측정값의 빈도 수를 나타내는 높이에 점을 찍고 나서 이 점들을 직선으로 연결한 것 (-> 꺽은선 그래프) - 시계열(time series) 그래프는 가로축에 변수가 시간인 선그래프임. 측정값이 시간에 따라 변화할 때, 또는 순서에 따라 변화할 때 이러한 변화를 표시하기에 아주 유용
3. 그래프 선그래프(line graph) <그림 2-6> 연도별 의사 수 증가 추이
3. 그래프 점그래프(dot diagram) 일차원 점그래프 - 변수가 하나일 때 사용하는 일차원 점 그래프와 변수가 둘일 때 사용하는 이차원 점그래프로 구분 일차원 점그래프 - 모든 측정자료를 수평선 위에 점으로 표시(주로 자료의 개수가 적은 경우에 사용하며, 측정값의 분포를 쉽게 파악) <표 2-8> 18개 공장의 소음 측정값 115 117 96 88 108 100 120 93 80 122 111 102 105 94 112 114 92
3. 그래프 이차원 점그래프 - 산점도(scatter plot) 또는 상관도표 - 한 변수가 취할 수 있는 값을 가로축에, 다른 한 변수가 취할 수 있는 값을 세로축에 눈금으로 나타낸 뒤 각 변수값이 교차하는 지점에 해당 측정값을 점으로 표시 - 한 변수의 값으로 다른 변수의 상태, 분포 또는 변화에 대한 설명하기 좋음 -> 두 변수 간의 관계를 시각적으로 이해하는 데 매우 탁월
3. 그래프 이차원 점그래프
3. 그래프 줄기와 잎 그림(stem and leaf plot) 작성방법 - 자료의 수가 많지 않을 때 자료의 분포를 빠른 시간에 쉽게 나타낼 수 있는 방법 (히스토그램과 달리 원래값 보존) 작성방법 1. 원자료 각각에 대하여 줄기와 잎부분으로 나눔 -> 일반적으로 잎은 마지막 한자리 나머지는 줄기가 됨 2. 줄기를 아래로 나열하여 씀 3. 각 자료의 잎을 해당 줄기에 정렬 4. 잎의 숫자들을 크기순으로 정렬
3. 그래프 줄기와 잎 그림(stem and leaf plot) 37 27 25 36 33 49 42 24 31 26 45 32 46 39 35 28 2 4,5,6,7,8 3 1,2,3,3,5,6,6,7,9,9 4 2,5,6,6,9
3강 통계적 측정 교과서 범위: 제2장. 자료의 정리 및 통계적 측정
4. 중심위치의 측정 중심위치의 측도(=대표값) - 대표값은 측정값들의 위치를 대표할 수 있는 하나의 요약지표임 - 측정값의 분포가 좌우 대칭일 때 측정값들의 중앙값에 가까워지기 때문에 중심경향의 측도(measure of central tendency) 또는 중심경향값이라고 함
4. 중심위치의 측정 중심위치의 측도(=대표값) 평균 (mean) 중앙값 (median, 중위수) 최빈값 (mode, 최빈수) 기하평균 산술평균 조화평균
4. 중심위치의 측정 산술평균(arithmetic mean) 중심위치 측도에서 가장 많이 사용되는 방법으로, 모든 측정값을 더해서 자료의 개수로 나눔 표본평균(sample mean), 𝑥 orm ……………… (2 . 7) 모평균(population mean), ……………… (2 . 8)
4. 중심위치의 측정 산술평균 사용시 주의해야 할 점 몇 개의 아주 극단적인 측정값 (극단값, 이상치, outlier)들에 의하여 큰 영향을 받음 (특히 자료의 수가 적을 경우) - 예. 5명 환자의 평균 의료비 지출 환자 의료비 지출(원) A 5,000 B C 6,000 D E 50,000 평균 14,400
4. 중심위치의 측정 가중평균(weighted arithmetic mean) ……………… (2 . 9) 예제 2.7 과목 학점 점수 공중보건학 3 90 보건통계학 2 85 환경보건학 4 70
4. 중심위치의 측정 기하평균(geometric mean) 측정값이 모두 양의 값을 가지면서 오른쪽으로 특이점을 가지는 비대칭 분포인 경우에 중심경향의 측도로 사용됨. 즉, 자료들이 기하급수적 분포를 할 때 사용되는 평균값 측정값이 n개 있을 때 n개의 측정값을 곱한 후 n제곱근을 취하여 계산함 ……………… (2 . 10) 기하평균
4. 중심위치의 측정 기하평균 예 1 조사대상자 11명의 나이가 1, 2, 4, 4, , 5, 5, 6, 6, 8, 97이었다. 첫 번째와 마지막을 제외하면 나머지 9명의 나이는 5를 중심으로 완전한 대칭을 이룬다. 마지막 값이 9라면 대칭분포를 이루지만 97이라는 극단값때문에 전체 분포의 모양이 심하게 뒤틀리게 되었다. 기하평균=(1x2x4x4x5x5x5x6x6x6x8x97)1/11=5.39
4. 중심위치의 측정 기하평균 예 2 (예제 2-9) 한 시점에서 일반 세균 수가 1000마리였는데 5분 후에 2000마리로 증가했고, 또 5분 후에 16,000마리로 증가했다면, 이때 5분 간격의 평균변화율은 얼마인가? 처음 5분 간의 변화율은 2배이고 두 번째 5분 간의 평균변화율은 8배이므로 기하평균을 이용하여 계산하면,
4. 중심위치의 측정 조화평균(harmonic mean) 측정값들에 대한 단위당 대표값을 구할 때 사용. 측정값의 전체 개수를 각 측정값의 역수의 합으로 나눔 ……………… (2 . 11) 조화평균
4. 중심위치의 측정 조화평균 예 보건진료원이 1km되는 거리를 갈 때는 시속 4km로 갔고, 올때는 시속 5km로 왔다면, 왕복하는 데 시간당 얼마의 속력으로 걸었는가?
4. 중심위치의 측정 중앙값(median, 중간값) 측정값들을 가장 작은 값부터 크기 순으로 나열했을 때 가운데에 위치하는 측정값 n이 홀수이면 (n+1)/2 측정값 n이 짝수이면 n/2번째와 n/2 + 1번째 측정값의 산술평균
4. 중심위치의 측정 중앙값 예 (예제 2-10) 신생아 5명의 몸무게가 다음과 같을 때 중앙값은 얼마인가? 2.4 kg, 2.8 kg, 3.2 kg, 3.7 kg, 4.5 kg - 측정값의 개수가 n=5이므로, (5+1)/2 = 3. 따라서, 3번째 측정값인 3.2 kg이 중앙값이 됨
4. 중심위치의 측정 중앙값의 유용성 산술평균은 극단값에 의하여 많은 영향을 받지만 중앙값은 영향을 받지 않음: 대체로 분포상태가 극도로 비대칭일 때는 중앙값이 산술평균보다 대표값으로서 더 큰 의미를 가짐 - 예. 소득에 대한 통계자료에서 대표값으로 중앙값을 사용할 수 있음
4. 중심위치의 측정 사분위수(quartiles), 백분위수(percentiles)
4. 중심위치의 측정 최빈값(mode) 측정값 중에서 빈도가 가장 많은 측정값. 일반적으로 질적 자료나 그룹화된 양적 자료에서 주로 사용됨 예. 혈액형 자료가 A형, A형, B형, O형, O형, O형, AB형이라고 할 때 최빈값은 O형임 도수빈포표의 경우 최대도수를 가지는 계급의 중간값을 최빈값으로 함
4. 중심위치의 측정 최빈값 사용시 유의해야 할 점 1. 도수분포표의 계급을 정하는 방법에 따라 전달되는 정보가 달라지게 된다. 따라서 사용되는 도수분포표에 따라 최빈값이 다른 값을 가질 수 있다. 2. 한 자료에서 최빈값이 여러 개 나타날 수 있고, 측정값들이 각각 다른 경우에는 최빈값이 존재하지 않는다. 이 경우에는 중심위치로서의 의미가 부족하게 된다.
4. 중심위치의 측정 자료의 분포 형태에 따른 평균, 중앙값, 최빈값의 위치 - 대칭분포인 경우 평균, 중앙값, 최빈값 일치 - 오른쪽 꼬리분포: 최빈값<중앙값<평균 - 왼쪽 꼬리분포: 평균<중앙값<최빈값
5. 산포(散布)의 측정 대표값은 측정값의 분포상태를 나타내 주지 못함 산포도(散布度) - 평균이 같아도 분포의 모양은 다를 수 있음 평균을 중심으로 밀집되어 있으면 개인차가 적은 것이고, 평균을 중심으로 분산되어 있으면 개인차가 많은 경우임 산포도(散布度) 자료가 중심위치로부터 얼마나 흩어져 있는가의 정도 측정값들이 평균을 중심으로 얼마나 밀집 혹은 분산되어 있는가를 나타내는 지표
5. 산포(散布)의 측정 동일한 평균값, 다른 산포도 점수 학생수 A반 B반 1 2 3 4 5 6 7 8 9 평균 5 10 5 10 A반 5 10 B반
5. 산포(散布)의 측정 산포도의 종류 절대적 산포도 상대적 산포도 - 절대적 산포도: 측정값의 단위와 동일한 절대수로 표시 상대적 산포도: 표준편차를 평균에 대한 비로 나타냄 절대적 산포도 평균편차, 분산, 표준편차, 범위, 사분위수범위 등 상대적 산포도 변이계수, 평균편차계수 등
5. 산포(散布)의 측정 평균편차(mean deviation, MD) - 편차들의 절대값을 모두 합하여 측정값의 개수로 나눈 것; 편차는 측정값에서 평균을 뺀 값을 말함 …………… (2 . 14) 평균편차 측정값이 평균보다 작으면 편차는 음의 값을 가지고, 반대로 평균보다 크면 양의 값을 가지게 됨; 편차의 합은 항상 0 평균편차가 6이라는 것은 학생들의 점수가 평균 80점을 중심으로 평균적으로 6점씩 떨어져 있다는 것
5. 산포(散布)의 측정 평균편차 예 - 보건통계학 수강생 5명의 시험점수가 75, 70, 80, 85, 90일 때 평균편차는? 학생 점수(x) 편차( 𝒙 𝒊 − 𝒙 ) ( 𝒙 𝒊 − 𝒙 ) 1 75 -5 5 2 70 -10 10 3 80 4 85 90 계 400 30
5. 산포(散布)의 측정 분산과 표준편차(variance, standard deviation) - 분산과 표준편차는 산포의 정도를 나타내는 데 가장 많이 쓰이며, 매우 중요한 개념임 평균편차에서와 같이 절대값을 사용하는 것은 다루기가 불편함. 분산은 편차를 제곱하여 더하는 것 분산의 값이 0에 가까울 수록 그 자료의 변동은 심하지 않고, 대체로 평균값에 몰려있음을 뜻함 표준편차는 분산의 제곱근
5. 산포(散布)의 측정 모집단의 분산과 표준편차 - 모집단의 측정값 수가 N개이고, 모평균이 이면 모분산 2 (sigma 제곱)은 아래의 공식으로 계산됨 모분산 …………… (2 . 15) 모표준편차 …………… (2 . 16) - 분산은 측정단위와 값의 크기로 볼 때, 원래 자료와 큰 차이가 있음 => 제곱근(표준편차)을 구함
5. 산포(散布)의 측정 표본의 분산과 표준편차 - n 개의 표본의 분산(s 2)은 아래의 공식으로 계산됨 표본분산 …………… (2 . 17) 표본표준편차 …………… (2 . 18) - 편차의 제곱의 합을 n-1로 나누는 이유는 표본분산의 기대값이 모분산인 2 이 되기 때문 (=> 불편추정치, 不偏推定値, unbiased estimation)
5. 산포(散布)의 측정 표본의 분산과 표준편차 예 (예제 2-12) - 임의로 추출한 5명의 성적이 다음과 같을 때, 분산 및 표준편차는? 학생 점수(x) 1 75 -5 25 2 70 -10 100 3 80 4 85 5 90 10 계 400 250
5. 산포(散布)의 측정 표본의 분산과 표준편차 예 (예제 2-13) - A, B 두 병원에 대해 환자가 병원에 도착하여 진료를 받기까지 기다리는 시간을 조사하기 위하여 각각 5명의 환자를 뽑아서 조사하였다. 두 병원의 환자-대기시간상태를 비교 A병원 대기시간 18분 12분 13분 17분 15분 B병원 대기시간 5분 25분 10분 - 평균대기시간은 15로 동일하나 표준편차는 2.5 vs. 7.7
5. 산포(散布)의 측정 범위(range): 최대값 - 최소값 - 산포도를 알아보는 방법 중 가장 쉽게 구할 수 있는 것 사분위수 범위(IQR): Q3(제3 사분위수)-Q1(제1 사분위수) - 범위와 유사하지만 양 쪽 극단값에 영향을 받지 않는 산포의 측도임 (전체 자료 중에서 50%의 산포성을 측정)
5. 산포(散布)의 측정 정규분포에서 사분위수 범위 및 상자 그림의 의미 출처; http://en.wikipedia.org/wiki/File:Boxplot_vs_PDF.png
5. 산포(散布)의 측정 절대적 산포도 만으로는 부족한 상황 - 둘 이상의 산포도를 비교하고자 할 때, 산포도의 단위와 표본의 크기가 다르면 정확한 비교가 어려움 - 예 1: 한 집단에서 100 ml의 혈액에 들어있는 콜레스테롤값(mg)이 kg으로 측정된 몸무게보다 변화가 더 큰지를 알고자 할 경우 - 예 2: 아동의 몸무게와 성인의 몸무게에서 산포의 정도를 비교할 경우
5. 산포(散布)의 측정 상대적 산포도 - 상대적 산포도로는 변이계수(coefficient of variation)와 평균편차계수 등이 있으나 변이계수가 주로 사용됨 변이계수 𝐶𝑉 = 𝑠 𝑥 𝐶𝑉 = 𝑠 𝑥 ×100 …………… (2 . 21) - 변이계수를 사용하는 경우: 1) 측정단위가 다를 경우, 2) 측정단위가 같더라도 평균값 자체의 크기가 큰 차이가 있을 경우
5. 산포(散布)의 측정 상대적 산포도 예 (예제 2-15) - 소년들의 몸무게와 성인들의 몸무게를 측정한 결과를 보고 산포성의 크기를 비교하라. 구분 소년 성인 25kg 64kg 표준편차(s) 5kg 8kg - 변이계수: 소년-20%, 성인-12.5%
4강 확률 및 확률분포 교과서 범위: 제3장. 확률 및 확률분포
1. 확률의 개념 일상생활 중의 확률(確率) - 내일 비가 올 확률이 70%이다. - 폐암 환자가 지금부터 5년 이상 생존할 확률은 50%이다. - 확률은 0보다는 크고 1보다는 작으며, 1에 가까울 수록 자주 일어날 수 있는 일로 받아들임
1. 확률의 개념 확률(確率)의 정의 1 - 어느 사건(event)이 N가지로 서로 배타적(mutually exclusive, 동시에는 일어나지 않는 경우)이고 일어날 수 있는 정도가 동일하다고 할 때, m개가 E라는 특성을 지닌다면 E가 일어날 확률은 m/N이다. ……………… (3 . 1) - 주사위를 던질 때 짝수가 나오는 확률은? - E=짝수, m=3, N=6이므로 P(E)=3/6=0.5 임
1. 확률의 개념 확률의 정의 2 (상대도수 관점) - 어떤 과정이 많이, 즉 n번 반복되고 이에 따라 특성 E를 나타내는 사건이 m번 일어난다면 E가 일어날 상대도수는 n이 증가하면서 E의 확률과 거의 동일하게 된다. ……………… (3 . 2) - 동전을 n번 던지는 경우 - E를 앞면이 나오는 경우라고 생각하면, m은 n번 중 앞면이 나온 경우의 수: n이 커질수록 m/n이 0.5에 근접함.
1. 확률의 개념 확률의 기본적 특성: 확률의 공리(axiom) 1) 사건 E1, E2, …, En이 서로 배타적인 사건을 가지는 과정이라면 어떤 사건 Ei가 일어날 확률은 음수가 아닌 숫자로 표현된다. ……………… (3 . 3) 2) 서로 배타적인 사상의 모든 확률 합은 1이다. ……………… (3 . 4)
1. 확률의 개념 확률의 기본적 특성: 확률의 공리(axiom) 3) 두 개의 서로 배타적인 사건 Ei와 Ej가 있다고 하면 Ei 혹은 (or) Ej가 일어나 확률은 각각이 일어날 확률의 합과 같다. ……………… (3 . 5)
2. 확률의 법칙 집합론의 부호 - 집합(set)은 요소(element)들의 모임 - 집합에 관련된 기본적인 개념 1) 단위집합(unit)은 단지 하나의 요소로 구성된 집합이다. 2) 요소가 전혀 존재하지 않는 집합은 공집합(null set)이다. 보통 (피)로 표시한다. 3) 관찰의 대상이 되는 모든 요소로 구성된 집합을 전체집합(universal set)이라고 하고 보통 U로 표시한다. 4) 집합 A의 모든 요소가 집합 B의 요소일 때 집합 A를 집합 B의 부분집합(subset)이라고 한다.
2. 확률의 법칙 집합 간의 다양한 관계 ∪ A B 𝐴∩𝐵 ∪ A B 𝐴∪𝐵 ∪ A C ∪ D A C는 A의 부분집합
2. 확률의 법칙 사건이 일어날 확률의 계산 (예제 3-1) - 어떤 병원의 의사 수가 200명이라고 하고 이 중 여의사의 수가 50명이라고 하자. 이 병원 의사를 임의로 한 명 뽑는다고 할 때 여의사가 뽑힐 확률은?
2. 확률의 법칙 조건부 확률 - B라는 주어진 조건하에서 A가 일어날 조건부확률은 B의 확률은 0이 아니라면 다음과 같이 정의됨 ……………… (3 . 6) ∪ A B 𝐴∩𝐵
2. 확률의 법칙 조건부 확률 - B라는 주어진 조건하에서 A가 일어날 조건부확률은 B의 확률이 0이 아니라면 다음과 같이 정의됨 ……………… (3 . 6) 승법의 정리 ……………… (3 . 7) ∪ A B 𝐴∩𝐵
2. 확률의 법칙 독립사건 - A와 B라는 두 사건이 주어진 경우 A와 B가 동시에 일어날 확률은 각각의 확률을 곱한 것과 같을 때 두 사건 A, B 는 서로 독립이라고 함 ……………… (3 . 8) - A, B가 독립이라면 B가 일어난다고 하는 가정하는 조건이 A가 일어나는 경우에 영향을 주지 않음을 할 수 있다.
3. 확률변수 및 확률분포 확률변수(random variable): X - 어떤 값을 취하느냐가 확률적으로 결정되는 변수: 확률변수는 영문자 대문자로 쓰고 그 변수가 취할 수 있는 값 하나하나에 대해서는 소문자로 씀 - 확률분포의 형태로 분포를 설명할 수 있는 변수 확률밀도함수(probability density function): (x) - 확률변수의 값에 확률을 대응시켜 주는 함수
3. 확률변수 및 확률분포 이산확률변수 vs. 연속확률변수 - 확률변수의 값들이 이산적(discrete)인 경우에 이산확률변수가고 하고, 확률변수의 값들이 연속적으로 변할 때 연속확률변수라고 함 - 이산확률변수의 예: 주사위를 던질 때 가능한 값들 (1,2,3,4,5,6) - 연속확률변수의 예: 어느 중학교 신입생들의 키
3. 확률변수 및 확률분포 확률함수의 예 - 이산확률함수: 이항분포(binomial distribution), 포아송분포 (Poisson distribution) 등 - 연속확률함수: 정규분포(normal distribution), 2 분포 (2 distribution), t 분포 (t-distribution), F분포(F-distribution) 등 - 제 4강에서는 이항분포 대해서만 알아보기로 함
3. 확률변수 및 확률분포 이항분포 (binomial distriubution) - 베르누이 시행(Bernoulli trial): 동전 던지기와 같이 둘 중의 하나만이 결과로 나타나는 시행 (성공, 실패) - 베르누이 시행에서 성공의 확률을 p라고 하면, 실패의 확률은 1-p (=q) 로 나타낼 수 있음 - n번의 베르누이 시행을 독립적으로 시행하는 경우 성공의 횟수를 나타내는 이산확률변수는 0, 1, 2, …, n 의 값을 가짐 - 이 확률변수가 가지는 분포를 시행횟수 n과 성공률 p를 가지는 이항분포라고 함: B(n, p)
3. 확률변수 및 확률분포 이항분포 예 1 (예제 3-2) - 주사위를 4회 던질 때, 3의 배수 (3, 6)가 나올 수 있는 횟수는 0, 1, 2, 3, 4이다. 각 횟수가 나올 확률을 계산하면? 성공횟수 가능한 경우 확률 X X X X 1 O X X X X O X X X X O X X X X O 2 O O X X O X O X O X X O X O X O X O O X X X O O 3 O O O X O O X O O X O O X O O O 4 O O O O O는 3의 배수가 나온 경우, x는 3의 배수가 나오지 않은 경우
3. 확률변수 및 확률분포 이항분포의 확률 - ‘성공확률x실패확률x가능한 경우의 수’ 형태로 표현됨 - 확률변수 Y가 시행횟수 n과 성공률 p를 가지는 이항분포라고 할 때, Y=y(y=0, 1, 2, …, n)의 확률은 다음과 같음 ……………… (3 . 9) - 작은 n에 대해서는 위의 확률을 계산할 수 있지만 n이 커지면 위의 확률을 계산하기가 복잡해 짐 => n과 p값에 따른 누적확률표를 활용하면 됨
3. 확률변수 및 확률분포 이항분포의 평균과 분산 - 확률변수 Y가 시행횟수 n과 성공률 p를 가지는 이항분포{(B(n, p)}를 따른다고 할 때, 평균과 분산은 각각 np, np(1-p)임
3. 확률변수 및 확률분포 이항분포 예 2 (예제 3-3) - 하나의 복권이 당첨될 확률이 30%라고 한다. 복권을 8장 구입하였을 때 (1) 4장이 당첨될 확률은? (2) 3-7장이 당첨될 확률은? (3) 6장 이상이 당첨될 확률은? - n=8, p=0.3인 이항분포의 누적확률은 부록에서 구할 수 있음 x 1 2 3 4 5 6 7 8 0.058 0.255 0.552 0.806 0.942 0.989 0.999 1.00
5강 정규분포 및 표본분포 교과서 범위: 제4장. 정규분포 및 표본분포
1. 정규분포의 개념 정규분포(正規分布, normal distribution) - 연속확률변수 중 가장 중요한 것이 정규분포임 - 통계학에서 가장 중요하고 유용한 분포임 - ‘정규(normal)’이라는 말은 통계학 연구 초기에 모든 분포는 표본 수가 커지면서 정규분포를 따라야만 하고 이에서 벗어나면 어딘가 오류가 존재한다고 생각했기 때문임 - 많은 현상을 정규분포로 설명할 수 있음 - 예. 성적의 분포, 대학의 학점, 학생의 키, 벚꽃의 개화시기
1. 정규분포의 개념 정규분포의 형태 ……………………………… ( 4 . 1 ) e: 자연로그의 밑으로서 근사값이 e=2.718281828… 인 무리수이며, 일반적으로 x가 실수일 때, 임이 증명되어 있다. http://ko.wikipedia.org/wiki/%ED%8C%8C%EC%9D%BC:Normal_Distribution_PDF.svg
1. 정규분포의 개념 정규분포의 형태
1. 정규분포의 개념 정규분포의 특성 1) 평균 에 대해 대칭이다. 2) 가 커질수록 퍼진 모양을 가지고, 작아질수록 뾰족한 모양을 가진다. 3) 평균, 중앙값, 최빈값은 모두 동일하다. 4) X축과 곡선 밑의 전체 면적은 1이 된다.
1. 정규분포의 개념 정규분포의 특성 5) 확률변수 X가 평균이 이고 분산이 2인 정규분포를 할 때 X가 a보다 작을 확률은 다음과 같다. ……………………………… ( 4 . 2 ) a
2. 표준정규분포 정규분포의 확률: 면적 - 에 해당하는 범위의 면적: 68% - 2에 해당하는 범위의 면적: 95% - 3에 해당하는 범위의 면적: 99%
2. 표준정규분포 표준정규분포란? - 정규분포 중에서 평균이 0, 분산이 1인 경우 (Z로 표현) ……………………………… ( 4 . 3 )
2. 표준정규분포 표준정규분포 분포표 (부록: 표 4, page 302) - 표준정규분포를 따르는 확률변수 Z가 특정값(오른쪽 표에서는 z) 이하를 가질 확률을 표로 제시한 것
2. 표준정규분포 정규분포의 표준화 - 평균이 , 분산이 2인 정규분포를 따르는 확률변수 X는 평균이 0, 분산이 1인 표준정규분포 Z로 변환할 수 있음 ……………………………… ( 4 . 4 ) - ‘평균에서 떨어진 정도에 대한 표준편차의 비’로 표준화함
2. 표준정규분포 정규분포에서 특정 범위의 확률(영역) 구하기 - a 와 b 사이의 값을 가질 확률은? 1) P(a < X < b)로 표현됨 2) 표준정규분포표를 활용하기 위해 표준정규분포(Z)로 표준화했을 때 a와 b가 해당하는 해당하는 지점을 구함
2. 표준정규분포 예제 4-1 - 어떤 인구집단에서 몸무게의 분포가 평균 65kg, 표준편차 4kg인 정규분포라고 할 때, 그 집단에서 몸무게가 70kg 이하일 확률을 구하라. 65 kg 70 kg - 표준정규분포표를 활용하기 위해 표준정규분포(Z)로 표준화했을 때 70 kg이 해당하는 지점을 구함 - 부록 [표 4]에 따르면 0.8944임
2. 표준정규분포 예제 4-2 - 예제 4-1에서 몸무게가 60 kg 이상 70 kg 이하일 확률은? - 표준정규분포(Z)로 표준화했을 때 60 kg 및 70 kg이 해당하는 지점을 구함 - P(-1.25 < Z < 1.25) = P(Z < 1.25) – P(Z < -1.25)
3. 표본분포 표본확률분포 모집단(population)에서 표본(sample)을 뽑아서 조사하고, 표본에서 얻은 결론을 통해 모집단의 특성을 추론하여야 함 - 표본에서 계산되는 기술적인 특성값인 통계량(statistic)의 확률분포가 표본확률분포임
3. 표본분포 표본확률분포 예 (표본평균 및 표본분산) 모집단은 1, 2, 3, 4 (n=4)이며, 크기가 2 (n=2)인 표본을 뽑아 모평균과 모분산을 추정함 - 모평균: (1+2+3+4)/4 = 2.5 - 모분산: [(1-2.5)2+(2-2.5)2+(3-2.5)2+(4-2.5)2)]/4 = 1.25 - 표본추출방법: 단순확률추출법 – 복원추출(반복허용) => 가능한 경우의 수는 16(=4x4) 가지이며 각각이 뽑힐 확률은 로 동일함
3. 표본분포 표본확률분포 예 (표본평균 및 표본분산) 표본 확률 표 4-1. 모집단 {1,2,3,4}에서 n=2인 각 표본과 그 평균 및 분산 표본 확률 (1 , 1) 1 (3 , 1) 2 (1 , 2) 1.5 0.5 (3 , 2) 2.5 (1 , 3) (3 , 3) 3 (1 , 4) 4.5 (3 , 4) 3.5 (2 , 1) (4 , 1) (2 , 2) (4 , 2) (2 , 3) (4 , 3) (2 , 4) (4 , 4) 4
3. 표본분포 표본확률분포 예 (표본평균 및 표본분산) 1 1.5 2 2.5 3 3.5 4 계 표 4-2. 표본평균의 확률분포표 1 1.5 2 2.5 3 3.5 4 계
3. 표본분포 표본확률분포 예 (표본평균 및 표본분산) 표 4-3. 표본분산의 확률분포표 0.5 2 4.5 계 1
3. 표본분포 중심극한정리 ( central limit theorem) 표본을 통한 통계적 연구방법론의 이론적 토대가 되는 것
4. 표준오차 표본평균 분포의 표준편차 표준오차(standard error)는 표본평균 분포의 표준편차임 모집단의 평균이 이고 분산이 2일 때, 표본평균은 평균이 이고 분산이 인 정규분포에 따름 (단, 표본의 크기가 충분히 클 때); 표본오차는 임 - 표본평균 분포의 표준편차를 이용하여 모평균이 존재하는 구간을 확률적으로 제시할 수 있음 * 95% 신뢰구간
4. 표준오차 표본평균의 분포 μ
수고하셨습니다.