의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 2011. 강의 평가: 출석 20% 숙제 30% 기말고사 50%

Slides:



Advertisements
Similar presentations
전자통신연구실 1 확률과 랜덤 해석 잡음 분석 확률 - 실험 (experiment) - 결과 (outcome) - 사건 (event)
Advertisements

신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
Copyright © 2012 Pearson Education, Inc. Publishing as Prentice Hall
빅데이터 기술 개요 2016/8/20 ~ 9/3 윤형기
Eliminating noise and other sources of error
Keller: Stats for Mgmt & Econ, 7th Ed
5.1 모수 (parameter) vs 통계량 (statistics)
논문제목 : 확률론적 방법에 의한 건축 개발사업의 재무적 타당성 분석 모델 구축
기술 통계학 (Descriptive Statistics)
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
상관분석(Correlation Analysis)
1장 : 확률이론 확률통계론 TexPoint fonts used in EMF.
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
실습 (using SPSS) Department of Biostatistics, Samsung Biomedical Research Institute Samsung Medical Center.
제1장 과학과 사회조사방법 과학적 지식(scientific knowledge): 과학적 방법에 의해 얻어진 지식, 즉 논리적, 체계적, 경험적, 객관적 절차를 통해 얻어진 지식 과학적 지식의 특성 1) 재생가능성(reproducibility) 2) 경험가능성(empiricism)
최소 자승 오차법 (Least Squares Method)
통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
Medical Instrumentation
CHAPTER 21 UNIVARIATE STATISTICS
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
Chap 3. 표본조사 3.1 표본추출(Sampling)의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정
패턴인식 개론 Ch.5 확률 변수와 확률 분포.
Cluster Analysis (군집 분석)
6장 Functions of r.v..
Marketing Research 제 8 장 측정의 기초
MINITAB for Six Sigma.
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
Medical Instrumentation
4-1 Gaussian Distribution
서울아산병원 의학통계학과 울산의대 예방의학교실 이무송
확 률 변 수 2 1 이산확률변수 2 연속확률변수 3 기대값.
Data Mining Final Project
추정의 기본원리 Introduction to Estimation
Keller: Stats for Mgmt & Econ, 7th Ed 그래프와 표를 이용한 기술통계학 기법
Week 10:확률변수(Random Variable)
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
Contents 수익과 수익률 4.1 위험 4.2 위험에 대한 인간의 태도 4.3 평균-분산 모형 4.4.
경제통계학 개요 사공 용 서강대학교 경제학과.
Inferences concerning two populations and paired comparisons
Keller: Stats for Mgmt & Econ, 7th Ed
Association between two measurement variables Correlation
감마선스펙트럼 방사능측정 불확도 Environmental Metrology Center
: Two Sample Test - paired t-test - t-test - modified t-test
Keller: Stats for Mgmt & Econ, 7th Ed 다중회귀분석 Multiple Regression
Statistical inference I (통계적 추론)
제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약.
Mean and Variance.
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
이론적 확률분포 앞서: 확률변수의 임의의 확률분포 수학의 이론으로부터 도출될 확률분포 이항분포, Poisson 분포, 정규분포
Chapter Ⅱ. 연구 설계.
Chapter 4: 통계적 추정과 검정 Pilsung Kang
Eliminating noise and other sources of error
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
제10장. 품질관리 (CHAPTER 10. Quality Control)
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
점화와 응용 (Recurrence and Its Applications)
Definitions (정의) Statistics란?
제3장 사회조사방법의 기본개념 변수(variable): 사람, 물건, 사건 등의 특성이나 속성이 두 가지 이상의 가치(value)를 가질 때 변수라고 함. 즉 상호배타적인 속성들의 집합 1) 속성에 따른 분류 -. 명목변수(Nominal Variable): 분류에 기초를.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
(Predicates and Quantifiers)
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
Chapter 4. Energy and Potential
Presentation transcript:

의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 2011. 강의 평가: 출석 20% 숙제 30% 기말고사 50%

의학연구에서의 통계학의 의의 환자 진료 시 필요한 정보들 (예: 진단방법 평가, 정상치 판정, 환자 모니터 등)을 객관적으로 수집, 분석하게 한다. 의학연구 시 연구설계에서부터 자료 분석까지 통계학적 지식이 요구된다. 의학논문 사독 시 비판적 해석 능력을 갖게 한다.

강의 목표 의학연구자료를 가장 적절하게 분석할 통계적 방법이 무엇인지 안다. 흔히 사용되는 통계방법의 결과들을 해석할 줄 안다. 의학논문을 읽을 때 통계적 오류의 가능성을 알아본다. 기본적인 통계분석을 수행할 줄 안다 (by manual or by using the statistical packages). 또한 어떨 때 통계전문가에게 의뢰해야 하는지 판단할 줄도 안다. 통계 프로그램의 작동법의 기초를 익힌다.

통계의 종류 기술통계 (Descriptive Statistics) 통계적 추론 (Statistical Inference)

기술통계 (Descriptive Statistics) 자료의 요약 및 정리(Ways of organizing and summarizing a collection of numbers) 기술통계를 통해 어떤 표본에서 측정된 수치들이 다양성을 가지면서도(variable) 그 가운데 일정성(regularity)을 갖고 있음을 파악하게 된다. 기술통계에 쓰이는 방법 – 그래프, 표, 수적 요약 지표(평균, 표준편차 등)

통계적 추론 (Statistical Inference) 한 표본에서의 관찰을 통해 그 표본이 대표하는 모집단에 관한 결론을 이끌어내는 방법이다. 즉, 모집단 전체를 관찰할 시간과 재원의 마련이 불가능하기 때문에 사용되는 기술이다. 통계적 추론이 어디에 근거해서 이루어질 수 있는지 이해하기 위해 우선 기본적인 확률론 및 확률분포에 관해 알아야 한다.

모집단과 표본 모집단 (population) 표본 (sample) 정보를 얻고자 하는 대상집단 전체. 모수 (parameter) 를 얻는다.   표본 (sample) 모집단을 대표할 수 있는 일부 집단 무작위추출 (random sampling) 이 필요 통계량 (statistic) 을 얻는다.

모집단(population) 과 표본(sample) 표본량, 검정통계량 모수, 참값 σ2 s2

모집단과 표본의 기호 모집단 표본 평균  표준편차  s 분율  p 상관계수  r 회귀계수  b 숫자  n

자료의 척도 명칭척도 (nominal data) 는 가장 간단한 형태의 자료이며 값들은 순서가 없는 범주 중 어디에 속하는지를 나타낸다. 예) 성별 – 남, 여 혈액형 – O, A, B, AB 국적 – 한국, 중국, 일본… 질병분류 – C50.9(유방암), C16.0(위암) 명칭척도가 2개의 값 만을 가질 때 양분성 자료 (dichotomous or binary data) 라고 부른다. 수치로 입력 가능 – 사칙연산은 불가

순위척도 (ordinal data) 는 범주형 변수이나 상대적 크기에 따른 순위를 매길 수 있다 순위척도 (ordinal data) 는 범주형 변수이나 상대적 크기에 따른 순위를 매길 수 있다. 예) 신체손상정도 – minor, moderate, severe 순위척도도 숫자로 표현되나 그 크기는 수학적 의미가 없다. 명칭척도와 순위척도를 합쳐 범주형자료 (categorical data) 라 부른다.

이산 변수 (discrete data or interval data) 에서는 순서와 크기가 모두 중요하다. 변수의 값은 범주만을 나타내지 않고 실제로 측정될 수 있는 크기의 값을 나타낸다. 그러나 이 척도는 정수 값이나 빈도 값 (count) 같은 특정한 값만을 갖게 된다. 예) 출산 수 서울지역 8월 1달간 교통사고 건수 연간 기형아 출산 수  이산 척도에서는 덧셈, 뺄셈, 곱셈이 가능하다.

연속 변수 (continuous data) 는 값의 순서와 크기가 모두 중요하면서 가질 수 있는 값의 종류가 무한한 변수를 말한다. 임의의 두 값 사이에는 언제나 다른 값이 존재할 수 있다. – 측정도구의 정확도가 한계 예) 체중, 키 생존기간 물의 오염물질 농도

연속 변수로 측정해도 이보다 적은 양의 정보만을 필요로 할 경우가 있다. 이런 경우는 연속 변수로 측정하고도 순위 척도나 양분성 변수로 변환시킬 수가 있다. 이렇게 하면 분석은 간단해 지나 갖고 있는 정보를 모두 활용하지 못하는 제한점이 있다.

연구 자료 수집 시 어느 정도의 정확도를 갖는 변수로 측정하느냐는 연구 가설에 전적으로 의지한다.   가능한 한 정확도가 높은 방법으로 정보량이 많은 척도로 측정하는 것이 좋다. 필요 시에는 언제든지 더 간단한 형태의 변수로 변환이 가능하기 때문이다.

2. 기술 통계

수적 요약 지표 자료 값들의 분포를 한마디로 나타내 주는 수치들을 말한다. 중심경향을 나타내는 측도 (Measures of location) 들은 표본자료가 어디에 가장 몰려있는지를 표시한다. – 평균 (mean) – 중앙값 (median) – 최빈값 (mode) 자료가 퍼져 있는 정도를 나타내는 측도들도 있다. – 범위 (range) – 사분위수간 범위 (interquartile range) – 분산 (variance) 또는 표준편차 (standard deviation)

평균 (Arithmetic Mean) 표본자료의 중심을 나타내는 척도 중 하나이다. 각 측정치를 x1, x2, x3, …. x10 으로 표현하자. 평균 (mean) 은 다음과 같이 구한다. 평균값은 극한값에 의해 크게 영향을 받을 수 있다.

중앙값 (median) 중앙값은 자료를 최소 수에서부터 최대 수까지 나열했을 때 50번째 백분위수 (50th percentile) 이다.(central point) 10명의 응급실 환자들에서 심박동수를 측정하였다. 40, 120, 120, 125, 136, 150, 150, 150, 150, 167 우선 자료를 작은 크기에서부터 큰 크기로 순서대로 정렬한다. 표본 수(n) 이 홀수이면, 중앙값은 [(n+1)/2] 번째 큰 수이다. 표본 수가 짝수이면 중앙값은 (n/2) 번째 수와 [(n/2)+1]번째 수의 평균이다.

심박수 자료에서 표본수는 10으로 짝수이다. 따라서 중앙값은 5번째 수와 6번째 수의 평균이 된다. 중앙값은 평균 보다는 극한값에 의해 덜 영향을 받는다. 이런 것을 robust 하다고 표현한다. 심박수 40을 제외하고 중앙값을 계산해 보자. 표본수가 9로 줄었으므로 중앙값은 (9+1)/2=5 번째 수이다. 즉 150회/분 이다.

왜도, 비대칭도 (skewness) Mode Median Mean 평균이 작은 값들에 의해 영향을 받는다. 예)상대습도 평균이 큰 값들에 의해 영향을 받는다. 예) 20대 여성에서 OC 사용기간

평균과 중앙값과의 관계 평균과 중앙값의 크기를 비교하여 분포의 대칭성 여부를 가늠하기도 한다. 대칭적 분포: 평균=중앙값 Positively skewed: 평균>중앙값 Negatively skewed: 평균<중앙값 Skewed 분포에서는 평균값보다 중앙값이 자료를 더 잘 대표해 준다.

최빈값 (mode) 최빈값 (mode) 는 가장 많이 관찰된 값이다. 심박수 자료에서 최빈값은 4번이나 관찰된 150회/분 이다. 연속변수로 측정된 자료는 최빈값을 가지는 경우가 거의 없다. 또는 1개 이상의 최빈값을 가지는 경우가 많다. 최빈값은 범주형 자료에 적절한 측도이다.

척도 Kurtosis 중심의 측도인 한 값이 자료의 모든 특성을 다 대변해 주지는 못한다. 다음의 상이한 세 분포는 동일한 평균과 중앙값, 그리고 최빈값을 가진다. 따라서 자료의 변이도 혹은 퍼져있는 정도를 같이 얘기해 줘야 자료를 제대로 표현할 수 있게 된다.

자료의 변이도 자료의 퍼져있는 정도를 표시한다. 범위 (range)는 최대값에서 최소값을 뺀 것이다. 사분위수간 범위 분산 및 표준편차 범위 (range)는 최대값에서 최소값을 뺀 것이다.   범위는 극한값에 의해 크게 변화한다.

사분위수간 범위 사분위수간 범위 (interquartile range:IQR) 는 75th percentile 과 25th percentile의 차이이다. 25th percentile 을 계산하려면, np/100=(10)(25)/100 = 2.5 (=k) 가 정수가 아니기 때문에 k(=2)+1 =3번째 큰 수이다. (=120) 75th percentile 은 큰 수에서부터 3번째 작은 수이므로 150이다. 따라서 사분위수간 범위는 150-120=30회/분 이다. 사분위수간 범위(IQR)은 중간 50% 의 자료를 포함한다.

분산 (variance), 표본분산 (sample variance) 표본 분산은 평균을 중심으로 자료가 퍼져 있는 정도를 계량화 한 것이다. 또 다른 공식은, 심박수 자료에서 분산은,

표준편차 (standard deviation) 심박수 자료의 표준편차는, 표준편차는 평균처럼 측정치들과 동일한 단위를 갖는 이점이 있다. 중앙값은 범위나 사분위수간 범위와 함께 잘 쓰인다. 평균은 표준편차와 같이 잘 쓰인다. 이산변수나 연속변수의 경우 수적 요약 지표보다 그래프나 표가 자료의 요약에 더 효과적이다.

변이계수 변이계수 (coefficient of variation;CV) 는 평균과 표준편차 간의 관계를 표현해 준다. 이는 평균에 대한 상대적인 변이를 나타낸다. 임상병리검사실 등에서 정도관리를 위해 2군데 이상에서 잰 동일한 검사의 측정값들을 비교할 때 사용된다.(정밀도) 측정 단위는 상쇄되어 없어진다.

평균값의 성질 측정치 x1, x2, x3, …., xn 이 있다고 하자. (1) x의 각 값에 상수 c1를 더한 측정치 y1=x1+c1, y2=x2+c1, y3=x3+c1, …. yn=xn+c1 이 있을 때, 이들의 평균은?

(2) x의 각 값에 상수 c2 를 곱한 측정치 yi yi=c2*xi yi 값들의 평균은,

이제 yi=c2xi + c1 인 경우에는 평균이

분산의 성질 xi 에 상수 c1을 더한 yi 의 경우, 분산은 변하지 않는다. xi 에 상수 c2를 곱한 yi 의 경우, 분산은 이다.

줄기 잎 전시 줄기 잎 전시 (stem and leaf display) 는 히스토그램 대신 쉽게 그릴 수 있다. 각 구간 내에서 개개 측정값의 위치를 파악할 수 있다. 방법 각 관측치를 줄기(stem) 부분과 잎(leaf; 맨 우측자리 수) 부분으로 구별한다. 가장 작은 줄기 수를 맨 위에 적는다. 두 번째 줄기 수 (first stem +1)..... 가장 큰 줄기 수를 쓸 때까지 지속 줄기 수 오른쪽으로 수직선을 긋는다. 각 관측치들을 해당 줄기 오른쪽에 잎에 해당되는 숫자로 적는다.

예) 124, 130, 130, 148, 149, 155, 163, 182 12 4 13 0 0 14 8 9 15 5 16 3 17 18 2 줄기 잎 전시   잎의 축적이 데이터의 전체적인 분포를 보여준다. 실측치도 보여주면서 범주화된 분포도 보여준다. 중앙값과 사분위수를 계산할 수 있다

상자수염도 (Box and wisker Plot) 이산변수나 연속 변수의 분포를 1개의 수직 축에 간편하게 나타낼 수 있는 방법이다. 자료를 전 부 다 나타내 주지는 못하나 비대칭성 (skewness) 을 알아내는데 편리하다. 우선 자료의 백분위 수 (percentile) 를 알아야 한다. P 번째 백분위수는 p% 관측치 보다 크거나 같은 값 혹은 (1-p)% 관측치 보다 작거나 같은 값을 말한다.

총 n 개의 관찰치가 있다고 하자. 값들을 작은 것에서 큰 것으로 순차적으로 나열하면 p 번째 백분위수는, 1) np/100 이 정수가 아닌 경우 (k+1) 번째 큰 관측치: k는 np/100 보다 작은 수 중 가장 큰 정수 2) np/100 이 정수인 경우 (np/100 ) 번째 수와 (np/100 +1) 번째 수의 평균

사분위수(percentile) : 25 백분위수, 75 백분위수 Box의 가운데 줄: 50 백분위수 (=중앙값 median) 사분위수, 중앙값: 자료의 대칭성 판단

외딴값 외딴값 (outlying value) X 는 다음과 같이 정의할 수 있다. 1) X > 75th percentile + 1.5 * (75th –25th) Or 2) X < 25th percentile – 1.5 * (75th – 25th) (75th – 25th) 는 바로 box 의 높이 이다. 외딴 값이 아니면서 가장 큰 혹은 가장 작은 값을 인접값 (adjacent value) 라고 한다. Box 높이의 3배 이상 떨어진 값을 극외딴값 (extreme outlying values) 이라 부른다.

Box plot 은 두 개 이상의 집단에서의 측정값의 분포를 쉽게 비교할 수 있는 장점이 있다.

3. 확률론 Probability

확률 (probability) 자료를 “기술”한 후에는 결론을 내리고 싶어한다. 1000명 중 4명이 질병에 걸린 경우와 1000명 중 5명이 질병에 걸린 경우가 있다 하자. 이 두 경우는 같다고 보아야 하는가 아니면 다르다고 보아야 하는가? 판단의 근거: 각 경우가 나타날 확률 확률은 관찰한 표본으로부터 얻어진 정보를 가지고 모집단의 특성에 관해 결론을 내리게 하는 근거이다. 가설검정이나 p-value를 해석하기 위해 확률에 관해 알고 있어야 한다.

사건 (event) 사건(event) 은 발생할 가능성이 있는 한 개의 결과(outcome) 혹은 결과들의 집합체를 말한다. 50세 된 남성이 일생 동안 심장질환에 걸리는 사건 한 여성이 다음 해에 임신하는 사건 원자력 발전소에서 5년 내에 방사능 유출이 있는 사건 사건은 일어나거나 혹은 일어나지 않은 상태 둘 중 하나이다. 사건은 보통 대문자 알파벳으로 나타낸다. (A, B, C 등)

확률의 정의 사건 A 가 일어날 확률이란, 같은 조건 하에서 무한히 많은 시행을 거쳤을 때 관찰되는 A 의 상대빈도로 생각할 수 있다. - “frequentist definition” n 을 시행 횟수라 하고 m 을 이중 A 가 발생한 횟수라 하자. n 이 무한대에 접근 할수록 m/n 은 P(A) 에 근접한다. 시행을 무한히 반복하기는 불가능하므로 확률은 (매우 큰) 유한의 수를 가진 자료에서 얻어진 경험적 확률로부터 추정된다.-“empirical probabilities” 이론적 확률로 modeling 을 통해 특정 사건의 확률을 추정하기도 한다. “Goodness of fit” 이란 경험적 확률이 이론적 확률과 얼마나 잘 들어맞느냐의 정도를 추정하는 것이다.

확률의 예 태어나는 신생아가 남자아이일 확률을 알고자 한다. 미국의 경우 1992년 자료에 의하면 4,065,014명이 태어났고, 이중 2,081,287명이 남자였다. 미국에서 태어나는 신생아가 남자아이일 확률은, Probability of an event A : P(A) 0  P(A)  1

4. 이산확률분포 Discrete Probability Distribution

확률변수 (random variables) 와 확률분포 (probability distribution) 어떠한 물량(物量)나 특성이 복수 개의 값을 가질 수 있으면서 그중 어떤 값을 가지는 지는 우연에 의해 결정될 경우 이를 확률변수라 한다. (사실상 측정할 수 있는 모든 변수) 확률변수는 이산변수이거나 연속변수이다. 이산확률변수는 유한 개의 값을 가질 수 있다. 연속확률변수는 특정 구간 내에 어떠한 값도 가능하다.

이산확률변수 (Discrete Random Variables ) 매 회마다 성공(event, 1) / 실패(non event, 0) xi : 성공 횟수 (X: 성공 횟수를 나타내는 이산확률변수) Pr(X=r) : 각 sample에서 N회 시행했을 때 성공 횟수가 r회일 확률

Example 4.4 (p.82) 치료약에 반응한 환자의 수 r 확률분포 Pr(X=r) 빈도 분포 (경험적 확률) 0.008 100명의 의사가 각각 4명의 새로운 고혈압 환자들에게 신약을 투여하였다. 제약회사가 기대하는 확률은, 위 표에서 확률분포는 무한히 많은 표본에서 나온 결과로 본다. 또는 기존의 알려진 분포에서 계산해오기도 한다.(이항분포) 치료약에 반응한 환자의 수 r 확률분포 Pr(X=r) 빈도 분포 (경험적 확률) 0.008 0.000=0/100 1 0.076 0.090=9/100 2 0.265 0.240=24/100 3 0.411 0.480=48/100 4 0.240 0.190=19/100

확률질량함수 치료약에 반응한 환자의 수는 0, 1, 2, 3, 4 의 5개 값 (outcome)을 갖는다. 각 outcome 에 확률을 할당하는 규칙이 확률질량함수 (probability mass function) 이다. (위의 경우는 표) 각 outcome 들은 상호 배반적이어야 한다. 전체를 이루는 사건들 (exhaustive events)

치료약에 반응한 환자 수가 3명일 확률은 P(X=3) = 0.411   치료약에 반응한 환자 수가 1명 이하일 확률은 P(X=0) + P(X=1) = 0.008 + 0.076 = 0.084

확률분포그래프 많은 경우 확률분포를 그래프로 나타낸다.

각 outcome 위의 막대의 넓이가 P(X=x)를 나타낸다. 전체 넓이는 1이다. 확률질량함수는 각 이산확률변수의 각 값에 대한 확률을 알려준다. 확률질량함수는 보통 잘 알려진 확률분포에서 유추한다. 확률질량함수와 빈도 분포가 어느 정도 비슷한지를 판단하는 것이 통계적 추론의 내용이다.(Goodness-of-fit test) 변수의 가능한 값을 모두 다 알고 있는 경우에는 빈도 분포가 확률분포를 대변한다.

모평균(기대치) 만일 확률변수가 많은 수의 값을 가질 경우, 확률질량함수는 별로 바람직한 자료 요약 방법이 못 된다. 이런 경우에는 중심 측도 및 분산을 산출하는 것이 좋다. 확률변수의 평균값을 “기대치 (expected value)” 혹은 “모평균 (population mean)” 이라 부른다. 이는 E(X) 혹은 μ 라 표시한다.

이산확률변수 X 의 기대값은, 앞의 예에서

모분산, 표준편차 이산변수 X 의 모분산은 Var(X) 혹은 σ2 로 표시한다. 이는 모평균 μ 의 주변으로 각 outcome 값들이 퍼져있는 정도를 나타낸다. Var(X) 는 각 이산변수 값 xi 와 평균 μ 사이의 거리를 자승한 후 이를 해당변수 값의 확률로 곱한 후 모두 합산한다.   X 의 표준편차는 이다.

이항분포 (Binomial Distribution) 양분성 확률변수 Y 를 생각하자. Y 는 “성공” 하거나 “실패” 하는 2가지 값만을 갖는다. 이러한 변수를 베르누이 확률변수 (Bernoulli random variable) 라고 한다. Y 를 주사바늘에 찔렸을 때 간염에 걸리는 여부라고 하자. 간염에 걸리면 Y=1, 안 걸리면 Y=0 이다. 주사 바늘에 찔린 많은 사람들을 관찰한 결과 약 30% 가 간염에 걸렸다고 하자. P(Y=1) = p = 0.3 P(Y=0) = 1 – p = 0.7

어느 날 두 명의 병원 직원이 주사 바늘에 찔렸다고 하자. 몇 명이 간염에 걸리겠는가? X 를 두 명의 직원 중 간염에 걸리는 사람 수를 나타내는 확률변수라 하자. X = 0, 1, 2 의 3가지 값을 갖는다. 각 값이 나올 확률을 계산해 보자 우리는 P(Y1=1) = P(Y2=1) = 0.3 임을 알고 있다. Xi Y1 Y2 P(X=r) 1 2

P(X=0) = P(Y1=0 and Y2=0) : Y1 과 Y2 는 독립적 = (1-p)(1-p) = (0.70)2 = 0.49   P(X=1) = P( [Y1=1 and Y2=0] or [Y1=0 and Y2=1] = P(Y1=1 and Y2=0) + P(Y1=0 and Y2=1) = p(1-p) + (1-p)p = 2(0.30)(0.70) = 0.42 P(X=2) =P(Y1=1 and Y2=1) =p2 = (0.30)2 = 0.09

이항분포의 파라미터 확률변수 X가 한 집단에서 간염에 걸릴 환자의 수를 나타낸다고 했을 때, X가 가지는 확률분포를 이항분포 (binomial distribution) 이라 한다. 베르누이 확률변수 Y에 대해 n 번 시행했을 때 n개의 상호 독립적인 outcomes 가 나온다.   각 시행들은 “성공”할 확률 p 를 가진다. 총 성공 횟수 X 는 이항분포를 따른다. X의 각 값들은 상호배타적이다. n 과 p 를 이항분포의 파라미터(parameter) 라 부른다. Y1 Y2 Y3 ….. Yn 1

이항확률계산 Sample of n independent trials : (n+1) discrete random variables Probability of k event out of n trials Number of ways to select random variable k Probability of each outcome : each discrete random variable Probability of event at a trial ; a priori 로 정해짐 = p

③ P(OXXOO) =(p)(1-p)(1-p)(p)(p)= p3(1-p)2 P(OXOXO) =(p)(1-p)(p)(1-p)(p)= p3(1-p)2 P(OOOXX) =(p)(p)(p)(1-p)(1-p)= p3(1-p)2 5회 시행에서 3회 성공을 관찰할 확률은 그 성공이 어떤 순서로 나타났던 간에 동일한 확률을 갖는다.

② N번의 시행 중 k 개 시행을 선택할 방법의 수는, ①

N=5, P(X=2)=? 5명의 어린이를 뽑았을 때 2명이 남자 아이일 확률은? P(boy) = 0.518 = p P(2 boys in specified 2 trials out of 5 trials) = (0.518)(0.518)(0.482)(0.482)(0.482) = (0.518)2(0.482)3  # of ways selecting 2 trials out of 5 trials 따라서 = 0.3.

정확한 이항 확률 n 과 p 가 작을 경우 Rosner Book Table 1 을 참조할 수 있다. Table 1은 n 과 p 의 값에 따라 각 k 값이 가지는 확률을 정리해 놓은 표이다.

이 표는 확률을 2개 이상 구해야 할 경우에 유용하다. 앞의 주사 바늘과 간염 예에서 5명의 직원이 주사 바늘에 찔렸을 때 최대한 2명이 간염에 확률을 구해보자. P=0.3, n=5 P(X2) = P(X=0) + P(X=1) + P(X=2) = 0.1681 + 0.3602 + 0.3087 = 0.8370

만일 10명의 직원이 찔렸다면 이들 중 최대한 7명이 간염에 걸릴 확률은 얼마일까. P(X7) = P(X=0) + P(X=1) … + P(X=7) = 1 – [ P(X=8) + P(X=9) + P(X=10)] = 1 – [0.0014 + 0.0001 + 0.0000] = 0.9985

확률변수 X 의 기대치 및 분산 기대치 분산 표준편차는 이다. 주사기에 찔린 직원을 10명 관찰하는 표본 관찰을 계속 한다면 한 표본에서 평균적으로 간염이 발생하는 횟수는, np = 10 x 0.3 = 3 회이다. 분산 간염 발생 횟수의 분산은, npq = (10)(0.3)(0.7) = 2.1 이다. 표준편차는 이다. p=0.5인 경우 분산이 최대가 되고, p=0 or 1 일 때 최소이다.

예) 전국 평균으로 5%의 가구에서 가구 내 어린이가 기관지염을 앓고 있다. 무작위로 추출된 20 가구에서 1 가구가 기관지염을 앓는 어린이를 갖고 있었다. 이 사건이 일어날 확률은? 우선, 이 사건은 n=20, p=0.05 의 파라미터를 갖는 이항분포를 가지는 것을 알아야 한다. 20 가구를 관찰하는 실험을 계속 한다고 할 때 기관지염 어린이를 가진 가구 수의 기대치는, np = 20(0.05) = 1 가구 이다.

20 가구 중 1 가구에서 기관지염 어린이가 있을 확률은, 부모가 모두 기관지염을 앓고 있는 가정 20 가구를 추출하였더니 이중 3가구에서 자녀들도 기관지염을 앓고 있는 것으로 나타났다. 일반적인 기관지염 어린이 가구의 유병율을 기준으로 20 가구 중 3가구에서 기관지염 어린이가 있을 확률을 구해보자.

이례적 사건 판단(unusual event?) 20 가구 중 3 가구에서 기관지염 어린이를 관찰하는 사건이 이례적인 일인가?  P(X3) 를 계산하여 판단해 볼 수 있다. 20 가구 중 3가구 혹은 그보다 더 많은 가구에서 기관지염 어린이를 관찰할 확률은 7.54% 정도이다. 일반적으로 사건 발생 확률이 5% 보다 낮으면 이례적(unusual) 사건이라고 판단한다. 따라서 20 가구 중 3가구의 관찰은 이례적 사건은 아니라고 판단한다.

이항분포의 정규근사 시행횟수 n ≥ 20 이고 p≈0.5 인 경우 이항분포를 정규근사 할 수 있다 (normal approximation to binomial distribution) X ~ B(n, p) --> X ~ N(np, npq)   p 가 0 이나 1의 근처 값을 가질 때는 성공 횟수가 양 극으로 몰리기 때문에 정규근사가 불가능해 진다.

포아종 분포 Poisson Distribution 일정한 시간 내에서 혹은 일정 표면적 내에서 사건이 발생하는 횟수가 갖는 분포이다. 보통 드문 사건 (rare event) 의 분포를 알고자 할 때 쓰인다. 이항분포와 달리 시행 횟수 및 성공 횟수가 무한히 클 수 있다.

예) X 를 인구 500,000명이 사는 한 지역에서 1년 동안 교통사고를 당하는 환자 수를 나타내는 확률변수라고 하자. 미국에서 한 개인이 교통사고를 당할 확률은 p = 0.00024 이다. X 는 시행횟수 n 이 매우 클 때의 이항 확률변수이다. n 이 매우 크면 이것을 계산하는 것은 매우 힘들 것이다. n 이 매우 크고 p 가 매우 작은 경우에 이항분포는 포아종 분포에 잘 근사된다.

포아송 확률 Rare event over time or over surface area k 는 X가 가질 수 있는 값이다. =t : expected number of events over the time period t  : expected number of events per unit time or rate at which event occurs   k 는 X가 가질 수 있는 값이다.

X 값은 0 에서 ∞ 까지 어떤 정수 값도 가질 수 있다. t 는 관찰기간  는 상수로 사건이 발생하는 속도이다. 포아종 분포의 확률밀도함수에서는 파라미터가  1개 이다. 포아종 분포에서는 사건 발생 확률이 매우 작아서 1개의subinterval of time에 발생하는 사건 수는 1개 이상이 되지 않는다고 본다.

포아송분포 vs. 이항분포 교통사고의 예에서 시간을 1분 단위로 자른다고 가정해보자. 1분 동안 교통사고가 1개 이상은 생기지 않는다고 본다. 1년간 관찰한다고 했을 때, 1분 단위 수를 시행 횟수로, 그리고 각 1분당 교통사고가 발생할 확률을 p로 놓고 p는 1년간 별 변화 없이 일정하다고 본다. 각 1분 단위마다의 사건은 상호 독립적이 된다. 이러한 경우 사건의 성공 횟수는 포아종 분포를 따른다. 그러나 앞의 예와 같이 인구 수가 비교적 적고 유한한 경우는 진성 이항분포로 n 개의 베르누이 시행이 있음을 의미하며, 각 시행은 사람 개개인을 나타낸다.

포아송 분포의 가정 1. The probability that a single event occurs within a given small subinterval is proportional to the length of the subinterval. P(1 death)t P(0 death over t)=1-t P(more than 1 death over t)=0  즉, 5분간 1건의 사망을 관찰할 확률은 1분간 관찰할 확률의 5배이다. 2. Stationarity : 단위 시간 t 동안의 사망수는 전체 기간 t동안 일정하다.  3. Independence : 한 단위 시간 동안에 발생한 사망이 다음 단위 시간의 사망 확률에 영향을 미치지 않는다.

예) 1년간 장티부스에 의한 사망자 수가 평균4.6명이고 포아종분포를 따른다 하자. 6개월간 발생할 사망자 수의 확률 분포는 어떠한가? t=1 year, =4.6  = t 4.6=1, =4.6, 6mo=t=4.60.5=2.3

Rosner book 의 부록 table 2 (p.822) 는 포아종 분포에 의거한 확률을 보여준다.  가 0.5에서 20.0까지 0.5 단위로 확률을 계산해 놓은 표이다.

포아송 분포에서 확률변수 X 의 기대치 및 분산 기대치 대개 평균과 분산이 비슷한 이산확률분포가 있으면 포아종 분포를 할 가능성이 높다.

포아송 분포의 정규근사 ≥10 인 경우 포아종 분포의 정규근사가 가능하다. (Normal approximation to poisson distribution) n 이 크고 p 가 작은 이항분포는 (n≥100, p≤0.01) 은 정규근사 대신 포아종 근사가 가능하다. E(X) = np Var(X) = npq=(np)(1) = np 따라서 E(X) = Var(X) --> Poisson approximation =np

예) 인구 500,000인 한 지역에서 1년간 교통사고를 당하는 사람의 수 X 의 기대치는, E(X) =  = np = (500,000)(0.00024) = 120  분산도 120과 거의 동일하다. 표준편차는 정확히 50 명의 사람이 한해에 교통사고를 당할 정확한 확률은 얼마일까?

이례적인 사건 한 해 20명의 교통사고 사망자는 매우 적은 숫자라고 할 수 있나? 이 확률은 0.05 보다 훨씬 작다. 따라서 어떤 해에 20명만 교통사고를 당하는 것은 이례적인(unusual) 일이라고 하겠다.

이항분포의 포아송 근사 언제 이항 분포를 포아송 분포에 근사시키는 것이 좋은가? 대개 시행 횟수 n ≥ 100 이거나 확률 p ≤ 0.01인 경우이다.   (참고) 포아송 분포는 처음에 이항분포의 시행 횟수가 매우 클 때 계산을 간단히 하기 위해 개발되었다. 그 후 매우 드물게 일어나는 사건에 대하여 일정 기간 동안 발생하는 횟수의 분포를 보는 데 독자적으로 사용되기 시작하였다.

5. 연속확률분포 -정규분포- Normal Distribution “The most widely used distribution in statistical work.”

연속확률함수 연속확률변수 X는 특정 범위 안에서 어떤 값도 가질 수 있는 변수이다. 연속확률변수 X가 특정한 값 (예: DBP=117.3mmHg)을 가질 확률=0 이다. 따라서 이산확률분포의 확률질량함수 개념을 그대로 쓸 수 없다. 대신 X 가 어떤 구간의 값을 가질 확률을 구한다. (예: 90 ≤ X <100, 100 ≤ X<110, 110 ≤ X 일 확률은 각각 15%, 5%, 1% 이다.)

확률질량함수 연속확률변수 X의 확률분포는 확률질량함수(Probability Density Function: PDF)라는 매끈한 곡선으로 나타나는데, 이는 X값이 a 와 b사이 값을 가질 확률이 밀도함수 곡선의 아래 면적과 일치하도록 만든 함수이다.(Fig 5.1) X값의 전 범위에 걸친 밀도함수 곡선 아래의 면적은 1이다. 즉, X가 가질 수 있는 모든 수가 나올 확률의 합은 1이다. 모든 연속확률변수들이 대칭적 종모양의 확률분포를 가지는 것은 아니다. (예: 중성지방)

연속확률분포의 기대치 및 분산 기대치 E(X)==평균 분산 표준편차

정규분포 Normal Distribution Gauss 분포 종형(bell-shaped curve), 완벽한 좌우대칭, 양 꼬리 부분에는 거의 자료가 존재하지 않는다.-no outliers 수학적으로 흠이 없다. 확률을 쉽게 구할 수 있다.  통계학에서 가장 중요하게 취급되는 확률분포 실측 분포가 아닌 이론적으로 유도된 분포 초창기에는 모든 관측치가 이 분포를 따라야 제대로 관측된 것이라고 생각하였다.- “정규” 이것은 틀린 생각으로 이 분포 이외의 분포들이 확률모형으로서 더 적합한 경우가 많다.

정규분포의 예 Harper et al. Nephrology Dialysis Transplantation. 2007;22:vii119-vii137

정규분포를 하지 않는 예 비정규분포를 하는 변수도 단위 변형을 통해 정규분포를 근사적으로 따르게 만들 수 있다. Serum triglyceride measurements in cord blood from 282 babies. (Bland. An Introduction to Medical Statistics, Third Edition, 2000) 비정규분포를 하는 변수도 단위 변형을 통해 정규분포를 근사적으로 따르게 만들 수 있다.

정규분포의 중요성 연속확률변수끼리의 합은 대체로 정규분포를 따른다. 이항확률변수 X는 시행횟수가 많으면 정규분포를 따랐다. 이항변수 X가 n 개의 베르누이 확률변수의 합이기 때문이다. 정규분포의 이러한 遍在 (omnipresence)로 인해 앞으로 다룰 가설검정 및 모수추정에서 대부분의 변수가 정규분포를 따르는 것으로 간주하고 통계분석을 하게 된다.

정규분포의 PDF 정규분포는 다음과 같은 확률밀도함수(probability density function: pdf)로 정의할 수 있다. , 정규분포의 파라미터는,

 와  변화에 따른 정규분포의 모양 12 with same σ σ1 σ2 with same 

정규분포에서 σ에 따른 확률

Notable Points in Normal Distribution 정규 분포 곡선 아래의 전체 면적을 1.0으로 했을 때 평균치를 포함한 각 점까지의 면적의 합은 다음과 같다. P( -  < x <  +  ) = 0.6826 (68.26%) P(-1.96 < x < +1.96) = 0.9500 (95.0%) P(-2.00 < x < +2.00) = 0.9545 (95.45%) P(-2.58 < x < +2.58) = 0.9900 (99.0%) P(-3.00 < x < +3.00) = 0.9973 (99.73%) P(-0.68 < x < +0.68) = 0.5034 (50.34%)

변수 변환 연속확률변수 X ~ N(, 2) 일때, If Y=a + bX, Y ~ N(a+b, b22) If X1~(1, 12), X2~(2, 22), X1과 X2가 독립적일때 X1X2 ~ N(12, 12+22)

표준정규분포 (standard normal distribution) 확률변수 X가 N(, 2)일 때 다음과 같은 변환에 의해 평균이 0, 표준편차가 1인 정규분포로 치환할 수 있다 . 원래의 관측치를 X라 하면 변환된 관측치는 Z로 표시한다.   Z가 따르는 정규분포를 표준정규분포(standard normal distribution)라 한다. 표준정규분포의 확률밀도함수는,

표준정규분포 곡선

누적정규분포 (cumulative normal distribution) 정규분포 곡선 아래의 면적을 X값이 - 인 때부터 누적 시킴으로써 이루어지는 또 하나의 확률분포가 있을 수 있는데, 바꾸어 설명하면 특정한 관측결과 x보다 작은 값이 나올 수 있는 확률 P(X x) 들의 분포를 말한다.

누적확률 P(X x) 는 N(, 2) 인 Pdf 에서 X=a 값의 왼쪽에 해당되는 밀도함수곡선 아래의 면적이다. 여기서 P(X<=a)는 P(X<a) 와 같다.

표준정규분포 표 각 x 값에 대한 누적확률표를 이용한다면 쉽게 확률을 알아낼 수 있을 것이다. 정규분포를 하는 모든  와 2값에 대해 모두 표를 만들 수는 없으므로 표준정규분포에 대한 확률표 하나만을 이용한다. 표준정규분포표(Table 3)의 column A 가 (x) 를 나타낸다.

표준정규분포표에서의 확률계산 표준정규분포의 대칭성을 이용하면 다음과 같이 편리하게 여러 가지 확률을 계산 할 수 있다. (-z) = P(Z  -z) = P(Z  z) = 1 – P(Z  z) = 1 – (z)

표준정규분포 표 읽기 P(X≤-1.96) if X~N(0,1) =1-P(X≤1.96) =P(X≥1.96) =0.025 Column A 1 - Column A Column B

표준정규분포 표 읽기 연습 표준 정규분포에서 P(-1 X 1) 은 얼마인가? 표 3에서 D 열 P(-1 X 1)=0.6827 이 확률은 평균 = 0, 표준편차 = 1 인 표준정규분포에서 X 값이 1 standard deviation 이내의 값을 가질 확률이다. X 값이 2 standard deviation 보다 큰 값을 가질 확률은? 표 3의 B 열 P( 2) = 0.0228 대칭성을 이용하면 P( -2) = 0.0228 표준 정규분포에서 X 가 어떤 값 x 이하 혹은 - x 이상이 나올 확률이 0.95인 x 는 얼마일까? P(-x  X  x) = 0.95 표 3 의 D 열에서 x = 1.96 표 3 의 B 열에서 X 가 1.96 SD 이상의 값을 가질 확률은 0.025 이다.

100 x uth percentile 표준 정규분포에서 100 x uth percentile 은 zu로 표시하고 P(X< zu )= u 표준 정규분포에서 80th percentile 은 어떤 값인가? P(X < z0.8 )= 0.80 표 3 의 A 열에서 P(X<0.84) = 0.7995 이고 P(X<0.85) =0.8023 이다. 더 가까운 값을 취한다면 80th percentile은 0.84 이다.

표준정규분포로의 변환 만약 X ~ N(, 2) 이고, 이면 Z ~ N(0, 1) 이다. P(a < X < b) 는 다음과 같다.  

예제 경도의 고혈압이 90  DBP < 100mmHg 인 경우라고 하자. 35-44세 남성의 DBP 평균이 80, 분산이 144라 할 때, 임의로 선택한 남성이 경도의 고혈압을 가지고 있을 확률은 얼마인가? P(0.833 Z 1.667) = P(Z 1.667) –P(Z 0.833) = 0.9522 – 0.7977= 0.155

이항분포의 정규근사 X~ B(n, p) 일때 n 이 충분히 크고 p가 0이나 0 근처에 있지 않을 때, X는 다음과 같이 정규근사 시킬 수 있다.(Fig 5.17) X ~ N(np, npq) when npq≥5 이항확률변수 X 가 a와 b사이의 값을 가질 확률 P(a≤X ≤ b)은 근사적으로 정규분포에서 a와 b 사이의 pdf 곡선 아래의 면적과 같을 것이다. 실제로는 (a-1/2)와 (b+1/2) 사이의 pdf 곡선 아래의 면적과 더 비슷함.(이산확률연속확률 근사 시 공통적용.) 이항분포에서 P(X=a) 일 확률은 정규분포의 P(a-1/2 ≤ X <a+1/2)에 근사한다. P(X=0)P(X ≤1/2), P(X=n)P(X ≥n-1/2)

예제 WBC 100개 중 중성구가 50-75개일 확률을 구해보자(중성구의 정상범위임). 단, WBC 중 중성구일 확율은 0.6이다. 정확한 확률은 정규근사를 이용할 때, P(50-0.5≤ X ≤75+0.5) = = = 0.9992-0.0162 = 0.983

포아송 분포의 정규근사 X~ P() 일때  가 크면 정확한 확률을 계산하는데 시간이 많이 걸린다.  가 어느 정도 이상 크면, X는 다음과 같이 정규근사 시킬 수 있다.(Fig 5.22) X ~ N(, ) when  ≥10 포아송분포에서 P(a≤X ≤b)일 확률은 정규분포의 P(a-1/2 ≤ X ≤ b+1/2)에 근사시킬 수 있다. 포아송분포에서 P(X=a) 일 확률은 정규분포의 P(a-1/2 ≤ X <a+1/2)에 근사한다. P(X=0)은 정규분포의 P(X ≤1/2) 에 근사한다.

예제 Petri dish 내의 단위면적 A 당 관찰되는 박테리아의 수 X 는 =A의 포아송 분포를 따른다. =0.1 bacteria/cm2이라 하고 A=100cm2라 하자. 박테리아가 20개 관찰되었다면 얼마나 드문 현상인가? 정확한 확률은 정규근사로 확률을 계산해 보면, X ~ N(A, A) Rare Event!

6. 모수추정 Estimation

서론 지금까지 이항분포, 포아송분포, 정규분포를 배웠다. 이때 모집단에서의 파라미터를 모두 알고 있는 것으로 간주하고 확률을 추정하였다. 의학연구에서 이루어지는 관측이나 자료수집은 거의 대부분이 모집단이 아닌 일부 표본에서 이루어지기 때문에 이를 통해 표본을 발생시킨 모집단의 성질을 추론해야 한다.

통계적 추론 (Statistical Inference) 모수추정(Estimation) : 모집단의 모수 값을 추정하는 일 (estimating the values of specific population parameters) 가설검정 (Hypothesis Testing) : 모집단의 모수가 어떤 특정 값과 같은 지를 검정하는 일 우선은 모수추정에 초점을 맞추자.

모집단 Population 연구대상 또는 관측대상의 궁극적인 상태를 모집단이라고 한다. 모집단의 특성을 결정지어 주는 각종 관측치를 모수(parameter)라고 하는데 예를 들어 ‘1990년 대한민국에서 출생한 신생아의 평균 체중과 분산’이라 할 때 모집단은 신생아 모두로써 유한모집단이 되고 이들의 평균 체중과 그 분산은 모수가 된다.

표본 Sample 한편 현실적으로 1990년에 대한민국에서 출생한 신생아 모두를 확인하여 그 체중을 관측할 수 없기 때문에 그 중 극히 일부분 예를 들면 특정기간 동안에 특정지역에서의 출생자나 특정병원에서의 출생자 등 만을 대상으로 체중을 관측하게 되는데 이때 실제 관측대상이 된 신생아를 표본(sample)이라 하고 그들로부터 관측된 평균 체중과 분산은 표본통계량(statistic)이라 한다.

모집단과 표본 대부분의 연구에서 모수 값을 직접 알아내는 것은 불가능하다. 모집단의 확률분포를 모르고 있다 하더라도 표본 평균 와 표준편차 s는 모집단의 평균  과 표준편차  (즉, 모수)를 추정하는데 활용된다. 표본평균이 정확히 모집단 평균과 동일할 가능성은 거의 없다. 표본에 어떤 사람들이 무작위로 뽑히는 가에 따라 표본 평균값이 달라진다. 이때 표본은 모집단으로부터 무작위추출(random sampling)된 것이어야 unbiased estimation이 가능하다.

난수(random numbers) 발생할 확률을 동일하게 갖고 있는 0 에서 9 까지의 정수 한 수의 발생은 다른 수의 발생에 영향을 주지 않는다 (독립적이다). 컴퓨터로 난수를 연속적으로 발생시켜 난수표 생성 (Table 4) 무작위표본을 뽑거나 임상시험에서 무작위 배정(random allocation)할 때 난수표 사용

무작위표본 1000명의 모집단에서 20명을 무작위로 뽑는 방법: 난수표에서 3자리수씩 20개 뽑은 후 모집단의 일련번호와 일치되는 사람들을 뽑는다. 1000명중 20명에 뽑힐 확률이 동일하게 유지함으로써 1000명을 가장 잘 대변하는 표본을 뽑을 수 있다.

무작위배정 임상시험 신약 A 의 효과를 입증하기 위해 환자들을 무작위로 2군으로 나눈 후 한 군은 A를 다른 한 군은 위약(placebo)를 투여하여 그 효과를 비교하는 연구이다. 무작위배정으로 동질의 두 군으로 나눌 수 있다. 환자군 10명을 무작위로 2군으로 나누는 법: 난수표에서 숫자 5개를 뽑는다. 뽑힌 숫자의 순서에 연구에 들어온 환자를 A 군으로, 나머지 순서의 환자를 위약군으로 한다. 매 환자 발생시마다 난수를 뽑아 짝수면 A, 홀수면 위약으로 배정한다.  두 군의 숫자가 달라질 위험성

표본평균치들의 분포 같은 모집단으로부터 표본 수 (N) 가 같은 독립적인 표본을 여러 번 추출하여 각 표본의 평균 ( ) 을 구하였다 하자. 는 확률변수이다. 표본에 어떤 사람들이 뽑히는가에 따라 다양한 표본이 가능하며, 다양한 값이 가능하다. 각 들이 나올 확률들의 분포를 생각할 수 있다. 이 표본평균치들의 분포를 알면 모수추정을 잘 할 수 있다.

We only see one!

중심극한정리 (Central Limit Theorem) “모평균이 이고 분산이 2인 무한모집단으로부터 N개의 표본을 추출하여 얻어지는 표본평균치들의 분포는 N이 어느 정도 크고, 추출, 시행이 무한히 이루어졌다고 할 때 극한적으로 정규분포를 따르며 표본평균치들의 평균은 가 되고 ( ) 표본평균치들의 분산은 과 같다.”

중심극한 정리 (central limit theorem)에 의해 모집단의 확률분포를 모르더라도 (혹은 정규분포를 하지 않더라도) 표본평균들이 정규분포를 한다는 사실을 적용하여 모평균을 표본평균치로부터 추정할 수 있다. Note the shape is similar to Normal distribution

표준오차 즉, N 이 어느 정도 크면, 이를 표준정규분포로 환원하면, 단, 는 표본평균치 단, 는 표본평균치 의 표준편차를 표준오차 (standard error of the means, SE( ) )라 한다. If N↑, then s.e.↓ If σ↑, then s.e.↑

표준오차의 개념- 예 예) 250명의 비행기 조종사의 혈압 측정치를 활용하였다. 이를 모집단이라 하자. 모집단의 평균 는 78.2 mmHg이고, 모집단 표준편차 는 9.4 mmHg이다. 모집단의 각 측정치를 250개의 조그만 딱지에 적어서 주머니 안에 집어넣었다.

30명의 학생들이 주머니를 잘 흔든 후, 각자 10개의 딱지를 골라낸 후, 그 값을 기록한 후, 그 평균 를 구하고 딱지는 다시 주머니에 넣었다. 이런 식으로 구해진 30개의 각각 다른 표본 평균들은 동일한 모집단 평균을 추정하는데 활용된다. 이 표본 평균들의 평균은 78.23 mmHg로 구해졌고 그 값은 모집단 평균과 거의 같은 값이다. 표본 평균의 표준편차는 3.01 mmHg로 이론적으로 구한 표준오차 값인 = = 2.97 mmHg 과 거의 같은 값이다.

이러한 연습을 반복하였는데 이번에는 표본 수를 20개로 하였다 이러한 연습을 반복하였는데 이번에는 표본 수를 20개로 하였다. 표본수가 10에서 20으로 증가함에 따라 표본 평균의 변이가 주는 것을 볼 수 있다. 표본 평균의 평균은 78.14 mmHg로 모집단 평균과 거의 같고, 표준편차는 2.07 mmHg로 이론적인 값인 = 2.10mmHg 과 일치한다.

신생아 예 (Table 6.2, p172) 예) 1000명의 신생아 체중들을 모집단으로 볼 때 표본 수 10인 표본의 평균이 98.0 과 126.0 oz 사이 값을 가질 ( ) 확률은 얼마인가? (단 모집단의 평균은 112.0oz, 표준편차를 20.6oz 이었다고 한다.) 표준정규분포표에서 P(-2.15  z  2.15)=0.9684

t-분포 (t distribution, Student t-distribution) 모분산 σ2 을 알고 있는 경우는 드물다. 이런 경우 표본에서 얻어진 s2으로 σ2 추정한다. 이때, 는 더 이상 정규분포를 따르지 않는다. 오히려 Student’s t distribution을 따른다.

t분포의 확률밀도 함수는 다음과 같다. , 수식에서 보면 분모에서 모표준편차 대신 표본에서 얻어진 표준편차 s를 사용하면 표준정규 z 분포가 아닌 t 분포가 되고 그 모양은 표본수 N (혹은 자유도 k=N-1) 에 따라 달라진다. 자유도 d인 t 분포에서의 100*uth percentile은 td,u로 표기한다. P(td<td,u) = u

t분포의 확률모형은 표준정규분포와 같이 0에 대해 좌우 대칭이나 표준정규분포 보다는 꼬리부분이 더 두꺼운 형태를 지닌다 t분포의 확률모형은 표준정규분포와 같이 0에 대해 좌우 대칭이나 표준정규분포 보다는 꼬리부분이 더 두꺼운 형태를 지닌다. 자유도 (N-1)가 작을수록 그 모양은 납작해지고 자유도가 커지면 점차 표준정규분포 모형에 가까워진다.

t distributions with higher degrees of freedom are more similar to the Normal distribution.