제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포 카이제곱분포 t-분포
제2장 통계학의 기초 4절 표본분포 5절 추정 추정의 개념 추정량의 바람직한 속성 6절 가설검정 가설검정의 기본 개념 검정통계량과 가설의 판정
1절 확률 1. 기본 정의 ◈ 확률(probability) → 가능성(chance)을 표현할 수 있는 언어 → 불확실한 상황에서 현명한 결정을 유도하기 위해서는 가능성의 정도에 대한 과학적인 분석과 가능성의 정도를 정확하게 표현할 수 있는 개념과 도구 필요 → 즉, 불확실한 사건의 발생 가능성에 대한 우리의 신념을 숫자로 표현한 것
1절 확률 ◈ 임의실험(random experiment) → 두 가지 이상의 가능한 결과 중 하나가 임의적으로 결정되는 과정 ◈ 사건 또는 사상(event) → 임의실험으로 얻게 되는 특정 결과들의 모임 사건A의 발생확률
1절 확률 - 확률의 공리(postulates) - 어떤 사건에 대해서도 는 다음을 만족한다. 2. 확률의 기본 공리와 법칙 - 여기서 는 표본공간, 은 공집합이다. -
1절 확률 <그림 2-1> 발생확률
확률의 덧셈법칙(the addition rule of probabilities) 1절 확률 확률의 덧셈법칙(the addition rule of probabilities) ◈ 결합확률(joint probability) → 여기서 사건 A와 사건 B의 교집합 확률 은 사건 A와 사건 B가 동시에 발생할 확률 ◈ 서로 배타적인(mutually exclusive) 사건 → 사건 A와 사건 B가 동시에 발생할 수 없는 경우 이 두 사건의 교집합은 공집합이며, 이 때의 확률은 0이 되는데 이런 사건 A와 사건 B
1절 확률 ◈ 조건부확률(conditional probability) → 사건 B가 발생하였다는 사실이 전제 되면 사건 A가 속할 수 있는 표본공간이 전체 기본요소들의 모임이 되는 것이 아니라 사건 B에 속하는 기본요소들의 모임만으로 축소되어 사건 A의 원래 발생 확률 P(A)도 변화 → 사건 B의 발생 조건하에 사건 A가 발생할 확률
1절 확률 확률의 곱셈법칙(multiplication rule of probabilities) 사건 A와 사건 B가 동시에 발생할 확률은 사건 A와 사건 B의 교집합 확률로 조건부확률 →
1절 확률 ◈ 통계적으로 종속(statistically dependent) → 한 사건의 발생이 다음에 발생하는 사건에 영향을 주는 경우 예) 고학력자의 경우 경제활동에서 봉급자일 확률 이 매우 높음 ◈ 통계적으로 독립(statistically independent) → 어떤 사건의 발생이 다른 사건의 발생에 아무런 영향을 주지 않는 경우 예) “오늘 비가 온다”는 사건과 “오늘의 대미환율이 상승한다”는 사건
1절 확률 두 사건 A와 B가 있을 때 두 사건이 통계적으로 독립(statistically independent)이기 위한 필요충분조건임 → 통계적으로 독립인 두 사건 A와 B의 조건부확률:
2절 확률변수와 확률분포 ◈ 확률변수(random variable) 이산(discrete) 확률변수 → 확률변수가 취할 수 있는 실수값의 수를 셀 수 있는 변수 연속(continuous) 확률변수 → 확률변수가 취할 수 있는 실수값의 수를 셀 수 없는 변수 확률변수(random variable)란 임의실험의 결과에 실수값을 대응 시켜주는 함수이며 X, Y, 혹은 Z와 같은 영문대문자로 표현한다.
2절 확률변수와 확률분포 ◈ 확률분포(probability distribution) → 어떤 확률변수가 취할 수 있는 모든 가능한 값들에 대응하는 확률을 나타내는 것 ◈ 확률함수(probability function) → 이산확률변수의 경우 확률변수가 특정한 값을 취할 확률을 나타내는 함수 ◈ 확률밀도함수(probability density function: PDF) → 연속확률변수의 경우 가 취하는 값과 확률밀도의 관계를 나타내는 함수
2절 확률변수와 확률분포 연속확률변수 가 <그림 2-2> 연속확률변수의 확률밀도함수 와 구간에 속하게 될 확률은 연속확률변수 가 와 구간에 속하게 될 확률은 에 의해 구할 수 있음
2절 확률변수와 확률분포 누적분포함수 : ◈ 누적분포함수(cumulative distribution function, CDF) → 확률변수 가 부터 특정한 값 사이에 속하게 될 확률 혹은 확률변수 가 특정한 값 를 넘지 않을 확률을 나타내는 함수 ◈ 기대값(expected value) → 분포의 집중화 경향을 측정하는 값 → 확률변수의 확률특성에 대한 모든 정보를 가지고 있는 확률분포의 특징을 통계적으로 계산하는 가장 기본적인 방법 누적분포함수 :
2절 확률변수와 확률분포 의 기대값 : 의 기대값 : 의 분산 :
2절 확률변수와 확률분포 ◈ 결합확률밀도함수(joint PDF) → 두 확률변수 와 가 있을 때 확률변수 가 특정한 값 를, 확률변수 가 특정한 값 를 동시에 취하는 확률을 나타내는 와 의 확률분포함수 결합확률밀도함수: <그림 2-4> 확률변수 와 의 결합확률밀도함수
2절 확률변수와 확률분포 와 가 서로 정의 관계 → 공분산은 양의 값 두 확률변수 와 의 결합확률밀도함수를 이용하여 두 확률변수의 관계를 분석할 수 있으며, 이를 위해 와 의 임의의 함수 의 기대값을 정의할 수 있음 와 가 서로 정의 관계 → 공분산은 양의 값 와 가 서로 역의 관계 → 공분산은 음의 값 와 가 서로 관계를 갖지 않으면 → 공분산은 0 공분산:
2절 확률변수와 확률분포 ◈ 주변확률분포(marginal probability distribution) → 두 확률변수의 결합확률분포로부터 각 확률변수에 대한 분포를 구할 수 있는데, 각 확률변수에 대한 분포 ◈ 주변확률밀도함수(marginal PDF) → (혹은 )가 취할 수 있는 모든 값들에 대한 결합함수의 합이 확률변수 (혹은 )의 주변확률이며, 그 확률을 나타내는 함수 ◈ 조건부확률밀도함수(conditional PDF) → 확률변수 가 어떤 특정한 값 를 취한 것이 전제가 된 상태에서 확률변수 가 어떤 특정한 값 를 취할 조건부확률 조건부확률밀도함수:
3절 정규분포와 관련 분포 1. 정규분포 정규분포의 확률밀도함수 확률변수 의 확률밀도함수가 다음과 같다면 는 정규분포를 갖는다 정규분포의 확률밀도함수 확률변수 의 확률밀도함수가 다음과 같다면 는 정규분포를 갖는다 <그림2-6> 평균이 다르고 분산이 같은 정규분포 <그림2-7> 평균이 같고 분산이 다른 정규분포
3절 정규분포와 관련 분포 정규분포의 확률밀도함수 식에서 평균 와 분산 를 제외하고는 모두 상수 정규분포의 확률밀도함수 식에서 평균 와 분산 를 제외하고는 모두 상수 → 정규분포의 모양은 평균 와 분산 에 따라 다양하게 결정 특별히 평균이 0이고 분산이 1인 정규분포를 표준정규분포(standard normal distribution)라고 정의 이 분포를 갖는 확률변수는 일반적으로 로 나타냄
3절 정규분포와 관련 분포 정규분포하는 확률변수들의 선형함수 역시 정규분포를 가짐 예) 정규확률변수(normal random variables) 과 의 선형결합 는 다음과 같은 정규분포를 가짐 여기서 는 각각 과 의 평균, 는 각각 과 의 분산, 그리고 는 과 의 상관계수
3절 정규분포와 관련 분포 표준정규분포의 구간확률은 확률밀도함수 아래에 위치하는 전체면적 중 그 구간에 속하는 부분면적으로 계산 → 표준정규분포하는 확률변수 가 부터 까지 구간에 속할 확률은 확률밀도함수 의 누적분포함수 를 이용하여 다음과 같이 구할 수 있음 <그림 2-8> 표준정규분포의 부터 까지 구간 확률
3절 정규분포와 관련 분포 2. 카이제곱분포 확률변수 가 표준정규분포를 가질 때 이 변수의 제곱 확률변수 가 표준정규분포를 가질 때 이 변수의 제곱 은 자유도가 1인 -분포를 가짐 -분포의 모양은 표본의 크기( )에서 1을 뺀 자유도(degrees of freedom; )에 따라 달라짐 자유도가 커질수록 정규분포에 가까운 모양을 가짐
3절 정규분포와 관련 분포 평균이 0이고 분산이 인 정규분포하는 개의 서로 독립인 확률변수 의 제곱을 분산으로 나눈 값을 합하면 표준정규분포하는 확률변수의 경우처럼 자유도가 인 -분포를 가짐
3절 정규분포와 관련 분포 <그림 2-10>-분포 분산이 인 정규분포를 이루는 모집단으로부터 표본크기가 인 선택 가능한 모든 임의표본이 추출되었을 때, 각 표본의 분산을 라고 하면, 는 자유도가 인 -분포를 따름
3절 정규분포와 관련 분포 3. t-분포 확률변수 가 표준정규분포를 갖고 확률변수 가 자유도가 인 -분포를 가지며 두 확률변수는 서로 독립이라면 다음 확률변수 는 t-분포(Student's t distribution)를 가짐
3절 정규분포와 관련 분포 ◈ t-분포 → 종의 모양. 평균 0을 중심으로 좌우 대칭. 표준정규분포에 비해 퍼져있어서 더 큰 분산값을 가짐. 분포의 모양은 -분포처럼 자유도에 따라 결정 자유도가 증가되면서 t-분포의 모양은 점점 표준정규분포에 근접 모집단의 분산을 모르고 표본의 크기가 충분히 크지 못할 때 신뢰구간이나 가설검정을 하는 경우 표준정규분포 대신 사용
3절 정규분포와 관련 분포 4. F-분포 계량분석의 가설검정 과정에서 자주 사용되는 F-분포(F-distribution)는 각각 자유도가 인 카이제곱분포를 갖는 두 확률변수 의 비율에 의해 정의
3절 정규분포와 관련 분포 확률변수 는 자유도가 인 F-분포를 가짐 ◈ F-분포
4절 표본분포 ◈ 표본분포(sampling distribution) → 표본이 갖고 있는 오차의 정도를 측정 → 모든 표본으로부터 계산된 통계량의 확률분포로 정의 → 표본평균이나 표본분산과 같은 통계량은 관측 가능한 확률표본의 함수 → 그 자체가 확률변수이므로 통계량은 확률표본이 달라짐에 따라 여러 가지 다른 값을 가져 상이한 확률분포를 갖게 됨
4절 표본분포 ◈ 중심극한정리(central limit theorem) → 모집단이 어떤 분포를 하여도 표본의 크기가 충분히 크다면 표본평균의 표본분포는 정규분포에 근접 → 표본 크기가 커질수록 표본평균의 표본분포는 보다 더 정규분포에 가깝게 됨을 의미
5절 추정 1. 추정의 개념 → 추정의 목적 : 표본정보의 함수인 표본통계량에 근거하여 모수의 근사값을 결정 → 적합한 표본통계량의 선택은 관심 있는 모수에 의해 결정 → 모평균은 표본평균에 의해, 모분산은 표본분산에 의해, 모비율은 표본비율에 의해 각각 추론 추정량(estimator)은 표본정보를 이용하여 알지 못하는 모수의 참값을 추정하는 방법이며, 알지 못하는 모수가 라면 일반적으로 추정량을 로 표기한다. 그리고 추정값(estimate)은 수치로 계산된 의 값이다.
5절 추정 2. 추정량의 바람직한 속성 모집단에서 무수히 많은 표본을 추출하여 각 표본 추정량의 값을 계산했을 때 추정량이 바람직하기 위해서는 추정값들의 확률분포가 모수를 중심으로 밀집되어야 할 것임 → 평균제곱오차(mean squared error: MSE)로 측정될 수 있음
5절 추정 여기서 교차곱 항은 0이 되고, 은 추정량 의 분산 그리고 은 추정량 의 기대값과 모수 와의 차이인 의 편의(bias)의 제곱이므로 MSE는 의 분산 그리고 와 평균과의 편차인 편의의 제곱에 의해 구성 추정량의 MSE 값이 작을수록 바람직하므로 추정량 의 평균이 가능한 한 에 근접하고 동시에 분산도 작아질수록 추정량이 바람직함을 의미
5절 추정 1) 불편성 추정량 의 분포의 평균에 해당하는 의 기대값이 모수 와 일치하면 을 에 대한 불편추정량(unbiased estimator)이라고 함 추정량의 기대값이 모수 와 일치하지 않으면 은 편의추정량(biased estimator)이라고 하며 그 차이가 편의임 물론 불편추정량의 편의는 0임
5절 추정 <그림 2-11> 추정량의 확률밀도함수
5절 추정 2) 효율성 <그림 2-12>의 두 추정량 은 모두 기대값이 모수와 일치하는 불편추정량이지만 의 분산이 의 분산보다 더 작아서 의 추정값들이 모수를 중심으로 더 밀집해 있기 때문에 이 모수를 정확하게 추정할 가능성이 더 크게 됨 이와 같이 두 불편추정량에서 분산이 작은 추정량이 보다 바람직한 추정량이 되며 이 보다 상대적으로 효율적(efficient)이라고 함
5절 추정 <그림 2-12> 불편추정량의 확률밀도함수
5절 추정 3) 일치성 크기가 n인 표본으로부터 도출된 추정량이 이고 일 때 임의의 에 대해 일 때 임의의 에 대해 이 성립되면 은 일치추정량이다. 이를 간단히 로 표시할 수 있으며, 이 때 를 의 확률극한(probability limit)이라고 함 plim =
5절 추정 <그림 2-13> 추정량의 일치성
5절 추정 4) 점근적 불편성 의 극한분포의 평균이 0인 경우 추정량 은 점근적 불편성(asymptotic unbiasedness)을 가지며 다음과 같이 정의 여기서 는 점근적 기대값을 나타냄 혹은
5절 추정 5) 점근적 효율성 모수에 대한 두 개의 일치추정량 이 존재하고 추정량의 분산이 0으로 수렴하는 속도가 보다 이 더 빨라서 모수를 중심으로 집중하는 경향이 커지면 이 보다 점근적으로 더 효율적인 추정량 즉, 일 때 이면 이 보다 더 점근적 효율성(asymptotic efficiency)을 가짐
6절 가설검정 ◈ 가설(hypothesis) → 모집단 모수에 대한 주장이나 예상 ◈ 가설검정(hypothesis testing) → 이 가설의 타당성 여부를 검토하는 통계적 방법 1. 가설검정의 기본 개념 ◈ 귀무가설(null hypothesis) → 설정된 가설은 잘못되었다는 충분한 증거가 제시되기 전까지 참(true)으로 받아들여지고, 로 표기 예) “도시근로자의 월평균소득은 200만원이다”, “핸드폰 평균 통화시간이 2분 30초보다 길다” ◈ 대립가설(alternative hypothesis) → 귀무가설이 잘못되었다는 충분한 증거로 귀무가설을 기각할 때 받아들이는 가설로 혹은 으로 표기
6절 가설검정 ◈ 단순가설 ◈ 복합가설 ◈ 단측대립가설 ◈ 양측대립가설 → 관심의 대상이 되는 모수의 값 하나만을 설정하는 경우 예) “도시근로자의 월평균소득은 200만원이다” ◈ 복합가설 → 모수가 속하는 범위를 설정하는 경우 예) “컴퓨터의 불량품 비율이 5%를 넘지 않는다” ◈ 단측대립가설 → 귀무가설에서 설정된 값 을 기준으로 어느 한쪽에 위치하는 모든 값을 포함하는 대립가설 예) “도시근로자의 월평균소득은 200만원보다 많다(또는 적다)” ◈ 양측대립가설 → 귀무가설에서 설정된 값만을 제외한 양쪽의 모든 값을 포함하는 대립가설 예) “도시근로자의 월평균소득은 200만원이 아니다”
6절 가설검정 가설검정의 유형 1. 양측검정 2. 단측검정 3. 단측검정 ◈ 결정규칙(decision rule) 또는 또는 ◈ 결정규칙(decision rule) → 표본정보에 근거하여 두 가지 결정 중 하나를 택하는 기준
6절 가설검정 모집단 모수를 알지 못하여 표본정보를 이용해야 하는 가설검정에서 어떤 규칙이 적용되든지 잘못된 결론을 내릴 가능성은 항상 존재 검정결과 실 제 이 참 이 거짓 채 택 옳은 결정 확률=1- 제2종 오류 확률= ( 위험) 기 각 제1종 오류 확률= (유의수준) 확률=1- (검정력) <표 2-1> 귀무가설에 대한 판정과 오류
6절 가설검정 귀무가설과 대립가설 중 어떤 것을 선택하든지 오류가 발생할 가능성은 언제나 존재하지만 바람직한 선택은 발생확률 와 를 동시에 낮추는 것 두 가지 오류를 동시에 줄이는 유일한 방법은 표본 크기를 늘리는 것 그러나 대부분의 경우 표본 크기가 고정된 상태에서 가설검정을 해야 되기 때문에 두 가지 오류를 모두 통제할 수 없게 되어 두 가지 오류 중 하나만을 통제해야 함 일반적으로 가설검정에서 제1종 오류가 제2종 오류보다 더 심각하다고 여기고 위험을 통제하게 됨
6절 가설검정 2. 검정통계량과 가설의 판정 가설검정의 목적 → 귀무가설의 타당성 여부를 결정 ◈ 검정통계량(test statistic: ) → 이 결정의 기준이 되는 표본통계량
6절 가설검정 예) 모평균 에 대한 가설검정을 한다면 검정통계량은 모평균의 표본통계량인 표본평균 로부터 다음과 같이 구할 수 있음 여기서 는 표본평균의 표준편차임
6절 가설검정 ◈ 임계값(critical value) → 임계값은 주어진 유의수준에서 귀무가설을 채택하거나 기각하는 의사결정을 할 때 검정통계량과의 비교기준이 되는 값 ◈ 단측검정 → 대립가설이 (혹은 )이고 가설검정의 유의수준이 일 때 검정통계량의 추정값 이 유의수준의 임계값보다 크면(혹은 작으면) 귀무가설을 기각 ◈ 양측검정 → 검정통계량의 추정값의 절대값 이 유의수준의 임계값 보다 크면 귀무가설을 기각
6절 가설검정 → 가설검정의 기각여부는 유의수준에 따라 달라질 수 있으며 가설검정에서 귀무가설이 기각될 수 있는 최소 유의수준 ◈ P-값(probability value) → 가설검정의 기각여부는 유의수준에 따라 달라질 수 있으며 가설검정에서 귀무가설이 기각될 수 있는 최소 유의수준 <그림 2-14> 단측검정( )의 기각역과 임계값( ) <그림 2-15> 양측검정( )의 기각역과 임계값( )
6절 가설검정 만일 P-값이 0.0001이라면 귀무가설이 기각될 수 있는 최소 유의수준이 아주 작기 때문에 0.0001보다 큰 5%나 1% 같은 일반적인 유의수준에서는 매우 높은 신뢰성을 갖고 귀무가설을 기각 물론 5%나 1% 같은 일반적인 유의수준보다 P-값이 크면 귀무가설을 기각할 수 없음
6절 가설검정 유의수준 결정은 가설검정 결과에 영향을 줄 수 있으므로 여러 가지 유의수준에 대한 검정결과를 평가하여 연구목적에 맞게 유의수준을 결정할 필요 있음 P-값을 이용한 결정규칙 P-값 < 유의수준 이면 귀무가설을 기각한다.
<표 2-2> 대학생들의 휴대폰 한달 평균비용 2장 실증분석 – 휴대폰, 내 친구! ☆ 대학생들의 휴대폰 사용요금은 얼마나 될까? 이를 알아보기 위해 특정 지역 대학생들을 대상으로 휴대폰 한달 평균비용이 얼마나 되는지 조사한 결과 다음과 같은 표본(n=50)을 구했다고 가정하자. <표 2-2> 대학생들의 휴대폰 한달 평균비용 55000 34200 50000 63000 43000 35500 80000 65000 35000 70000 40500 62000 76000 45000 64200 33000 44000 25000 30000 40000 40100 85000 68000 66000 57000 35300 90000 120000 34500 88700 30500 100000 50500 51000 60000 46000
2장 실증분석 – 휴대폰, 내 친구! 1. 가설검정 대학생들의 휴대폰 한달 평균비용이 5만원이라는 주장이 타당한지 5%의 유의수준에서 가설검정을 수행해보자. 귀무가설과 대립가설은 으로 설정하여 양측검정을 수행한다. 엑셀함수를 이용하여 표본평균, 표본분산과 검정통계량 을 계산한다.
2장 실증분석 – 휴대폰, 내 친구! 이 검정통계량은 중심극한정리에 의해 표준정규분포하게 됨 → 표준정규분포표 혹은 엑셀함수를 이용하여 양측검정을 위한 유의수준 =0.025의 임계값을 구할 수 있음 → 엑셀을 이용하여 구한 검정통계량은 1.1129이며 임계값은 1.9599 → 검정통계량이 1.9599과 -1.9599 사이에 속하게 되어 5%의 유의수준에서 가설검정의 결정규칙에 의해 은 채택 → 대학생들의 휴대폰 한달 평균비용이 5만원이라는 주장은 통계적으로 타당하다고 결론지을 수 있음
<그림 2-16> 검정통계량과 임계값 2장 실증분석 – 휴대폰, 내 친구! <그림 2-16> 검정통계량과 임계값
2장 실증분석 – 휴대폰, 내 친구! 2. 가설검정의 P-값 P-값 → 가설검정에서 귀무가설이 기각될 수 있는 최소 유의수준 혹은 귀무가설이 참일 때 계산된 검정통계량의 추정값 보다 검정통계량 이 더 극단에 위치할 확률 → 엑셀 함수 NORMSDIST(1.1129)를 이용하여 계산하면 P-값=1- NORMSDIST(1.1129)=0.13287 → P-값이 유의수준 0.05보다 크기 때문에 P-값을 이용한 결정규칙을 적용하여도 귀무가설은 채택
2장 실증분석 – 휴대폰, 내 친구! <그림 2-17> P-값