이항분포와 정규분포 이항분포 정규분포
이항분포 이항분포 베르누이시행(Bernoulli trial) 어떤 실험의 결과를 오직 두 가지 중의 하나로 생각할 때 이 실험을 베르누이 시행(불량&양품, 합격&불합격)이라 한다. 예제 5-1] 5개의 문항으로 구성된 객관식 시험문제에서 각 문항에는 정답과 오답 1개씩 두 가지의 선택이 있다고 하자. 어느 학생이 시험준비를 하지 못한 관계로 문제도 읽지 않고 마음대로 정답을 추측하여 답한다고 할 때 이 학생의 답 중에서 정답의 수를 X라 하고, X의 확률분포를 구하라.(P118) s, f (2가지) o o o o o x x x x x 2x2x2x2x2=32
이항분포 동전 세 개를 던지는 경우 얻을 수 있는 결과.. 이항분포의 일반식 가능한 것이 두 가지 밖에 없다 사상과 여사상의 두 가지 항목의 합의 형식으로 된 것을 이항이라고 하며 이것은 얼마든지 확대가 가능하다. 이항분포의 일반식 수표 4에 있는 파스칼의 삼각형의 이항분포계수
이항분포의 성질 이항분포의 확장 이항분포를 확대하였을 때 얻을 수 있는 이항 계수는 그 항이 일어날 수 있는 가지 수를 말한다. 이항분포를 확대시켜 가면 확률의 분포는 정규성에 가까워 진다. 정규분포와 이항분포 정규분포 이항분포 연속변인(어떤 값이라도 가질 수 있다)으로부터 얻어진 분포 비연속적인 변인(특정의 수치만 가진다)으로부터 얻어진 분포 무한수의 사례가 있는 전집에 기초를 둔 가설적이고 이상적이며, 이론적 분포 이론적인 것도 가능하나 대부분 경험적인 분포(예, 동전던지기)
이항분포 이항분포 베르누이 시행에서 ... 관심이 있는 결과를 성공(success)으로, 나머지 한 결과를 실패(failure)로 나타낸다. 이항 확률 변수(binomial random variable) 동일한 성공의 확률을 가진 베르누이 시행을 독립적으로 반복하여 시행할 때, 성공 횟수 이항 분포(binomial distribution) 성공 횟수의 분포
n번의 베르누이 시행에서 ... 이항분포 성공의 횟수가 x일 확률? (x-1)번의 실험은 성공으로, x번째 실험은 실패로, (x+1)번째 실험은 성공으로, 그리고 나머지 (n-x-1)번은 실패로 나타날 확률? 성공 x번, 실패 (n-x)번을 특정한 순서대로 늘어놓을 수 있는 경우의 수 n번의 실험에서 x번의 성공이 일어날 확률
이항분포 공식을 이용하여 예제 5-1의 확률분포를 나타내면, 이므로
예제 5-2] 어느 통계학과 교수는 한 주식종목의 일 주일 후 주가변동은 누구도 알 수가 없다고 주장한다 예제 5-2] 어느 통계학과 교수는 한 주식종목의 일 주일 후 주가변동은 누구도 알 수가 없다고 주장한다. 즉, 어떤 사람이 각 종목에 대해 주식값이 오른다 혹은 내린다 라고 예측했을 때 그 예측이 맞을 확률은 ½이라고 한다. 그러면 한 투자자가 20개의 종목에 대해 일 주일 후 주가의 등락을 예측하였다고 했을 때 통계학과 교수의 주장에 의하면 투자자의 주장 중 14개가 맞을 확률은 얼마인가? 한 투자자가 20개의 종목 중 14개가 맞을 확률
예제 5-3] A회사에서 생산하는 나사못이 불량일 확률은 0. 01이라고 한다 예제 5-3] A회사에서 생산하는 나사못이 불량일 확률은 0.01이라고 한다. 이 못을 10개씩 묶어서 한 묶음으로 판매하는데 10개 중 1개는 불량일 수 있다고 인정하고 불량 못이 한 개보다 많은 경우에는 반품할 수 있다고 하였다. 이 경우 한 묶음이 반품될 확률은 얼마인가?( P 122) 못 하나가 불량인 사건 : 불량률 0.01인 확률을 갖는 베르누이 시행 불량품의 개수 : 베르누이 시행이 10번 시행되는 이항 분포 불량품의 개수 : X 반품되는 사건 : 10개 중 2개 이상의 불량품이 발견되는 사건
예제 5-4] 예제 5-2에서 옳은 예측의 수가 12~14개일 확률을 구하라. 또한 15개 이상일 확률을 구하라.(P 123) [부록] p489 표3. n=20, c=14, c=11, p=1/2=0.5 N=20 c 0.05, ... , 0.5 , ... , 0.95 | | 11 . . . . . . . 0.748 . . . . 14 . . . . . . . 0.979 . . . .
예제 5-1] 에서 확률변수 X의 평균과 분산을 고려하면 이항분포의 평균과 분산 예제 5-1] 에서 확률변수 X의 평균과 분산을 고려하면 예제 5-2] 에서 확률변수 X의 평균과 분산
예약을 취소하는 승객 수의 표준편차는 얼마인가? 이항분포의 평균과 분산 예제 5-5] 어느 큰 항공회사는 국내선의 경우 자기 회사 항공권을 예약한 승객 중 10% 정도가 도중에 예약을 취소한다는 사실을 과거의 경험으로 알았다. 어느 특정한 날의 항공권을 예약한 승객이 1,000명이라면 이 중 몇 명 정도가 도중에 예약을 취소한다고 기대되는가? 예약을 취소하는 승객 수의 표준편차는 얼마인가? 1명의 승객이 예약을 하는 행위 : 1회의 베르누이시행 도중에 예약을 취소하는 것 : “성공” 예약을 도중에 취소하는 승객의 수는 실험의 횟수가 1,000. 성공의 확률이 1/10인 이항분포를 따른다.
[그림 5-1] 계급의 폭이 2cm인 상대도수 히스토그램 정규분포 확률밀도함수 예제 5-6] 초등학교에 입학하는 학생들 중에서 100명을 랜덤하게 뽑아 그들의 키를 재어 상대도수를 이용한 히스토그램을 그린 결과가 다음의 [그림 5-1]과 같았다. [그림 5-1] 계급의 폭이 2cm인 상대도수 히스토그램
확률밀도함수 (probability density function) [그림 5-1] 계급의 폭이 2cm인 상대도수 히스토그램 [그림 5-2] 계급의 폭이 0.5cm인 상대도수 히스토그램 [그림 5-3] 상대도수 히스토그램의 극한
연속확률분포는 상대도수 히스토그램의 극한적 개념 [그림 5-4,5] P[x-a≤x≤x-a] 연속확률변수 X가 어떤 값 x를 주위로 x-a와 x+a사이의 값을 취할 확률 [ a 0 ] [ 빗금친 부분의 넓이 0 ] 연속확률변수 X가 임의의 값 x만을 취할(즉, a=0) 확률은 0이 된다. 연속확률분포의 그래프에서 각 점에서의 높이는 그 값을 취할 확률이 아니다. 연속확률분포의 그래프에서 어느 한 점에서의 그래프의 높이는 그 점을 중심으로 확률이 어느 정도 밀집되어 있는지를 나타내어 준다.
연속확률변수 X의 확률밀도함수가 f(x)로 주어졌을 때, 두 값 a와 b 사이의 값을 취할 확률은 연속확률분포는 상대도수 히스토그램의 극한적 개념 [그림 5-6] P[a≤X≤b] 확률밀도함수의 그래프에서 전체 넓이는 1 상대도수의 히스토그램의 극한적 개념 연속확률변수 X의 확률밀도함수가 f(x)로 주어졌을 때, 두 값 a와 b 사이의 값을 취할 확률은 [그림 5-6]의 빗금친 부분의 넓이와 같다.
통신판매를 위주로 하는 월드닷 통상은 고객의 주문을 제대로 처리하는 비율이 약 90% 정도인 것으로 추정하였다 통신판매를 위주로 하는 월드닷 통상은 고객의 주문을 제대로 처리하는 비율이 약 90% 정도인 것으로 추정하였다. 즉 주문품목을 누락하거나 주문량을 제대로 맞추지 못하는 경우가 약 10% 정도이다. 만약 이번 주에 5건의 주문이 들어왔다고 가정한다면 주문내역을 제대로 처리할 주문건수의 기대치와 표준편차는 얼마인가? [풀이]주문내역을 제대로 처리할 비율이 0.9이므로 이 문제에서는 n=5, p=0.9이다. 기 대 치 = np= (5)(0.9)=4.5 표준편차 =0.671 S대학교에서는 현재 5대의 셔틀버스를 운영하고 있는데, 최소한 4대의 셔틀버스가 정상운영되어야 손실이 발생하지 않는다. 각 셔틀버스의 정상작동확률은 0.85이고 3대 이하로 운영할 경우에는 15만원의 1일 손실액이 발생한다. S대학교는 셔틀버스 1대를 추가로 임대하여 기대손실액을 20만원 이상 감소시키려고 한다. 이 경우에 임대료는 얼마로 계약되어야 하는가? [풀이]5대 운영시의 정상영업확률은 0.836이다. (0.85)5(0.15)0 + (0.85)4(0.15)1 =0.444+0.392=0.836 기대손실액은 (1-0.836)×30×15만원=73만 8천원이다. 한편 6대 운영시의 정상영업확률은 0.952이다. (0.85)6(0.15)0 + (0.85)5(0.15)1 + (0.85)4(0.15)2=0.377+0.399+0.176=0.952 따라서 6대 운영시의 기대손실액은 (1-0.952)×30×15만원=21만 6천원이 된다. 5대 운영시의 기대손실액에서 6대 운영시의 기대손실액을 빼면 52만 2천원이므로 20만원 이상의 기대손실액 감소를 원한다면 임대료는 32만 2천원 이하로 책정되어야 한다.
정규분포 정규분포(normal distribution; Gaussian distribution) - 연속확률분포의 일종 - 어떤 점에 대하여 대칭인 확률밀도함수의 그래프 (1) 종모양의 확률밀도함수의 그래프, 평균에 대하여 대칭 (2) 정규확률변수(normal random variable): 정규분포를 가지는 확률변수 - 평균 주위의 값을 많이 취하며 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 취하지 않는다. (3) 평균과 표준편차가 같은 두 개의 다른 정규분포는 존재할 수 없다.
정규분포의 중요성 - 정규분포는 지능지수, 사람들의 키, 대학생들의 평균성적, 최고혈압 또는 생산부품의 직경 등과 같이 여러 요인에 의해 영향을 받는 변수들의 확률분포로 이용될 수 있다 - 다양한 연속확률변수의 확률값도 정규분포를 이용하여 근사값을 구할 수 있다. - 수학적으로 복잡한 다양한 이산확률분포들도 정규분포를 이용하여 근사값을 구할 수 있다. - 정규분포는 ‘중심극한정리’라는 명제를 통해 추리통계의 기반을 제공한다. • 중심극한정리의 개념 - 모든 표본분포는 표본의 크기가 커짐에 따라 정규분포에 유사한 형태로 변해간다는 이론 • 정규분포의 특성 - 정규분포는 좌우대칭이며 확률곡선은 평균치에서 최고점을 가진다. - 모든 연속확률분포와 마찬가지로 곡선 아래의 전체면적은 100%이다. - 곡선은 횡축에 닿는 것처럼 보이나 결코 닿지는 않는다. - 정규분포는 평균과 분산에 따라 다양한 모양을 가질 수 있다. • 평균은 같으나 분산이 다른 정규분포( )
• 분산은 같으나 평균이 다른 정규분포( ) • 평균과 분산이 모두 다른 정규분포( , ) • 확률변수의 표준화 - • 분산은 같으나 평균이 다른 정규분포( ) • 평균과 분산이 모두 다른 정규분포( , ) • 확률변수의 표준화 -
정규분포(normal distribution; Gaussian distribution)
정규분포(normal distribution; Gaussian distribution) 표준정규확률변수(standard normal random variable): 확률변수 Z 표준정규분포(standard normal distribution): Z 분포 확률변수 X가 평균이 μ, 표준편차가 σ 일 때 평균이 0, 표준편차가 1인 정규분포를 따른다.
정규분포(normal distribution; Gaussian distribution) 예 5-7] 평균 20, 표준편차가 5인 정규분포에서 다음 확률을 구하여라. 는 표준정규분포를 따른다. (a) X≥30 <표 5> P498 Z 0.00, . . . . . | | 2.0 0.9772 . . . . . . . . . . .
정규분포(normal distribution; Gaussian distribution) 예 5-7] 평균 20, 표준편차가 5인 정규분포에서 다음 확률을 구하여라. 는 표준정규분포를 따른다. (b)X<15 <표 5> P498 Z 0.00, . . . . . | | 1.0 0.8413 . . . . . . . . . . .
정규분포(normal distribution; Gaussian distribution) 예 5-7] 평균 20, 표준편차가 5인 정규분포에서 다음 확률을 구하여라. 는 표준정규분포를 따른다. (c) X가 10과 25 사이 Z 0.00, . . . . . | | 1.0 0.8413 . . . 2.0 0.9772 . . . <표 5> P498
예 5-8] 어느 대학의 학생들의 키는 근사적으로 평균이 171cm, 표준편차가 5cm인 정규분포를 따른다고 한다 예 5-8] 어느 대학의 학생들의 키는 근사적으로 평균이 171cm, 표준편차가 5cm인 정규분포를 따른다고 한다. 한 학생을 임의로 뽑았을 때 그 학생의 키가 165cm보다 작을 확률은 근사적으로 얼마인가? <표 5> P498 Z 0.00, . . . | | 1.2 0.8849 . . .
예 5-9] 표준정규확률변수 Z가 z0보다 클 확률이 0.2인 z0를 찾아라. <표 5> P498
예 5-10] 매년 비슷한 수준의 어떤 자격시험의 성적의 분포는 지난 수년간의 기록을 살펴볼 때 근사적으로 평균이 70, 표준편차가 8인 정규분포를 따른다고 한다. 올해 역시 비슷한 시험을 시행할 예정이며 과거의 성적분포에 따른 상위 30%에 해당하는 점수를 얻으면 합격시키려 한다. 올해 시험에 합격하기 위해서는 몇 점을 받아야 하는가? 0.3
월드닷항공은 서울과 백두산을 연결하는 항공노선을 운영하고 있다 월드닷항공은 서울과 백두산을 연결하는 항공노선을 운영하고 있다. 100명이 탑승할 수 있는 비행기만을 운행하는 이 노선의 예약 부도율은 10%이다. 즉, 10명이 예약하면 평균 1명은 비행기를 타지 않는다는 의미이다. 오늘 노선은 100% 예약이 완료되었다. (a) 오늘 출발하기로 예약한 고객 100명 중 미탑승자가 5명 이하일 확률은 얼마인가? (b) 예약 고객 100명 중 미탑승자가 12명 이상일 확률은 얼마인가? (c) 예약 고객 100명 중 미탑승자가 6명 이상이고 12명 이하일 확률은 얼마인가? [풀이] (a) 미탑승객수가 5명 또는 그 이하일 확률은 정규분포에서 값은 -1.5 이하일 확률이다. 정규분포표에서 값은 -1.5 이하일 확률은 0.5-0.4332=0.0668이다. (b) 미탑승객수가 12명을 초과할 확률은 정규분포에서 값은 0.83 이상일 확률이다. 정규분포표에서 값이 0.83 이상일 확률은 0.5-0.2967=0.2033이다. (c)마지막으로 미탑승객수가 6명과 12명 사이일 확률은 (5.5≤ ≤12.5)가 되므로 앞에서 구한 값을 이용하면 정규분포 하에서는 0.4332+0.2967=0.7299이다.
정규분포(normal distribution) 연속확률분포 중에 가장 대표적인 분포 종모양으로 좌우대칭인 분포 평균(μ)과 분산(σ2)에 따라 구체적인 분포의 위치와 모양이 결정됨
표준정규분포 일반적인 정규분포상에서 확률변수가 특정구간 내의 값을 가질 확률을 직접 구하기는 매우 어려움 일반 정규분포를 표준편차를 단위로 하는 표준정규분포로 변환 시키면 구하고자 하는 확률값을 비교적 용이하게 구할 수 있음
기타분포 T 분포 카이제곱( )분포 F분포 평균이 0,표준편차가 1인 구릉이나 종모양의 좌우대칭인 분포 자유도(df)에 따라 그 모양이 변하고 자유도가 30개 이상(df≥30)이면 표준정규분포(Z분포)와 거의 일치함 카이제곱( )분포 확률변수는 연속확률변수로서 항상 양(+)의 값만을 가짐 오른쪽 꼬리를 가진 비대칭분포임 자유도(df)에 따라 모양이 변함 자유도(df)가 커질수록 정규분포에 가까워짐 F분포 확률변수 F는 항상 양의 값만을 갖는 연속확률변수임 X2분포와 다르게 2개의 자유도를 가짐 2개의 자유도(df)에 따라 분포의 모양이 변함 오른쪽 꼬리 모양을 갖는 비대칭 분포임