Download presentation
Presentation is loading. Please wait.
1
(Basic Statistics & Minitab)
※. 기초통계 및 미니탭 (Basic Statistics & Minitab)
2
통계학이란? 개념: 불확실한 미래에 대한 의사결정에 필요한 정보를 제공하기 위해
자료를 수집, 분류, 분석하며, 이를 바탕으로 결론을 제시하는 학문 일부로서 전체를 파악하기 위한 이론과 방법의 체계 통계학(Statistics)의 구분 기술(Descriptive) 통계 수집된 데이터로부터 평균, 분산 등의 요약 통계량이나 그래프를 이용하여 체계적으로 정리/요약하여 전반적 특성을 파악하는 통계 기술 추론(Inferential) 통계 표본에 포함된 정보로부터 모집단의 특성을 파악 및 타당성 검토하여 모수를 추론하거나 미래를 예측하는 통계기술
3
통계학의 필요성 통계학의 필요성 - 자료 수집의 어려움 - 비용 및 시간 - 시간의 경과에 따른 모집단의 변화
표본 조사 : 전체에 대하여 완전한 정보 (자료)의 획득이 불가능하거나 무의미할 때, 전체의 일부를 추출하여 조사하는 것.
4
통계적 사고 란 ? ■ 누군가 당신에게 『통계적인 사고가 무엇입니까 ?』 라고 묻는다면 당신은 어떻게 대답하시겠습니까 ?
■ 우리가 하고 있는 업무는 서로 연계되어 있는 프로세스다. (All Work occurs in a system of interconnected processes.) 공급자 고 객 프로세스 투입물 결과 Supplier Inputs Process Outputs Customer
5
통계적 사고 란 ? ■ 모든 프로세스는 항상 변동이 존재한다. (Variation exists in all processes)
변동의 원인이 되는 주요한 내용을 통상 5M 1E로 분류하고 있습니다. Men : 사람의 스타일, 능력의 차이 등 사람과 관련된 원인 Machine : 기계성능의 차이, 장비의 노화 등 장비(기계)와 관련된 원인 Materials : 투입되는 재료와 관련된 원인 Methods : 업무를 수행하는 방법관 관련된 원인 Measurement : 측정 도구의 정밀성과 정확성 등 계측 장비와 Environments : 업무 환경, 법률 등 프로세스 환경과 관련된 원인 ■ 이러한 변동을 이해하고 줄이는 것이 문제해결의 핵심이다. (Understanding and Reducing variation are keys to success)
6
모집단과 표본 모집단 (population)의 정의 : 연구 대상이 되는 집단 유권자 집단 TV 핫도그 연구집단 = 모집단
유권자 : 각 후보에게 몇 %의 지지를 보낼까? TV : 불량비율은 얼마나 될까? 핫도그 : 평균길이는 얼마나 될까? 연구집단 = 모집단 유권자 집단 TV 핫도그
7
모집단과 표본 좀 더 정확하게.. 모집단 (population)이란?
내가 궁금한건 핫도그 그자체가 아니라 길이니까…. 좀 더 정확하게.. 모집단 (population)이란? 연구 대상이 되는 집단에 대한 모든 가능한 관측값이나 측정값의 집합 연구집단 = 모집단 특정 유권자 의 투표결과 특정 TV의 양&불량 여부 특정 핫도그의 길이 (김대중, 김영삼,‥) (양, 불량) (4cm, 4.5cm,‥)
8
모집단과 표본 표본 (sample)의 정의 통계적 처리를 위해 모집단에서 실제로 추출한 관측값 또는 측정값의 집합
연구집단 = 모집단 특정 유권자 의 투표결과 특정 TV의 양&불량 여부 특정 핫도그의 길이 (양, 불량) (4cm, 4.5cm,‥) (김대중, 김영삼,‥) 유권자1 김대중 유권자2 김대중 유권자3 김영삼 TV1 양 TV2 불량 TV3 양 핫도그1 3.2cm 핫도그2 5.1cm 표본 표본 추출 단위 (sampling unit) !!
9
모수와 통계량 『 Example 』 모집단 (유한 또는 무한) 표본 ◎ 모집단 : ◎ 모수 : ◎ 표본 : ◎ 통계량 :
서울특별시에 에어컨 보급율을 예측하기 위하여, 서울특별시 가구 중에 1,000가구를 뽑아서 조사하였더니, 에어컨을 보유하고 있는 가구가 50가구였다. ◎ 모집단 : ◎ 모수 : ◎ 표본 : ◎ 통계량 : 모집단의 특성 : 모수 모집단 (유한 또는 무한) 표본의 특성 : 통계량 표본
10
Data의 유형 자료의 형태에 따른 분류 ㅇ 연속형 자료 (continuous data) 대표적 예)
連續量으로 측정될 수 있는 품질특성의 값. 대표적 예) 길이 (m, cm등), 중량 (kg/㎠ 등) 측정단위 (measurement unit)가 존재 측정을 통해 얻어지므로 측정형 자료라고도 불림 아울러 !! 중량 = ….kg /㎠ 연속量으로 얻어지므로 계량치라고도 불림. 단, 측정되지 않더라도 점수의 자료 (학력고사의 성적, 자동차 성능의 점수)는 계량치로 간주.
11
Data의 유형 자료의 형태에 따른 분류 ㅇ 이산형 자료 (discrete data) 1 대표적 예) 2 3 4
갯수로 셀 수 있는 품질 특성의 값. 1 대표적 예) 불량품의 수, 결점수 2 3 4 셀 수 있음. 보통, 0, 1, 2, ‥와 같이 陽의 整數値로구성됨. 아울러 !! 우열의 데이터, 순위의 자료, 집단화된 자료 등도 계수치로 간주 예) 만족도의 상/중/하 자료, 대리점 1/2/3/‥
12
Data의 유형 척도에 따른 분류 1. 시간 2. 비용 3. 용이성 목적 척도 Data 분석방법 자료특성 척도 분석특성
정보의 양 통계적용 기법 질적 Data 명목 Data 이산형 Data Yes 순서 Data 빈도 Data 구간 Data 양적 Data 연속형 Data 비율 Data No
13
Data 수집 표본이 모집단을 대표할 수 있는가?
14
Data 수집 ■ 표본 추출(Sampling) ◎ 표본 추출의 역사... 1. 휘휘 잘 젓는다. ▶ 치우침이 없다.
1. 휘휘 잘 젓는다 ▶ 치우침이 없다. 2. 한 Spoon 뜬다 ▶ 표본 추출 3. 판 단 한 다 ▶ 분석 : 통계량 4. 조 치 한 다. 효과적인 표본의 조건 : 치우침이 없이 모집단을 대표할 수 있어야 함. ◎ 치우침이란 ...
15
Data 수집 ■ 오 차 ■ 오차의 종류 표본에서 얻은 특성치와 모집단의 특성치와의 차이
□ 표본 추출오차 : 모집단을 대표할 수 있도록 표본을 선택하지 못했기 때문에 발생하는 오류 - 우연 원인 : 우연히 이상한 Data들만을 표본으로 취했을 때 발생 이는 Data의 수를 크게 함으로써 줄일 수 있음 - 편의(Bias) : 고의 또는 잘못된 Sampling계획으로 인하여 통계량이 모수와 멀어지는 경우. 이는 Data의 수를 크게 해도 제거할 수 없음.
16
Data 수집 □ 비표본 추출오차 : 표본 추출오차 이외의 오차 - 설문서의 질문 : 유도성 질문(의도한 답변), 전문 용어,
빈도를 나타내는 용어, 설문지의 구성, 질문의 순서... - 측정 방법의 부정확 : 사사오입의 조건... - Data의 입력 : Typing Error... - 기타 : 질의/응답 시...
17
Data 수집 ■ 표본 추출 방법 □ 단순 랜덤 추출(SRS : Simple Random Sampling)
- 모집단에 포함되어 있는 모든 구성원이 뽑힐 확률을 같게 하여 뽑는 방법. - 모집단에 대한 사전 지식이 없을 경우 주로 사용함. □ 층화 랜덤 추출 - 모집단을 성격에 따라 몇 개의 층으로 나누고, 각 층에서 단순 랜덤 추출을 실시하는 방법 - 층내에서 동질성이 높고 층간에는 이질성이 높을 때 정확도가 더 높음. □ 집락 표본추출 - 모집단이 자연적으로나 혹은 인위적으로 집단 (cluster)을 형성하고 있을 때 이러한 집단 중 몇 개를 랜덤하게 선택하여, 선택된 집단 전체를 조사는 방법. - 모집단이 크고 넓게 퍼져있을 때 효과적이다. □ 다단계 표본추출 - 몇 개의 단계를 거쳐서 최종 표본이 뽑히도록 설계된 방법 □ 계통 표본추출 - 시료를 시간적으로나 공간적으로 일정한 간격을 두고 취하는 방법 - 경향성이나 주기성이 있는 경우 편의가 클 가능성이 있음.
18
◈ 생각해 봅시다. 1. 아래에 주어진 상황에서 모집단과 표본을 정의 하세요.
한 국회의원은 자신이 제출한 법안에 대한 선거구민의 동향을 알아보고자 한다. 그의 보좌관은 이 법안에 대해서 361명의 선거구민으로부터 편지를 받았으며, 그 중 283명이 반대의사를 표명했다고 보도했다. 2. 다음 밑줄 친 숫자가 모수 인지 통계량인지 구별 하시오. - 근로자 6만명을 표본으로 하여 조사한 결과 실업률이 6.5%로 나타났다. 3. 한 회사는 2,000명의 남자와 500명의 여자를 사원으로 고용하고 있다. 업무 만족도 조사를 위해 적절한 표본추출법에 대해 설명하세요.
19
Data의 표현 ■ 분포(Distribution) * * * * * * * * * * * * * * * *
표본자료는 여러 가지 이유로 어떤 분포 모양을 가지게 된다. 모집단 표본 추출 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * × □ × ★ ▲ ▲ △ ● ◆ ▲ ○ □ ☆ ◇ ■ ● ◆ ◇ × ■ × ○ ☆ ○ ● ★ ○ ▲ ◆ × ◇ □ ■ ☆ △ 모집단 Process Business Process Supplier Inputs Process Outputs Market 모집단 Process 정보 자료수집 자료의 특성 파악
20
Data의 표현 1. (자료) 분포의 중심위치 2. (자료) 분포의 산포 3. (자료) 분포의 형태 자료의 특성을 파악하려면
무엇부터 알아야 할까? 2. (자료) 분포의 산포 3. (자료) 분포의 형태
21
Data의 표현 1. (자료) 분포의 중심위치 μ2 μ1 2. (자료) 분포의 산포 σ2 σ1 3. (자료) 분포의 형태
22
Data의 표현 ■ 중심 위치 : 분포의 중심 위치를 파악하는데 사용되는 연속형 수치 산술평균(MEAN : or μ )
중앙값(MEDIAN : ) 데이터를 크기의 순으로 배열하여 중앙에 위치한 값 최빈수(MODE : Mo) 자료의 분포에서 빈도수가 가장 많이 발생한 값
23
Data의 표현 ■ 산술 평균 Toner에 들어가는 잉크의 입자 크기를 6회 측정한 경우... 입자 크기 (단위 생략) :
이 자료의 “중심”은 어디인가? 즉, 중심은 어디에 위치하는가? 중심 위치 = 대표값? 실제로 중심 위치를 측정하는 몇 가지 방법들이 있음!!
24
Data의 표현 ■ 산술 평균 평균 (mean, 산술평균) 수학적 약속 Ⅰ 평균값은 로 나타낸다. 는 수집된 모든 자료를
평균값은 로 나타낸다. 는 수집된 모든 자료를 더하여 자료의 수로 나눔으로써 얻어진다. 합계를 나타내기 위해 그리스 대문자 Σ를 사용한다. 잉크 입자 크기 예의 경우 참고로, 모집단의 평균에 대해서는 그리스 소문자 μ를 사용한다.
25
Data의 표현 ■ 중앙값 잉크 입자 크기 예의 경우 추가로 입자 크기를 측정하여 17을 얻었다면 입자 크기 (단위 생략) :
“17” (산술) 평균은 4이며, 비정상적으로 큰 숫자 17 때문에 대표값이 높아짐. 이런 경우에는 (산술) 평균이 대표값으로서의 역할을 못함.
26
Data의 표현 ■ 중앙값 상대적으로 큰 값에 영향을 받지 않는 대표값을 구하려면? 첫번째 방법 1 1 1 2 3 3
자료들을 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수 = 중앙값 (median) 첫번째 방법 자료를 작은 값부터 큰 값 순으로 배열하면... 입자 크기 17을 측정하기 전 : 중심 위치 = 1과 2의 (산술)평균 = 1.5 자료의 개수가 짝수 이므로 입자 크기 17을 측정한 후 : 중심 위치 자료의 개수가 홀수 이므로 = 2 (산술)평균처럼 17의 측정 전 후에 대한 대표값의 차이가 심하지 않다.!!
27
Data의 표현 ■ 최빈값 상대적으로 큰 값에 영향을 받지 않는 대표값을 구하려면? 두번째 방법 1 1 1 2 3 3
자료들 중 가장 빈번하게 나타나는 값 = 최빈값 (mode) 입자 크기 17을 측정하기 전 : 중심 위치 = 가장 빈번하게 나타나는 값 = 1 입자 크기 17을 측정한 후 : 중심 위치 = 가장 빈번하게 나타나는 값 = 1 17의 측정 전 후에 대한 대표값의 변화가 없다.!!
28
Data의 표현 어떤 중심위치, 즉 대표값을 사용할 것인가? 그러나 !! 어떠한 대표값을 사용해도 무방하다.
중량, 길이 등의 연속형 자료. 즉 측정형 자료의 일반적인 분포 형태는... 분포 형태 = 좌우 대칭의 종모양 (산술)평균 = 중앙값 = 최빈수 그러나 !! 어떠한 대표값을 사용해도 무방하다. 통계 분석의 전개상 대부분 (산술)평균을 사용한다.
29
Data의 표현 왜? 분포의 형태가 치우쳐진 모양인 경우 ? 예) Major league 선수의 연봉 분포 형태
왼쪽 꼬리가 긴 치우침이 있는 분포 형태 왜? 자료의 본래 특성이 그렇다. 예) 프로 스포츠 선수의 연봉 분포 형태 표본추출을 잘못했다. 극히 작은 추출 횟수 중에 특히 크거나 작은 표본을 여러 차례 추출한 경우.
30
Data의 표현 ■ 산포 : 분포의 산포나 흩어짐을 측정하는데 사용되는 연속형 수치
■ 산포 : 분포의 산포나 흩어짐을 측정하는데 사용되는 연속형 수치 범위(RANGE) R = Max(X) – Min(X) 변동 (SUM OF SQUARE : SS) 분산(MEAN SQUARE : s2) 표준편차 (STANDARD DEVEATION : s) 사분위 범위(Inter Quartile Range) Q3 – Q1 표본의 경우 모집단의 경우
31
Data의 표현 ■ 산 포 도 중심 위치와 마찬가지로 산포도를 측정하는 몇 가지 방법들이 있음!!
중심위치는 자료들이 모여 있는 위치를 나타내는 유용한 정보지만 분포 전체의 모양을 보여 주지는 못함. 때때로 모여 있는 위치보다 흩어져 있는 정도 (산포)를 나타내는 측도가 더 중요할 수 있음!! 예) A, B 두 회사 타이어의 수명 분포 어떤 회사의 타이어가 믿음직한가? B회사 타이어의 평균수명이 6만으로 A회사보다 높지만, B회사 타이어 수명 분포의 흩어짐이 매우 커서 자칫 잘못 하면1만 km도 주행하지 못하는 타이어를 살 수도 있다. 1만 주행거리 (km) 5만 6만 ■ 산포도 (dispersion measure) : 자료값들이 흩어져 있는 정도를 나타냄. 중심 위치와 마찬가지로 산포도를 측정하는 몇 가지 방법들이 있음!!
32
Data의 표현 ■ 분산과 표준편차 분산 (variance)과 표준편차 (standard deviation)
분산과 표준편차는 평균값 로 부터 자료들이 떨어진 거리로서 자료의 흩어진 정도를 나타낸다. 즉 거리의 제곱을 사용한다. 만약, 점 에서 까지의 제곱거리가 이라면, 분산은 평균제곱거리 (기술적인 이유로, 분모에 n이 아니라 n-1을 사용)로 정의되며, ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 30 40 50 60 70 표준편차는 분산에 제곱근을 취한 형태를 갖는다. 잉크 입자 크기 예의 경우 (17을 취하기 전) 참고로, 모집단의 분산 (모분산)과 표준편차 (모 표분편차)에 대해서는 각각 를 사용한다
33
Data의 표현 ■ 범위 범위 (R) = 최대값 - 최소값 1 1 1 2 3 3 흠… 수식이 너무 복잡하군 최소값 최대값
최소값 최대값 범위 = = 2 : 범위는 계산이 용이하여 표준편차와 함께 산포의 측도로 자주 사용된다. : 특히 Gage R&R study, 관리도 (control chart)상에서 산포의 측도로 널리 쓰인다.
34
Data의 표현 ■ 사분위수 Q3 + [1.5 x (Q3-Q1) 범위] 실제 점까지 Q3 자료의 중간 50% 중앙값 Q1
특이 점 자료의 중간 50% Q3 + [1.5 x (Q3-Q1) 범위] 실제 점까지
35
Data의 표현 ■ 분포의 이해 1. 주어진 주사위(2개)를 던지세요 2. 나온 눈과 횟수를 이용하여 막대그래프를 그리세요.
3. 막대그래프의 꼭지점을 이어보세요. 2 3 4 5 6 7 8 9 10 11 12 눈의 합 나온 회수
36
확률 분포(Probability Distribution)
정 규 분 포 t – 분포 연속 확률분포 (연속형) – 분포 분 포 종 류 F – 분포 초기하 분포 이산 확률분포 (이산형) 이 항 분 포 포 아 송 분 포
37
정규 분포(Normal Distribution)
■ 정규 분포 연속형 변수의 확률분포이며, Gauss 분포라고도 불림. 평균을 중심으로 좌우 대칭. 확률변수 X가 평균 , 분산 을 갖는 정규분포를 따를 경우, 다음과 같이 표현한다. 확률 밀도 함수는 다음과 같다. 정규분포란? 정규 분포의 형태 평균값 = 중앙값= 최빈 값 -2σ -σ μ +σ 2σ 면적 68% 면적 95% 좌우대칭 χ축에 닫지 않음
38
정규 분포(Normal Distribution)
■ 정규 분포의 특징 정규 분포는 연속 확률 분포 중에서 가장 많이 이용되는 중요한 분포이다. 사회적, 자연적 여러 가지 자료들은 정규 분포를 따른다. 표본이 정규 분포를 따르지 않더라도 표본의 크기 (n)가 커지면 중심 극한 정리에 의해 정규 분포에 접근하게 된다. m s 정규 분포의 형태는 평균 m와 표준 편차 s에 의해서 결정된다. N (m,s2) 정규 분포는 평균에 대해서 좌우 대칭인 종 모양을 가지며, 평균에서 최대값을 가진다. 표준 편차는 평균에서 변곡점까지의 거리이다. 정규 분포 곡선과 X축 사이의 전체 면적은 항상 1이다. 주로 불량의 확률을 계산하기 위해 사용한다.
39
정규 분포(Normal Distribution)
■ 정규 분포의 의미 평균은 같고, 표준편차가 다른 정규분포 m = 20 s = 3.1 s = 3.9 s = 5.0 ■ 중심 극한정리
40
정규 분포(Normal Distribution)
■ 정규 분포의 의미 평균과 표준편차가 모두 다른 정규분포 m = 5, s = 3 m = 9, s = 6 m = 14, s = 10
41
정규 분포(Normal Distribution)
■ 정규 분포의 활용 00은행 직원의 신장은 μ = 170, σ = 10 이다. 180cm 이상은 몇 %일까? OO 카드사에서 고객은 5분 이내 업무처리를 원한다. A은행의 업무처리는 μ = 4분 σ = 1분이다. 몇% 고객이 불편을 참고 있는가? 고객의 요구수준 알고 싶은 확률 (%) 고객 불만 영역 150 -2σ 160 -1σ 170 μ 180 1σ 190 2σ 1 -3σ 2 -2σ 3 -1σ 4 μ 5 1σ 6 2σ 7 3σ 50% - (68% / 2) = 16% 50% - (68% / 2) = 16%
42
정규 분포(Normal Distribution)
■ 정규 분포의 표준화 평균이 0 이고 표준편차가 1인 정규분포를 표준정규분포 (Standard normal distribution)이라고 부르고, N(0, 1)으로 쓴다. z value : X라고 지정하는 어떤 값과 모집단의 평균 m 와의 거리를 모집단의 표준편차 s로 나눈 값을 말한다.
43
정규 분포(Normal Distribution)
정규 분포는 측정 대상에 따라 평균과 표준편차가 달라지므로 분포의 모습이 달라지게 되는데, 이것을 표준화하게 되면 원래의 정규 분포에 관계없이 항상 평균이 0이고 표준 편차가 1인 표준 정규 분포를 따르게 되어 확률의 계산이 편리해진다. 원래의 정규 분포 X ~ N (m, s2) 표준 정규분포 Z ~ N (0, 1) 표준화 x-m s Z= 곡선 아래 면적=1 m-s m m+s X Z
44
정규 분포(Normal Distribution)
■ 정규분포와 표준 정규분포 표준화 = 확률 계산이 용이!! 80 -2σ 90 -1σ 110 1σ 120 2σ 100 μ 70 -3σ 130 3σ A집단 μ = 100, σ = 10 -2 -1 1 2 -3 3 Z값 Z = X-100 10 60 140 40 160 B집단 μ = 100, σ = 20 20 N(μ, σ²)의 정규분포 N(0, 1)의 표준 정규 분포 N(100, 10²) N(100, 20²)
45
정규 분포(Normal Distribution)
■ 정규분포의 확률 변곡점 s 68.26 % 95.46 % 99.73 % X m-3s m-2s m-s m m+s m+2s m+3s 자료의 %가 평균에서 +/- 1 s 내에 놓여 있다 자료의 % 가 평균에서 +/- 2 s 내에 놓여 있다 자료의 %가 평균에서 +/- 3 s 내에 놓여 있다
46
정규 분포(Normal Distribution)
■ 정규분포의 확률 Z값이 커질수록 면적이 커짐 면적 84% Z값이 커질수록 확률값이 커짐 면적 50% 면적 16% Z값 70 -3 80 -2 90 -1 100 110 1 120 2 130 3
47
생각해 봅시다… 1. 세무청에서 발표한 자료에 의하면, 2001년 봉급 생활자의 월급여가 183만원이라고 한다.
이는 평균이라고 생각되는가, 아니면, 중앙값이라고 생각되는가 ? 2. IQ는 근사적으로 평균이 100이고 표준편차가 15인 정규분포를 따른다. IQ의 분산은 ? 3. 연령이 18세에서 24세 사이인 여자의 키는 평균이 160Cm이고, 표준편차가 10Cm인 정규 분포를 따른다. 160Cm보다 큰 여성은 몇 %인가 ? 지금까지 배웠는데??????
48
{ 기타 확률 분포(Probability Distribution) ■ F - 분포 정규 분포를 하고 있는 모집단에서
표본을 추출하여 두 표본의 분산을 비교할 때 쓰이는 분포가 F 분포이다. F분포의 특징 F 분포의 형태는 두 표본의 크기, 즉 자유도에 따라 달라진다. F분포는 좌우 비대칭이다. 두 표본의 분산의 차이를 비교할 때 사용한다. N(m,s2) 정규 모집단 표본 1 표본 3 표본 4 표본 2 n, S4 n, S3 F = { n, S1 n, S2 { Si2/Sj2 (Si >Sj) Sj2/ Si2 (Sj> Si) f (F) F값의 히스토그램 ▶ AVOVA, 동질성 검정 note: 모든 표본 크기의 조합 (n1,n2)은 각각 하나의 고유한 곡선을 가진다.
49
기타 확률 분포(Probability Distribution)
F – 분포
50
기타 확률 분포(Probability Distribution)
– 분포 - 정규분포를 따르는 모집단에서 표본을 추출했을 때 표본분산의 분포가 카이제곱 분포이다. 모 분산에 대한 추론, 범주형 자료 분석 등에 유용하게 활용. 비 대칭분포이며 모수인 자유도가 변함에 따라 분포가 달라짐. 자유도가 많아질수록 정규분포에 근사함.
51
이항 분포(Binomial Distribution)
■ 베르누이 시행(실험) – 성공 또는 실패, 양품 또는 불량품 등과 같이 2가지 결과만을 기대할 수 있는 실험 ■ 이항분포 – 베르누이 시행(실험)을 여러 번 시행해 특정한 횟수의 성공/실패 또는 양품/불량품이 나타날 확률을 알고자 할 때 나타내는 분포 무한 모집단= 모집단의 불량률 p Random Sampling 비복원 추출 시료(n) 시료중의 불량품 수 x 시료중의 양품 수 n-x 시료 n개 속에 포함된 불량품 수가 x개일 확률 이항분포 X~B(n,p) 유한 모집단 N=1000 모집단의 불량률 p Random Sampling 복원 추출 단, 0 p 1, x=0, 1, 2,,n 기대값 E(X) = np 분 산 V(X) = np(1-p) x n r P C X - = ) 1 (
52
▶ 2 항 분포는 p값에 관계없이 시행횟수 n가 점점 증가하면 도수분포의 그림은 점차
이항분포의 분포형태 N=6 N=10 N=30 N=60 ▶ 2 항 분포는 p값에 관계없이 시행횟수 n가 점점 증가하면 도수분포의 그림은 점차 평균을 중심으로 대칭에 가까워진다. (p=1/8)
53
이항 분포(Binomial Distribution)
(ex) 은행에서 전표처리 불량이 40%나 된다고 한다. 3개의 전표를 임의로 선택했을 때 불량 전표가 각각 0,1,2,3 개가 나올 확률은 얼마인가? N = p = 0.4 Random Sampling 비복원 추출 n = 3 x : 불량품 수 불량품 수(x) 1 2 3 경우의 수 양/양/양 불/양/양 양/불/양 양/양/불 불/불/양 불/양/불 양/불/불 불/불/불 3C0 = 1 3C1 = 3 확률 =COMBIN(3,0)*(0.4)0(1-0.4)3-0
54
포아송 분포(Poisson Distribution)
■ 일정한 단위(면적,시간,공간,구간 등)당 특정한 사실이 일어날 확률에 관한 분포 ■ 이항분포에서 ① 평균을 일정(np=m)하게 하고 n을 충분히 크게(n=)로 하는 경우 또는 ② n50 이고 p0.1인 경우의 이항분포의 확률값은 포아송 분포에 근사 한다. 포아송 분포에서 특정 사실이 정확히 x번 발생할 확률은 x = 0, 1, 2, ··· m = 일정단위(면적, 시간, 구간 등)당 평균발생 횟수 기대값 E(X) = m 분 산 V(X) = m e - m m x P ( X = X ) = ( 단 , e = ) r x ! ■ 포아송 분포의 적용을 위한 조건 1. 단위시간당 일어나는 사건의 발생은 서로 독립적이다. 2. 극히 작은 시간단위의 둘 또는 그 이상의 사건이 발생할 확률은 아주 작다. 3. 단위시간내의 사건 발생확률은 동일하며 시간에 따라 변하지 않는다. 4. 단위시간당 사건의 발생확률은 단위시간의 길이에 비례한다.
55
포아송 분포(Poisson Distribution)
(ex) 어느 전화 교환대에는 1분당 평균 2회의 전화가 걸려 온다고 한다. 전화의 도착횟수가 포아송 분포를 따른다면, ① 이 교환대에 1분당 3번의 전화가 걸려 올 확률은 얼마인가? ② 이 교환대에 1분당 최대 2회 이하의 전화가 걸려 올 확률은 얼마인가? m = 2회/분 ① ② 그러면 전화가 한번도 걸려오지 않을 확률은?
56
포아송 분포(Poisson Distribution)
■ 포아송 분포의 적용 예 전제조건 : 일정단위(면적, 시간, 구간 등)당 평균발생 횟수 ▶ 은행의 창구에 시간당 도착하는 고객의 수가 x명 이하일 확률 ▶ 자동차 대리점에서 하루에 차가 x대 이상 팔릴 확률 ▶ 공장의 자동 컷팅 기계가 1주일 동안 전혀 고장이 나지 않을 확률 ▶ 직물 1입방 야드당 나타날 수 있는 흠집이 x건 이하일 확률 ▶ 회로판 1개에서 발견할 수 있는 납땜불량이 x건 이하일 확률 ▶ 단위시간 내에 걸려 오는 전화수가 x건 이하일 확률 ▶ 경부 고속도로에서 하루에 발생되는 교통사고가 x회 이하일 확률 ▶ 공항에 착륙하는 비행기가 x대 이하일 확률 ▶ 고속도로 톨게이트의 도착차량이 x대 이상일 확률 ▶ 타이피스트의 1장 당 오타수가 x개 이하일 확률
57
이항 분포와 포아송 분포의 정규 분포화 ■ 이항 및 포아송, 정규 분포와의 근사관계
m 5일 때 계수형 분포를 계량형 분포로 근사 ) , ( 2 s m N ) ( Poisson m ① np = m & n = n이 충분히 크고 p가 아주 작은 경우 ② n 50, p 0.1 np 5이고 n(1-p) 5일 때 ) , ( binomial p n (ex) 어느 회사제품의 불량률이 3%라고 한다. 이 회사 제품에서 50개를 뽑았을 때 그 중에서 2개가 불량일 확률을 구하라. Sol) p = n = 50 m = np = 1.5 이항분포 포아송분포 =COMBIN(50,2)*(0.03)2(1-0.03)50-2 PERMUT(number,number_chosen)
Similar presentations