Probability.

Slides:



Advertisements
Similar presentations
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Advertisements

Ⅱ 세포의 주기와 생명의 연속성 Ⅱ 세포의 주기와 생명의 연속성 - 1. 세포주기와 세포분열.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
5.1 주관적 확률 컴퓨터 제조회사의 사장은 향후 5 년 동안 노트북 컴퓨터 수요 가 2 배 될 가능성을 70% 로 예측한다. 5.2 샘플공간은 2 개의 가능성을 가지고 있다. (1)A = Air France 는 아이오아주의 매일 포카텔로 로 운항하는 항공 편을 만들 예정이다.
이항분포와 정규분포 이항분포 정규분포.
재료수치해석 HW # 박재혁.
패턴인식 개론 Ch.4 기초 통계와 확률 이론 Translated from “CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | “
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
확률분포의 개념 미분과 적분의 개념을 사전에 공부한다.
제 4 장 여러 가지 분포.
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
1주차 품질관리 개론 2주차 QC 7가지 수법 3주차 통계적 품질 관리 1강 통계적품질관리 이론 2강 SQC의 수법-관리도
베이즈 정리(Bayesian Theory)
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
제 3장. 수치를 통한 연속형 자료의 요약.
패턴인식 개론 Ch.5 확률 변수와 확률 분포.
제9장 채널용량(Channel capacity)
Multimedia Programming 10: Point Processing 5
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
확률통계론 2장 : 확률변수.
상관함수 correlation function
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
제4장 제어 시스템의 성능.
확 률 변 수 2 1 이산확률변수 2 연속확률변수 3 기대값.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
Keller: Stats for Mgmt & Econ, 7th Ed
군집 분석.
Keller: Stats for Mgmt & Econ, 7th Ed 확률의 이해 Probability
Week 10:확률변수(Random Variable)
(independent variable)
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Week 5:확률(Probability)
4 장 신호(Signals) 4.1 아날로그와 디지털(Analog and Digital)
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
고체역학 2 - 기말고사 1. 단면이 정사각형이고 한번의 길이가 a 일 때, 최대굽힘응력과 최대전단응력의 비를 구하라(10).
밀도 (1) 부피가 같아도 질량은 달라요 ! 밀도의 측정 밀도의 특징.
두 모집단에 대한 검정.
Probability and discrete probability distributions (확률과 이산확률분포)
Frequency distributions and Graphic presentation of data
논문작성을 위한 연구모형 설정 양동훈.
Distribution(모의 실험에 자주 쓰이는 분포들)
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
Sampling Distributions
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
제 3장 신뢰성 척도 3.1 개요 3.2 신뢰성의 척도 3.3 수명분포별 신뢰성 척도.
통계해석 및 오차의 제거.
Chapter 3: 확률변수와 분포함수 Pilsung Kang
Ⅵ. 확 률 1. 확 률 2. 확률의 계산.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
(Permutations and Combinations)
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

Probability

What is Probability? Definition 어떤 사건 (event)이 일어날 가능성의 정도 Example 일기예보의 강우 확률 동전을 던져 앞면이 나올 확률 주사위를 던져 3 이상이 나올 확률 어떤 사건이 관측된 횟수 m Pr(x) = = 사건 전체가 관측된 횟수 M

Sample Space Sample Space (標本空間) Example 관측(실험)에서 나타날 수 있는 결과들의 집합 주사위를 한번 던졌을 때 나오는 표본 공간 주사위를 두번 던졌을 때 나오는 표본 공간 S1 = {1,2,3,4,5,6} S2 = {(1,1), (1,2), (1,3), (1,4), (1,5), (1.6), (2,1)…………….(6,6)}

확률변수 (Random Variable) 시행의 결과에 대한 수치적 기술 정의: 표본 공간에 대하여 정의된, 실수 값을 가지는 함수 (real-valued functions defined on the sample space) 즉, 두 개 이상의 수치값을 취할 수 있는 확률사상 (random event) 예: 3명의 어린이 중 남자아이의 수 (단, 남/여일 확률은 50:50일 경우) 새로 출시한 휴대폰이 정상작동 수명 항공사에서 고객별 기내반입 수화물의 무게 수치적인 특성에 따라 이산 확률변수와 연속 확률변수로 구분 영문 대문자로 표현 (X) 확률변수의 실제 발생 값 또는 관측치는 소문자로 표현 (x) X Y

이산 확률변수의 예 시행 확률변수 (X) 확률변수가 취할 수 있는 값들 신용카드회사에서 잠재고객에게 전화로 가입을 유도 (5명에게 전화함) 실제 가입한 고객 수 0, 1, 2, 3, 4, 5 자동공정에서 생산된 100개의 chip을 검사 불량 chip의 개수 0, 1, 2, 3, …, 100 K은행 고객상담창구를 하루 동안 운영 방문 고객의 수 0, 1, 2, 3, … O패밀리 레스토랑에 방문한 한 사람의 고객 고객의 성별 0 (여성), 1 (남성)

연속 확률 변수의 예 시행 확률변수 (X) 확률변수가 취할 수 있는 값들 은행 창구를 운영 고객들의 방문 간격 시간 1리터 병에 생수를 주입 주입된 생수의 부피 신제품 개발을 위한 프로젝트의 수행 1년 동안 완료된 프로젝트 진행비율 %

확률의 특징 ① 0 ≤ Pr(E) ≤ 1 ② Pr(S) = 1 ③ Pr(E) = 1 – Pr(E)

Conditional Probability P(A∩B) P(A/B) = P(B) P(A∩B)= P(B) * P(A/B) Thm. Bayes' Theorem : Let                   be a collection of n mutually exclusive and exhaustive events with P(A_i)>0 for i=1,2,...n. Then for any other event B for which P(B)>0                                                   

베이즈 정리(Bayes’ Theorem) 우리는 관심이 있는 사건의 최초확률 또는 사전확률(prior probability) 추정치를 가지고 분석을 시작한다. 그리고 표본, 보고서, 테스트 등과 같은 자료로 부터 사건에 대한 추가적인 정보를 얻게 된다. 이러한 새로운 정보를 알고 사전확률을 수정함으로써 사후확률(posterior probability)이라는 확률을 계산한다. 베이즈 정리(Bayes' theorem)는 이러한 사전확률을 수정하는 방법을 제공한다. 사전확률 새로운 정보 베이즈 정리 적용 사후확률

베이즈 정리(Bayes’ Theorem) 사건 B가 주어졌을 때 사건 Ai가 일어날 사후확률을 구하기 위해 베이즈 정리를 적용한다. 베이즈 정리는 사후확률을 계산하려는 사건들이 상호배반이며, 그들의 합집합이 표본공간을 이룰 때, 적용할 수 있다.

Discrete RV

이산 확률변수 이산 확률변수 (Discrete Random Variable) 1 분포 함수, F(x) 7/8 이산적인 값을 갖는 확률변수 확률 질량 함수 (probability mass function) f(x) = P(X=x). 확률 변수의 각 값이 발생할 확률 예: 임의로 3명의 아이를 뽑았을 때 남자아이의 수 (X)의 분포 1 분포 함수, F(x) 7/8 확률 질량 함수 f(x) 4/8 3/8 3/8 1/8 1/8 1/8 1 2 3 x 1 2 3 x

(단, 남/녀의 비율이 균등하게 50:50으로 이루어진 경우) 확률 분포 확률변수가 취할 수 있는 값과 확률과의 관계를 표현 가능한 확률변수의 값에 대하여 확률이 어떻게 분포되어 있는지를 기술 식, 테이블, 그래프 등으로 기술 가능 예: 임의로 3명의 아이를 뽑았을 때 남자아이의 수 (X) P(X=b) P(X=0) = 1/8 P(X=1) = 3/8 P(X=2) = 3/8 P(X=3) = 1/8 P(X≤b) P(X≤0) = P(X=0) = 1/8 P(X≤1) = P(X=0) + P(X=1) = 1/2 P(X≤2) = P(X=0) + P(X=1) + P(X=2) = 7/8 P(X≤3) = 1 (단, 남/녀의 비율이 균등하게 50:50으로 이루어진 경우)

누적 분포 함수 또는, 분포 함수 (Cumulative Distribution Function: CDF) 1 7/8 4/8 F(b) = P(X≤b) Non-decreasing F(∞) = 1 F(-∞) = 0 P(X>b) = 1 - P(X≤b) = 1 - F(b) 1 7/8 4/8 1/8 남자아이수 1 2 3 b

이산 균일 분포 (Discrete Uniform Distribution) 가장 단순한 형태의 이산 확률 분포 n = 확률변수가 가질 수 있는 값의 개수 f(x) = 1/n 확률 변수가 취할 수 있는 값의 발생 확률은 모두 동일 예 주사위 던지기 확률 변수: 주사위를 던져 윗면에 나오는 수 기대값: 분산: 동전 던지기

베르누이 분포 (Bernoulli Distribution) 베르누이 시행의 두 가지 기본특성 한번의 시행에서 오직 두 종류의 결과만이 가능, 이들 결과는 상호 배타적 베르누이 확률변수가 특정 값을 취할 확률은 시행횟수에 관계없이 항상 일정 앞면이 나올 확률이 p인 동전을 한 번 던질 때 확률변수: 동전을 한 번 던져 앞면이 나올 횟수, S= {앞, 뒤} 확률변수의 가능한 값: 0 또는 1; f(앞)=p, f(뒤)=1-p 베르누이 확률변수 1(성공)과 0(실패)의 두 가지 값을 각각 p와 1-p의 확률로 가지는 확률 변수(X) 주사위 던지기: 짝수가 나오면 1, 홀수가 나오면 0 품질 검사: 불량품이면 1, 양품이면 0 기대값 및 분산 E(X) =  = (1)(p) + (0)(1 - p) = p V(X) =  2 = (1 - p)2(p) + (0 - p)2(1 - p) = p(1 - p)

이항 분포 (Binomial Distribution) 이항확률 변수: 베르누이 시행을 n번 실시했을 때, 특정 사건 (성공)의 발생 횟수 베르누이 시행에 기초를 한 이항확률 계산방법 1단계: 구하고자 하는 결과를 임의의 순서로 나열 2단계: 곱셈법칙을 이용하여 확률 계산 (베르누이 시행에서는 시행 횟수에 관계없이 p가 일정) 3단계: 가능한 모든 경우가 몇 가지나 되는지 계산: 조합 4단계: 2단계에서 구한 확률과 3단계에서 구한 경우의 수를 곱함 주사위를 10번 던질 때 짝수가 2번 나올 확률은? 1,000개를 품질 검사했을 때, 불량품이 50개 이상일 확률은? 10개의 신규 사업투자에서 ROI 10%이상인 사업의 기대치는?

초기하 분포 (Hypergeometric Distribution) 모집단의 크기가 유한하고 비 복원 추출인 경우에 사용 베르누이 시행의 특성 중에서 각 사건간의 ‘독립성’을 완화시켰을 때 N개로 구성된 모집단 (Np (=R)개의 불량품 + N(1-p) (=N-R)개의 양품)에서 n개를 추출할 때, 이 중 불량품이 x개 포함되어 있을 확률 총 N개 불량품 Np개 양품 N(1-p)개 Np개 중에서x개 추출: NpCx N개 중에서 n개 추출: NCn N(1-p)개 중에서n-x개 추출: N(1-p)Cn-x (∵곱의 법칙)

특성 각 시행은 독립적이지 않으며, 시행에 따라 불량이 선택될 확률이 변함 이항분포와 밀접히 연관 S1: 첫 번째 시행의 결과가 불량일 사건 S2: 두 번째 시행의 결과가 불량일 사건 P(S2|S1) = (Np-1) / (N-1) P(S2) = P(S2 S1) + P(S2 S1C) = P(S1) P(S2|S1) + P(S1C) P(S2|S1C) = p(Np-1)/(N-1) + (1-p)Np/(N-1) = p ≠ P(S2|S1) 이항분포와 밀접히 연관 단 표본을 하나씩 추출할 때마다 모집단의 크기는 하나씩 줄어듦

초기하분포의 기대치와 분산 N이 충분히 크면 (n/N이 0.05이하), 이항분포와 유사 예: Cyworld 가입자 중 임의로 20명을 선정하여 성별을 조사 vs. 경영통계학 수강생 중 임의로 20명을 선정하여 성별을 조사

포아송 분포 (Poisson Distribution) A 자동차보험회사의 가입자들 중 1일 발생하는 자동차 사고건수의 평균은? B 이동통신회사의 콜센터에 오후 1시에서 2시 사이에 걸려오는 고객 상담 전화 건수의 평균은? 자동차 구입 후 1년 동안의 고장 발생 횟수의 분포는? 위 예들에서 각 사건의 발생은 통계적으로 독립 가정 가능 포아송 확률 변수: 제한된 시간이나 범위에서 사건이 발생한 횟수 특히, 그러한 사상(event)들이 발생할 건수(B)는 관측할 수 있지만, 발생하지 않은 건수(A)는 알 수 없어 발생비율을 계산할 수 없을 때 사용유용 A회 B회 관측안됨 B회 A회 + B회

포아송 분포의 확률 질량 함수 포아송 분포의 평균과 분산 E(X) = V(X) = l l값은 실험이나 경험을 통해 알 수 있음 λ :단위시간에 발생할 평균건수

Continuous RV

연속 확률 변수 연속적인 값을 갖는 확률 변수 (continuous random variable) 예: 은행창구 서비스 대기 시간의 분포 연속 확률 변수가 특정한 하나의 값을 가질 확률은 0으로 정의 대신, 확률 변수가 특정 범위 (구간)의 값을 가질 확률을 계산 연속 확률 변수의 확률 분포는 확률 밀도 함수 (probability density function) 또는 (누적) 분포 함수를 이용하여 기술 이산 확률 변수의 확률분포는 확률 질량 함수 또는 분포 함수를 이용하여 기술 가능

연속 확률 분포 확률 밀도 함수 (probability density function): f(x) 이산 확률 분포의 확률 질량 함수에 대응 연속 확률 변수가 특정 값을 가질 상대적 가능성 (likelihood)을 표현 확률 질량 함수는 이산 확률 변수가 특정 값을 가질 확률을 표현 예: dart game 확률 밀도 함수의 조건 즉 f(x) 아래 부분의 면적이 1 10 10 f(x) 면적 = 1 x

연속 확률 분포 확률값의 계산 누적 분포 함수: F(x) (누적) 분포 함수 확률 밀도 함수 1 P(X≤b) P(a≤X≤b) P(a≤X≤b) P(X≤a) a b x a b x

기대값과 분산 확률 변수의 기대값 (expected value) 또는 평균 (mean): 중심경향치의 척도 연속 확률 변수의 기대값 확률 변수의 분산 (variance): 분산도의 척도 연속 확률 변수의 분산 표준 편차 (standard deviation)

균일 분포 (Uniform Distribution) 연속 확률 변수가 가질 수 있는 값의 상대적 가능성 (likelihood)이 모든 값에 대해 동일 Dart game 0에서 10사이의 모든 값에 대해 상대적 가능성이 동일하므로 f(x)는 0과 10사이의 모든 값에 대해 동일 f(x) = c, 0 ≤ x ≤ 10; 0, otherwise 면적이 1이어야 하므로, 10×c = 1 따라서, c = 0.1 → 맞힌 값이 0에서 2사이일 가능성은 0에서 1사이일 가능성의 2배 10 f(x) 0.1 10

균일 분포 (Uniform Distribution) (누적) 분포 함수 F(x) 1 f(x) 면적: 0.1×d 0.1 0.1d d 10 d 10

균일 분포 (Uniform Distribution) 균일 확률 밀도 함수 (a < b) f(x) = 1/(b - a), a < x < b = 0, otherwise (누적) 분포 함수 균일 확률 변수의 기대값과 분산 E(X) = (a + b)/2 V(X) = (b - a)2/12 f(x) 1/(b - a) a b F(x) 1 f(x) 면적: 1/(b - a)×(d-a) 1/(b - a) 1/(b - a)×(d-a) a d b a d b

정규 분포 (Normal Distribution) 정규 분포의 모양과 특성 종형 (bell-shape)이며 좌우 대칭 m (기대값)와 s (표준 편차)가 분포의 모양을 결정 N(m, s 2): 평균이 m 이고 분산이 s2 인 정규 분포를 의미 기대값이 좌우 선상에서 분포의 위치를 결정. 표준 편차가 뾰족하고 퍼진정도를 결정 (p.127그림). 표준 편차가 클수록 넓게 퍼져있고 평평 기대값, 최빈값, 중앙값이 일치 확률 밀도 함수 기대값과 분산 E(X) = m V(X) = s 2  x f(x)

정규 분포 (Normal Distribution) 확률값의 계산: 표준 정규 분포의 활용 표준 정규 분포: m =0, s 2=1인 정규 분포 정규 분포의 특성: P(m < X < m + a×s )는 s값의 크기에 상관없이 항상 동일. μ=0, σ=1 μ=0, σ=1.5 a 1.5a μ=μ1, σ=1 μ=μ1, σ=σ1   + a 1 1 + aσ1

표준 정규 분포로의 변수 변환 X: 평균 m, 표준 편차 s인 정규 분포를 따르는 확률 변수 P(a < X < b) = P(a-m < X-m < b-m) = P((a-m)/s < (X-m)/s < (b-m)/s ) Y1 = X-m: E(Y1) = E(X-m) = E(X)-m = 0이므로, Y1~N(0, s2) Z = (X-m)/s = Y1/s: V(Z) = V(Y1)/s2 = 1이므로, Z~N(0, 1)  표준 정규 분포 따라서, P(a < X < b) = P((a-m)/s < Z < (b-m)/s ) = F((b-m)/s ) – F((a-m)/s ) F는 표준 정규 분포의 누적분포함수 표준 정규 분포표를 활용하여 확률 값 계산 확률변수 값을 Z값으로 변환 → 그래프를 그려 범위 파악 → 표준 정규 분포표의 값을 활용 (p. 532)

P(m - a×s < X < m + a×s ) = P( -a < Z < a ) X~N(m, s2)이고 Z~N(0, 1)일 때, P(m - a×s < X < m + a×s ) = P( -a < Z < a ) 평균으로부터 좌우 1s 범위의 값을 가질 확률 (a=1): 0.6826 평균으로부터 좌우 2s 범위의 값을 가질 확률 (a=2): 0.9544 평균으로부터 좌우 3s 범위의 값을 가질 확률 (a=3): 0.9974 Six sigma 예제 5-10~5-14 (p. 130~134)

이항 분포의 정규 분포로의 근사 이항 분포는 n이 크면 확률 값의 계산이 복잡 e.g. n=100, p=0.4, P(X>50)? p가 0.5에 가까우면 이항 분포는 좌우 대칭에 가까운 형태 예: n=10, p=0.1, 0.3, 0.5, 0.7, 0.9 일반적으로, np > 5 and n(1-p) > 5이면 정규 분포로 근사 예제 5-15