Presentation is loading. Please wait.

Presentation is loading. Please wait.

6σ를 위한 알기 쉬운 기초통계 Histogram 이항분포의 정규 근사 정규분포(n ≥30) t (5) :자유도 5인 t 분포

Similar presentations


Presentation on theme: "6σ를 위한 알기 쉬운 기초통계 Histogram 이항분포의 정규 근사 정규분포(n ≥30) t (5) :자유도 5인 t 분포"— Presentation transcript:

1 6σ를 위한 알기 쉬운 기초통계 Histogram 이항분포의 정규 근사 정규분포(n ≥30) t (5) :자유도 5인 t 분포
계급의 크기 (막대 폭) 계급 값 (막대중앙) Histogram 이항분포의 정규 근사 정규분포(n ≥30) t (5) :자유도 5인 t 분포 t (10) : 자유도 10인 t 분포 X1 평균 표준편차 – 정규분포(평균 μ, 분산σ2) 확률변수 X는 X ~ N(μ, σ2) ~19 변환 6시그마를 위한 기초통계

2 목차 1. 통계학(Statistics)이란? 2. 기술통계(Descriptive Statistic)란?
3. 데이터(Data)란? 4. 확률분포(Probability Distribution) 5. 추정(Inference) 6. 검정(Testing) 7. 두 모집단의 비교 8. 상관분석 (Correlation) 9. 분산분석(ANOVA) 10. 질적 자료분석 11. 자료출처 ~19 변환 6시그마를 위한 기초통계

3 통계학이란? 통계학의 정의 통계학은 특별한 의도나 목적을 가지고 조사 연구할 때 1. 자료의 수집방법뿐만 아니라
2. 측정된 자료를 정리하여 정보화하고 3. 그러한 정보를 바탕으로 의사결정을 하는데 있어서 과학적이고 효율적인 방법을 연구 개발하는 학문이다. 통계학의 분류 기술 통계학 관찰대상 전체에서 얻어진 자료를 평균, 분산 등의 요약 통계량이나 여러 가지 그래프를 이용하여 체계적으로 정리 요약하여 자료에 대한 전반적인 특성을 파악하는 통계 기술이다. 추측 통계학 표본을 관찰함으로써 얻어진 자료를 이용하여 확률이론에 의해 모집단의 특성을 추론하거나 미래를 예측하는 것이 목적이다 ~19 변환 6시그마를 위한 기초통계

4 통계학의 구분과 내용 뿌리 (목적) 기술 통계학 추측 통계학 나무 기술통계학 확률이론 추론 특별한 통계분석 (特徵) 가지 교재
(Descriptive Statistics) (통계량/그래프로 자료 특성을 파악) 추측 통계학 (Inferential statistics) (모집단 특성추론/미래 예측) 나무 기술통계학 확률이론 추론 특별한 통계분석 (特徵) (자료 정리·요약 기술) (통계학 이론바탕) (통계학 中心이론) (특별한 분석기법) 가지 자료 (Data)란? 이산 형 자료 연속 형 자료 그래프 분석 확률 확률분포 이항분포 정규분포 표본분포 통계적 추정 정규 모집단에서 추론 (모평균추정/검정) 두 모집단 비교 (모 비율차이추론) 분산분석 회귀분석 범주형 자료 비모수 추론 교재 표현 탐색적 데이터 분석 추정 (점/구간 추정) 검정(통계적 가설검정) ANOVA (분산분석) 상관 및 회귀분석 잔가지 계수형 (이산) ·이항/포아송 ·초기하 분포 계량형 (연속) ·정규/t/χ2/F 분포 ·지수/감마/와이블 추정 ·점/구간 추정 ·신뢰구간 추정 가설검정 ·단일/두/둘이상 모집단 (평균/분산/비율/비모수) ANOVA ~19 변환 6시그마를 위한 기초통계

5 통계학의 기본용어 통계학의 기본 용어 - 모집단(Population) - 표본(Samples) - 모수(parameter)
우리가 알고자 하는 관심의 대상이 되는 전체의 집합 유한 모집단 무한 모집단 - 표본(Samples) 모집단에서 조사 대상으로 채택된 일부 - 모수(parameter) 모집단의 특성을 나타내는 척도로 보통 평균과 표준편차 등이 많이 사용됨 - 통계량(Statistics) 모수에 대응하는 표본의 특성을 나타내는 척도로 보통 산술평균과 표준편차가 많이 사용됨 통계학의 기본 용어 ~19 변환 6시그마를 위한 기초통계

6 ~19 변환 6시그마를 위한 기초통계

7 나타내는 대표 값 : 통계량(Statistic)
기술통계란? 기술통계는 Data를 표와 그림으로 표현하는 방법이고 통계적 추론은 Data를 통해 모집단의 특성을 일반화하는 방법입니다. 통계적 추론 표본추출 X1 , X2 , …, Xn 추정(점/구간, Estimation) 가설 검정(Hypothesis Test) 모평균() 모표준편차() 모분산(²) 모비율(p) 모집단 분포의 특징을 나타내는 대표 값 : 모 수(Parameter) 모집단(Population) 표본평균(X) 표본표준편차(S) 표본분산(V) 표본비율(p) 표본 (Sample) 표본 분포의 특징을 나타내는 대표 값 : 통계량(Statistic) ~19 변환 6시그마를 위한 기초통계

8 Data와 처리과정 Data는 변동(Variance)를 표현하는 중요한 수단입니다. (1) 입론(立論)의 기초가 되는 자료
(2) 관찰에서 획득한 사실 DATA란 무엇인가? 데이터는 일반적으로 임의의 집단을 대표하는 표본을 통해 수집된다. 데이터 (Data) 데이터 처리 정보 (Information) 품질 데이터 관리 절차 1. DATA 정의 2. DATA 수집 3. DATA 처리 및 표현 참고) 편향(Bias)된 데이터로 도출되는 결론의 문제 ~19 변환 6시그마를 위한 기초통계

9 Data의 수집 Basic Ideas for Collecting Data(데이터 수집을 위한 기본 아이디어)
1. 데이터 수집하는 방법 1) Observational study (관측연구) a. 관심 있는 현상을 관찰 EX) 담배가 폐암을 유발하는가? b. Process에 영향을 주지 않음 2) Designed( controlled) experiment (실험연구) - Key process 변수를 통제함으로써 process가 영향을 줄때 data가 얻어짐 EX) 두 약 중 어느것이 인간의 어떤 병을 통제하는데 효과적인가? 3) Sample survey (표본조사) - Key issue : 실험의 결과로서 일어나는 data에 의한 의사 결정을 하고자 함 Basic Ideas for Collecting Data(데이터 수집을 위한 기본 아이디어) ~19 변환 6시그마를 위한 기초통계

10 Data의 이용방법 2. 데이터 이용 방법 1) 기술통계학 (Descriptive statistics)
자료를 수집하고 정리하여 도표나 표를 만들거나 요약하여 대표 값, 표본의 크기 등을 다루는 분야 - 방대한 자료집합의 특징을 쉽게 알 수 있게 함 2) 추측통계학 (Inferential statistics) - 회귀분석, 상관분석, 분산분석, 범주형 자료분석, 시계열분석 - Enumerative study - Analytical study ~19 변환 6시그마를 위한 기초통계

11 연구의 유형 - 통계적 모형을 설정하고 또한 설정된 모형이 합리적인 여부를 평가하며 자료로부터 얻어지는
Type of Studies (연구의 유형) 1. 대부분의 실험계획은 Analytical studies 임 - 통계적 모형을 설정하고 또한 설정된 모형이 합리적인 여부를 평가하며 자료로부터 얻어지는 정보에 근거해 미지의 특성에 대한 결론을 내리고 미래에 일어날 현상에 대한 예측을 함 2. 최종 상품 출시 Testing은 Enumerative study임 - 오직 제품의 특성을 나타내기 위한 시도이기 때문 3. Analytical study에 어떠한 통계적 방법을 적용할 지에 주의 바람 기본적 통계 용어 1) 모집단 (Population) : 주어진 문제에 있어서 관심이 있는 모든 가능한 개체의 집단 2) 표본 (Sample) : 관찰 가능한 모집단의 일부분 ~19 변환 6시그마를 위한 기초통계

12 ~19 변환 6시그마를 위한 기초통계

13 Data란? ~19 변환 6시그마를 위한 기초통계

14 Data와 변수 : 모집단으로부터 얻은 표본으로부터 얻은 어떠한 관심 있는 현상의 실제 관측치
EX) 2개의 다른 시약 처리에 의한 2개 표본 환자 집단의 증세 호전 시간 한 공장 라인에서 랜덤하게 뽑힌 20개의 샘플에서 발견된 불량품의 수 Data 변수(Variable) : 측정단위 사이에 변화하는 특성을 보여주는 것 통계학의 목적 : Data를 의미 있게 표현(Description)하고 요약(Summary)하는 것 - 질적 변수(Qualitative Variables) 1. 통계 용어의 정리 - 양적 변수(Quantitative Variables) 1) 이산형(Discrete) : 정해진 수량으로 표현되어 지는 변수 – Ordinal(Categorical) 2) 연속형(Continuous) : 주어진 범위 내에서의 가능한 모든 실수 값을 가지는 변수 EX) 남녀, 6학년 학생의 반, 혈압 등급(고, 중, 저) EX) 초등학교 학년, 마라톤의 순위 EX) 이율, 시간 2. 변수의 종류 3. Random 표본 표본은 모집단을 대표한다는 가정이 되어야 한다. 이 표본은 모집단에서 랜덤하게 추출되었다는 Idea는 많은 통계적 이론의 기초가 되고 있다. ~19 변환 6시그마를 위한 기초통계

15 측정 가능·불가능 데이터 측정가능 데이터/ 측정 불가 데이터 (앙케트) - 측정 가능 데이터 (수량 데이터)
당신의 나이는 ? ( 세) 한 달에 구입하는 생수는 ? ( 개) 몸무게, 온도, 100m 달리기 기록, 키를 잴 때 눈금과 눈금 사이 간격이 균등 - 측정 불가 데이터 (카테고리 데이터) 통계학을 읽고 난 느낌은 ? 1. 매우 재미있다 2.재미있다 3.보통이다. 4.재미없다 5.매우 재미없다 (실무에서 수량데이터로 취급하는 경우가 있음) 출신지, 날씨, 혈액형 급과 급사이의 간격이 균등하지 않음 측정가능 데이터/ 측정 불가 데이터 (앙케트) ~19 변환 6시그마를 위한 기초통계

16 Data의 표현방법 Data의 표현 : 데이터의 전체적인 분위기를 파악함
1. 표현의 목적 : 표본의 정보를 요약하여 보여주는 것 2. 빈도 표(Frequency table) 1.000 31 0.016 0.032 1 0.065 2 18 – 20 0.081 0.161 5 16 – 18 0.049 0.097 3 14 – 16 0.193 6 12 – 14 0.177 0.355 11 10 – 12 08 – 10 Height Relative Frequency Frequency Class Interval 계급 3. 히스토그램(Histogram) 계급의 크기(막대 폭) 계급 값 (막대중앙) Relative frequency = Frequency Total # of observations in sample Height = Relative frequency / Width (상대도수) ~19 변환 6시그마를 위한 기초통계

17 기타 표현방법 그 외의 방법들 4. Box plot 5. 줄기와 잎 그림 (Stem-and-leaf plot)
HOURS Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 Extremes (>=25) Stem width: Each leaf: case(s) ~19 변환 6시그마를 위한 기초통계

18 Data의 표현 시 고려할 점 6. Data 표현에 있어서의 고려하여야 할 점 ex) 히스토그램의 예에서
1) 대칭성 (Symmetry) 대칭(Symmetric) Rightly skewed Leftly skewed 2) 봉우리(Modality) 단봉(Unimodal) 양봉(Bimodal) 3) 이상치(Outlier) ~19 변환 6시그마를 위한 기초통계

19 기술통계 √S² 기술 통계(Descriptive Statistic)
위치 모수(Location parameter) : 평균, 중앙값, 최빈 값 측정 모수(Scale parameter) : 분산, 표준편차 반복되어 가장 많이 나타나는 측정치 평균(Mean, average) : 중앙값(Median) : n개의 데이터를 크기 순으로 나열했을 때 n이 홀수이면 중앙에 위치하는 값이고, 짝수이면 중앙에 위치한 2개의 데이터를 평균한다. 최빈 값(Mode) : EX) 1, 3, 5, 5, 8, 8, 9, 9, 9, 10, 11 Mean = ( )/11 = Median = 8 Mode = 9 1. 중심의 측정 (Measure of center) 2. 산포의 측정 (Measure of spread) 표본 분산 (Sample variance) : 표본 편차 (Standard deviation) : 범위 (Range) : 데이터의 가장 큰 값(MAX) – 데이터의 가장 작은 값(MIN) √S² ~19 변환 6시그마를 위한 기초통계

20 통계적 추론 통계적 추론 (Statistical Inference) 1. 모수 (Parameter) : 모집단의 특성치
= 모집단의 평균 = 모집단의 분산 2. 추정치 (Estimator) : 모집단에 대응되는 표본의 특성치 = 표본집단의 평균의 추정치 = 표본집단의 분산의 추정치 = 들의 평균 의 분산 = n 이 증가할수록 값은 작아짐 표본의 수가 증가할수록 더 정확한 추정치를 얻을 수 있다. 변동계수 (Coefficient of variation, CV) CV= (비율) 또는 *100 (PERCENT) 서로 다른 평균과 표준편차를 갖는 여러 자료의 상대적인 변동 혹은 산포를 측정하기 위해각 자료의 평균과 표준편차를 동시에 고려한 계수 선형추가 모형 (Linear additive model) : 표본추출 등의 문제 등으로 발생한 오차 표준편차는 이 오차의 추정치이다. 은 의 추정 값이다. ~19 변환 6시그마를 위한 기초통계

21 ~19 변환 6시그마를 위한 기초통계

22 확률분포 ~19 변환 6시그마를 위한 기초통계

23 확률분포의 구분 신뢰성 데이터는 와이블 분포를 따르는 경우가 많다. 와이블 분포 분포 F 분포 확률분포의 구분 이항 분포
포아송 분포 정규 분포 t 분포 계수형 (이산형 확률 분포) 계량형 (연속형 확률 분포) 초기하 분포 감마 분포 지수 분포 □ 확률분포의 구분 – 확률분포는 확률변수가 이산형인지 연속형인지에 따라 이산형 확률분포(계수형)와 연속형 확률분포(계량형)로 구분된다. – 확률변수 X가 취할 수 있는 가능한 값들이 이산(離散)적인 값 x1, x2, … 중 하나일 때, X를 이산확률변수(Discrete random variable)라고 한다. – 예로 동전을 두 번 던져서 나오는 앞면의 수나 주사위를 한 번 던져서 나오는 눈의 값 등은 이산확률변수이다. – 이산확률변수가 가질 수 있는 각각의 값에 대하여 확률 f(x1)=P(X=x1), f(x2)=P(X=x2), …를 대응시켜 주는 함수 f(x)를 확률질량함 수(確率質量函數, Probability mass function ; pmf)라고 한다. – 키, 몸무게, 서비스 대기시간 등을 나타내는 확률변수 X는 적절한 구간 내의 연속(連續)적인 모든 값을 가질 수 있으며 이런 확률변 수를 연속확률변수(Continuous random variable)라고 한다. – 연속확률변수에 대한 확률은 확률밀도함수(確率密度函數, Probability density function; pdf)에 의해서 결정되는데, 확률밀도함수 f(x)는 연속확률변수에 관하여 X축에는 확률변수의 값을 그리고 Y축에는 확률변수의 값이 일정구간에 포함될 확률을 나타내는 곡선 으로 표현된다. □ 계수형(이산형) 확률분포 – 이산형 확률분포에는 이항분포, 초기하 분포, 포아송 분포 등이 있다. – 예를 들어 생산된 제품 중 불량품수 1, 2, 3,…등의 경우를 들 수 있다. □ 계량형(연속형) 확률분포 – 연속형 확률분포에는 정규분포, t-분포, 카이제곱 분포, F-분포등과 신뢰도 분석에 많이 이용되는 지수분포, 감마분포, 와이블분포 등이 있다. – 예를 들어 어떤 서비스를 받기 위해 기다리는 시간은 연속형 값을 갖는다는 것을 알 수 있다. 신뢰성 데이터는 와이블 분포를 따르는 경우가 많다. ~19 변환 6시그마를 위한 기초통계

24 이산형 확률분포와 정규분포 근사(Approximately)
1. 이항분포의 정규 근사 이항 분포 (불량품) 정규 분포 포아송 분포 (결점수) p < 0.1 n > 50 평균≥5 np≥5 n(1-p)≥5 0.2 0.4 0.6 0.8 1 5 10 15 20 결점수 확률 dpu=0.1 dpu=1.0 dpu=2.0 dpu=2.5 dpu=4.0 2. 포아송 분포의 정규 근사 □ 이항분포의 정규 근사 – 확률변수 X가 이항분포 B(n,p)를 따를 때 n이 작은 숫자이면 이항분포의 확률을 직접 계산하거나 이항분포표에 의해 쉽게 구할 수 있다. – 그러나 n이 커지면 확률계산은 아주 복잡하며 많은 시간을 소모하게 된다. – 이항분포에서 n이 커지면 점차 정규분포에 가까운 형태가 된다. – 따라서 이항분포에서 시행회수 n이 클 때 정규분포표를 이용하여 확률을 계산하면 편리하게 된다. – 보통 np≥5 또는 n(1-p)≥5 이면 정규분포 근사로 이항분포의 확률을 계산해도 무리가 없다. – p≤0.1이고 n≥50일 때는 포아송 분포에 근사 된다 □ 포아송 분포의 정규 근사 – 포아송 분포의 평균이 5이상일 때 정규분포 근사로 포아송 분포의 확률을 계산해도 무리가 없다. ~19 변환 6시그마를 위한 기초통계 Note

25 정규분포(Normal Distribution)
68% within 1 standard deviation 0.340 95% within 2 standard deviations 99.7% of data are within 3 standard deviations of the mean 0.001 0.024 0.135 □ 정규분포 확률밀도함수 그림. – 정규확률밀도함수를 그림으로 나타내면 (-∞, ∞)를 구간으로 하여 평균 μ를 중심으로 좌우대칭의 종 모양을 취함을 알 수 있다. – 또한 정규분포의 확률은 평균 μ와 표준편차 σ사이에 일정한 관계를 갖는다. 즉, 슬라이드 그림에서와 같이 μ로 부터 ±σ의 구간 은 0.683, μ로 부터 ±2σ의 구간은 0.954, 그리고 μ로 부터 ±3σ의 구간은 0.997의 확률을 갖는다. – 이러한 정규분포의 확률적 특성을 식으로 요약하면 다음과 같다. • P( μ – σ < X < μ + σ) = 0.683 • P( μ -2σ < X < μ + 2σ) = 0.954 • P( μ -3σ <X < μ + 3σ) = 0.997  - 3  - 2   -   + 2   + 3   +  Note ~19 변환 6시그마를 위한 기초통계

26 표준정규분포(Standard Normal Distribution) 변환
※ 표준정규분포 및 확률밀도함수에서 넓이=비율=확률 X1 평균 표준편차 – 정규분포(평균 μ, 분산σ2) 확률변수 X는 X ~ N(μ, σ2) 정규분포 Z 변환 Z 1 ? Z – 표준정규분포(평균0, 표준편차1) 확률변수 Z은 Z ~ N(0,1) 표준정규분포 □ 표준화 변환을 통한 표준정규분포화 – 모든 정규확률변수인 X를 Z으로 표준화하면 표준정규분포를 이용하여 확률을 계산할 수 있게 된다. – 만약에 확률변수 X가 중심인 μ일 때 새로운 확률변수 Z=(X-μ)/σ=(μ-μ)/σ=0이 된다. 즉 Z의 평균은 0이 됨을 알 수 있다. – 또한 확률변수 X가 μ+σ일 때 새로운 확률변수 Z=(X-μ)/σ=(μ+σ-μ)/σ=1이 된다. 즉 Z의 표준편차가 1이 됨을 알 수 있다. – 이와 같은 방식으로 표준화를 해 보면 다음의 식을 알 수 있게 된다. • P( μ – σ < X < μ + σ) = P( -1 < Z < 1) = 0.683 • P( μ -2σ < X < μ + 2σ) = P( -2 < Z < 2) = 0.954 • P( μ -3σ <X < μ + 3σ) = P( -3 < Z < 3) = 0.997 – 즉 표준화 변환을 통해 표준정규분포로 바꿈으로써 표준정규분포표로부터 확률을 편리하게 구할 수 있게 된다. ~19 변환 6시그마를 위한 기초통계 Note

27 표준정규분포 변환 □ 표준화 변환을 통한 표준정규분포화
– 모든 정규확률변수인 X를 Z으로 표준화하면 표준정규분포를 이용하여 확률을 계산할 수 있게 된다. – 만약에 확률변수 X가 중심인 μ일 때 새로운 확률변수 Z=(X-μ)/σ=(μ-μ)/σ=0이 된다. 즉 Z의 평균은 0이 됨을 알 수 있다. – 또한 확률변수 X가 μ+σ일 때 새로운 확률변수 Z=(X-μ)/σ=(μ+σ-μ)/σ=1이 된다. 즉 Z의 표준편차가 1이 됨을 알 수 있다. – 이와 같은 방식으로 표준화를 해 보면 다음의 식을 알 수 있게 된다. • P( μ – σ < X < μ + σ) = P( -1 < Z < 1) = 0.683 • P( μ -2σ < X < μ + 2σ) = P( -2 < Z < 2) = 0.954 • P( μ -3σ <X < μ + 3σ) = P( -3 < Z < 3) = 0.997 – 즉 표준화 변환을 통해 표준정규분포로 바꿈으로써 표준정규분포표로부터 확률을 편리하게 구할 수 있게 된다. ~19 변환 6시그마를 위한 기초통계 Note

28 표본분포(Sample Distribution) :t-분포
− 평균을 중심으로 대칭이고, 종 모양을 띄고 있어 정규분포와 형태가 유사함. − 표본크기가 커질수록 분포가 중심부근에서 점점 뾰족해 지고, 표본의 크기가 30이상이면 정규분포가 거의 같아짐. 정규분포(n ≥30) t (5) :자유도 5인 t 분포 t (10) : 자유도 10인 t 분포 □ t-분포의 특징(보충) – t-분포란 종 모양으로 자유도(표본의 크기와 연결)에 따라 달라진다. – 표본의 크기가 작을수록, 분포 폭이 넓고 평평하고, 표본의 크기가 커질수록 정규분포와 유사해진다. Note ~19 변환 6시그마를 위한 기초통계

29 표본분포 : χ²(카이제곱)분포 – 카이제곱 분포는 표본분산 s2과 관련된 분포임.
– 확률 변수 가 각각 표준정규 분포 N(0,1)을 따르고, 서로 독립일 때 그들 제곱합 l I 은 자유도 k 인 카이 제곱분포 χ2(k)를 따른다. – 모집단 분산 추론에 카이제곱 분포 를 이용한다 [Tip] 카이제곱 분포의 활용 – 분산에 대한 추론 – 두 모집단의 비율차이 검정 – 분할표 분석(교차표 분석)에 있어 행 범주와 열 범주와의 독립성 검정(연관성 검증) 등(예, 지역과 지지 정당과의 관련성 여부) Note ~19 변환 6시그마를 위한 기초통계

30 표본분포 : F 분포 – F-분포는 두 정규모집단의 분산을 비교하기 위한 추론에 주로 사용.
– 확률 변수 χ12과 χ22가 각각 자유도 ν1(분자의 자유도)과 ν2(분모의 자유도)인 카이 제곱분포를 따르며 서로 독립이라고 할 때, 통계량 자유도 (ν1, ν2)인 F-분포(ν1, ν2)를 따른다. [Tip] F-분포의 활용 – 두 모집단의 분산을 비교하는데 이용. – 분산분석에 활용 – 회귀분석에 활용 등 Note ~19 변환 6시그마를 위한 기초통계

31 대표적 확률분포 요약 구 분 계수형 확률 분포 계량형 확률 분포 종 류 이항 분포 포아송 분포 정규 분포 표준 정규 분포
특 징 불량형 데이터를 대표하는 분포 결점형 데이터를 계량형 데이터를 평균이 0 이고, 표준편차가 1 인 용 도 결과가 성공/실패 불량/양품 등 두 가지로 표현되는 데이터의 확률 계산 일정 단위(연속적인 시간,공간,면적, 구간 등)당 특정한 사건이 일어날 확률 계산 정규분포를 따르는 정규분포의 확률 계산을 편리하게 해 줌. 또한 서로 다른 계량 형 데이터를 객관적으로 비교 Note ~19 변환 6시그마를 위한 기초통계

32 ~19 변환 6시그마를 위한 기초통계

33 확률분포 (Probability Distribution)
~19 변환 6시그마를 위한 기초통계

34 이산확률분포(Discrete Probability Distribution)
Ⅰ. 이산확률분포 1. 이항 분포 (Binomial distribution) 1) Bernoulli의 확률 분포 Bernoulli의 실행 : 두 가지 실행 가능한 결과 EX) 성공, 실패 성공의 확률이 p이라면 실패의 확률은 q=1-p 2) 이항 분포 : n개의 Bernoulli 확률 변수로 이루어짐 EX) 완구 완제품 중 34개를 무작위로 뽑아내어서 불량률이 17%일 때 몇 개의 불량품이 나오는지 조사 : 이항 분포 함수 2. 포아송 분포 (Poisson distribution) 단위시간이나 공간에서의 희귀사건의 발생건수의 분포 EX) 1898년 프러시아 기마병중에서 말에 차여 사망한 숫자 : 포아송 분포 함수 ~19 변환 6시그마를 위한 기초통계

35 연속확률분포(Probability Distribution)
Ⅱ. 연속확률분포(Continous Probability Distribution) 1. 정규 분포 (Normal Density Distribution) = 0.683 = 0.95 = 0.954 = 0.99 = 0.997 : 정규 분포 함수 통계학에 있어서 중추적인 역할을 하는 분포 1) 평균을 중심으로 좌우대칭의 종 모양의 분포   2) 평균 = 중앙값 = 최빈값   3) 평균은 분포의 중심위치를 결정하고, 분산은 분포의 모양을 결정   4) : 정규분포를 변환을 통해 표준 정규 분포로 표현 평균이 0이고 분산이 1인 정규 분포 1.-1 표준 정규 분포 (Standard Normal Distribution) : 표준 정규 분포 함수 표 준 화 EX) ~19 변환 6시그마를 위한 기초통계

36 연속확률분포(Probability Distribution)
1.-2 이항분포의 정규근사 에 대해 n이 충분이 크고 p가 0 또는 1에 가깝지 아니하면 표준화된 확률변수 는 근사적으로 표준정규 분포 를 따르게 된다. 1.-3 중심극한정리 (Central Limit Theorem) 평균이 고 분산이 인 임의의 확률분포를 가지는 모집단으로부터 크기 n 인 확률표본 X1,X2,…,Xn 을 취했을 때 표본평균 는 n 이 충분히 크면 대략적으로 정규분포 을 따른다. 2. t 분포 (Student t-Distribution) 대표본에서는 모집단의 분포가 정규분포가 아닐 때에도 중심극한 정리에 의하여 는 정규분포에 가까운 분포를 따르며 대신에 표본표준편차(s)를 대입해도 위의 사실은 근사적으로 성립한다. 그러나 소표본에서는 모집단이 정규분포를 따를 때에도 대신에 s를 대입한 것이 정규분포와는 많이 다를 수 있음 보통 n이 30보다 작은 경우 분포는 Z-통계량에서 대신에 s를 대입한 t-통계량의 분포를 사용. X1, X2, ... , Xn이 에서의 랜덤하게 추출한 표본일 때 (n < 30) n-1 : 자유도(Degree of Freedom) ~19 변환 6시그마를 위한 기초통계

37 Example 1 < 풀이 2> 정규분포에 의한 근사적 계산으로 비교해보자 n=1,000, p=0.002
이때, x를 N(2, 1.996)에 0.5의 구간보정을 하여 확률을 계산하면, 포아송 분포로 구한 실제확률 0.053에 가까워짐을 볼 수 있다. 어느 제조 공장의 불량률이 0.2%로 알려져 있다. 무작위로 1,000개를 취하여 검사할 때 불량품이 5개 이상 나올 확률은 얼마인가? ~19 변환 6시그마를 위한 기초통계

38 ~19 변환 6시그마를 위한 기초통계

39 확률분포와 표본분포 ~19 변환 6시그마를 위한 기초통계

40 Ⅰ. 확률표본(Random Sample) 1. 확률 표본 : 서로 독립이고 같은 분포를 따르는 확률 변수들
I i d (Independently Identically Distributed) 2. 통계량(Statistic) : 확률표본의 함수 (표본에서 얻은 정보량) 표본평균 : 표본분산 : 3. 표본평균의 분포와 중심극한정리 중심극한정리 : 앞 Chapter의 정규분포 참조 에서 구한 표본평균 는 을 따른다. N 이 증가할수록 (a)->(b)->(c)->(d)로 변함 ~19 변환 6시그마를 위한 기초통계

41 Ⅱ. 표본분포(Sample Distribution) -1
분포 (Chi-Squared Distribution) 확률변수 가 각각 표준정규분포 N(0, 1)을 따르고 서로 독립일 때, 의 분포를 자유도(Degree of Freedom) K 인 (카이제곱,Chi-Square)분포라 한다. 표본분산 의 분포는 단일모집단의 경우 : ~ 독립인 두 집단의 경우 : ~ 단, 2. t 분포 (t-Distribution) 확률 변수 Z ~ N(0,1) 이고, 이고 서로 독립이라면, 을 자유도가 K인 t분포라 한다. 분산을 모를 경우 표본 분산을 사용하여 분산이 동일한 두 정규모집단일 경우 ~19 변환 6시그마를 위한 기초통계

42 Ⅱ.표본분포-2 3. F 분포 (F-Distribution)
분산이 동일한 두 개의 정규 모집단으로부터 각각 랜덤하게 추출한 의 2조의 표본에서 의 비 (단, F>1 즉, ) 는 자유도 인 F분포 를 한다. 1) 일때 이다. 2) 두 정규모집단에서의 표본분산의 비에 대한 분포 ~19 변환 6시그마를 위한 기초통계

43 ~19 변환 6시그마를 위한 기초통계

44 추론(추정/검정) ~19 변환 6시그마를 위한 기초통계

45 추론(Inference) 통계적 추론 : 표본에서 얻은 정보를 이용하여 모집단(모수)에 대한추측을 하는 과정
 추 정  :  점 추정    --- 불편성, 유효성(최소분산불편추정량)                       구간추정 --- 같은 신뢰수준 하에서는 구간의 길이가 최소  검 정  :  모수에 대한 주장의 옳고 그름을 판정하는 과정 1. 점 추정(Point estimation) : 표본에서 얻어지는 정보를 이용하여 미지인 모수의 참값으로 생각되는 하나의 수 값을 택하는 과정 추정 량(Estimator) : 모수를 추정하기 위하여 사용되는 통계량      추정 값(Estimate)   : 추정량의 관측 값    표준오차(Standard Error) : 추정량의 표준편차 (1) 점 추정에 요구되어지는 성질    a. 불편성(Unbiased) : 추정량의 분포의 중심위치에 요구되는 성질    b. 유효성(Efficiency) : 추정량의 산포에 요구되는 성질     c. 일치성(Consistency)    d. 충분성(Sufficiency)  : 표본이 제공하는 모수에 대한 모든 정보를 이용한 통계량 불편추정량(Unbiased estimator) ~19 변환 6시그마를 위한 기초통계

46 ~19 변환 6시그마를 위한 기초통계

47 검정(Testing) ~19 변환 6시그마를 위한 기초통계

48 가설검정 가설검정의 개요 가설검정(假設檢定 : Hypothesis testing)의 개요
정의 : 모집단의 모수 또는 분포 등에 관하여 귀무가설과 대립가설을 설정한 후에 표본을 통하여 얻어지는 정보에 따라서 어떤 가설이 맞는가를 결정하는 통계적 분석(용어적 정의임) 가설검정의 의미 : 관심이 되는 모집단 특성에 대한 어떠한 주장을 확인하기 위해 그 모집단으로부터 표본을 추출하여 분석해 봄으로써 모집단에 대한 어떠한 주장의 타당성을 검토해 보는 것 ~19 변환 6시그마를 위한 기초통계

49 Stat -Basic Stats -1, 2 proportion Stat -Tables - Chi-square Test
분석목적에 따른 통계적 가설검정의 형태 계량형 계수형 비 모수 모집 단수 전제1 정규성 (Normality Test) : (Stat - Basic Stat - Normality Test) 이산형 비정규성 전제2 등분산 (○) (Stat - Basic Stat - 2 variances ) 등분산 (×) - 비교 대상 평균 비교 (중심) 분산 비교 (산포) 비율 비교 목표 값 비교 1 1 Sample t 1 Sample Z 1-Proportion 1 Sample-Sign 1Sample-Wilcoxon 2 2Samplet “AEV” 선택 (Paired t) 2 Sample t ( “assume EV”선택 안함) 2 Variances F Test 2-Proportion Mann-Whitney Test 2 이상 One-way ANOVA (Two-way ANOVA) Test for Equal Variances (F Test or Bartlett’s Test) Chi-square Kruskal-Wallis Test 주로 사용 하는 곳 표본이 정규분포일 경우에 사용 표본의 평균치가 같은지를 알아 볼 경우 표본의 분산이 같은 지를 알아 볼 경우 표본의 비율이 같은지를 알아 볼 경우 표본이 비정규 분포를 보일 경우 Ho Ho: m1 = m2 = m3 = ... m1 = m2 s1 = s2 = s3 = ... M1 = M2 = M3 = ... 미니텝 Stat - Basic Stats - 1 Sample-t -1Sample Z (s를 알 때) Stat - Basic Stats - 2-Sample t Stat-Anova-One-way(Twoway) Stat-Basic Stats- 2-Sample t (“assume equal variances” 선택 안 함) Stat - Basic Stats - 2 variances F-Test P-Value Stat - Anova - Test for Equal Variances Stat -Basic Stats -1, 2 proportion Stat -Tables - Chi-square Test Stat - Nonparametric - 1 Sample-Sign, Wilcoxon Mann -Whitney Kruskal -Wallis 확률분포 정규분포, t 분포, 2 분포, F분포 지수분포, 감마분포, 와이블 분포 이항/포아송 초기하 분포 ~19 변환 6시그마를 위한 기초통계

50 가설검정 로드 맵 가설검정 카이제곱검정 1-Proportion 2-Proportion 계량형 데이터 계수형 데이터
유의수준  = 0.05인 경우: P-값 >0.05 이면 Ho 기각하지 못함 P-값< 0.05 이면 Ho 기각 Stat -Tables - Chi-square Test Stat -Basic Stats -2 proportion Stat -Basic Stats -1 proportion 카이제곱검정 1-Proportion 2-Proportion 하나의 모집단 두 개의 모집단 둘 이상의 가설검정 계량형 데이터 계수형 데이터 Normality Test Ho: 정규분포를 따른다, H1: 정규분포가 아니다 Stat - Basic Stat - Normality Test Ho: s1 = s2 = s3 = ... H1: 적어도 하나는 다르다 Stat - Anova - Test for Equal Variances 두 모집단만을 비교할 때는 F-test 사용 Ho: M1 = M (목표 값) H1: M1 ¹ M (목표 값) Stat - Nonparametric - 1 Sample-Sign 또는 Stat - Nonparametric - 1 Sample-Wilcoxon 1 Sample-Sign 또는 1 Sample-Wilcoxon Mann-Whitney Test 비정규 데이터 Kruskal-Wallis Test 하나의 모집단 두 개의 모집단 둘 이상의 Ho: M1 = M2 H1: M1 ¹ M2 Stat - Nonparametric - Mann-Whitney Ho: M1 = M2 = M3 = ... Stat - Nonparametric - Kruskal-Wallis Test for Equal Variances (Levene’s Test) Ho: m1 = m2 H1: m1 ¹ m2 Stat - Basic Stats - 2-Sample t “assume equal variances” 선택 One-way ANOVA Ho: m1 = m2 = m3 = ... H1: 적어도 하나는 다르다 Stat - Anova- One-way 정규 데이터 표준편차의 신뢰구간 하나의 모집단 둘 이상의 모집단 2 Sample t (동일한 분산) (분산이 다를 때) 1 Sample t 또는 1 Sample Z Ho: m1 = m (목표 값) H1: m1 ¹ m (목표 값) Stat - Basic Stats - 1 Sample-t (s를 모를 때) 1Sample Z (s를 알 때) 두 개의 모집단 등 분산 Yes No “assume equal variances” 선택 안 함 Test for Equal Variances (F Test or Bartlett’s Test) Ho: s1 = s (목표 값) H1: s1 ¹ s (목표 값) 표준편차가 특정 값과 같은 지에 대한 검정은 Minitab이 지원하지 못한다. 다만 표준편차의 추정치와 신뢰구간을 구하기 위해서는 다음 메뉴를 활용한다. Stat -Basic Statistics - Display Descriptive Stats Note ~19 변환 6시그마를 위한 기초통계

51 X·Y에 따른 통계적 가설검정의 형태 결과 (Y) 원 인 (X) 연속형 이산형 연 속 형 이 산 형
달라지는가 ?) 예) 제품부피(연속형)에 따라 배송시간(L/T)(연속형)이 달라 지는가? (포장시간 X와 총 배송기일 Y 관계) 검정 : 상관분석(관계), 회귀분석(관계) 산점도(그래픽) X 의 변화가 Y를 어떻게 변화시키는가 ? (=입력인자 X 各各의 값에 따라 출력변수 Y의 결과가 달라지는가 ?) 예) 교통체증 정도(연속형 지수화)에 따라 적기 배송 여부(○,X)가 달라 지는가? (상담원의 경력 X와 리콜 여부 Y ) 검정 : 로지스틱 회귀분석 (Logistic Regression) 평균이 다른가 ? (중심) (=입력인자 X 유형에 따라 출력변수 Y의 결과가 달라지는가 ?) 예) 배송방법(이산형)에 따라 배송시간(L/T)(연속형)이 달라 지는가? (고객 연락처 개수 X와 주식 회전율 Y 관계) 검정 : Sample t-test, Z-test, ANOVA, 히스토그램 전제 ① 정규성 검증 ② 등분산 검정 분산이 다른가 ? 검정 : Test for Equal Variances , F-test 그래픽 (Box-plot, Multi-vari Chart) Y N 결과물이 다른가 ? (=입력인자 X 유형에 따라 출력변수 Y의 결과가 달라지는가 ?) 예) 교통체증 정도(정체, 지체, 원할)에 따라 적기 배송 여부(○,X)가 달라 지는가? (고객 연락처 갯수 X와 본인 통화여부 Y ) 검정 : 비율검정, 카이제곱 (2) 검정, Pareto Chart Chi-Square Test for Equal Variances ANOVA 3 이상 2 Proportion 2 Variances F Test 2 Sample t Paired t 2 1 Proportion - 1 Sample t , z 1 비율비교 분산비교 평균비교 집단 수 Note ~19 변환 6시그마를 위한 기초통계

52 가설검정에서 발생하는 오류의 형태 실제 H0 참(H1 거짓) H0 거짓(H1 참) 의사결정 귀무가설 H0 채택
옳은 결정(1-α) 제2종의 오류(β) :소비자 제1종의 오류(α) :생산자 옳은 결정(1-β) 귀무가설 H0 채택 귀무가설 H0 기각 실제 의사결정 1. 가설검정에서 오류를 완전히 배제할 수는 없으며, 단지 어느 정도의 작은 확률로 이를 피하고자 할 수밖에 없다. 2. 가설검정을 수행할 때 이와 같은 두 가지 오류를 범할 확률을 되도록 작게 하는 것이 바람직할 것이다 3. 그러나 두 가지 오류를 동시에 최소로 할 수 있는 검정방법은 일반적으로 존재하지 않는다. 4. 따라서 실제적으로 보다 중요한 의미를 가지는 제1종 오류를 범할 확률을 미리 지정된 확률 이하 수준(유의수준)로 하는 검정방법을 사용함. Note ~19 변환 6시그마를 위한 기초통계

53 통계적 가설검정의 정의 통계적 가설 검정(Statistical Hypothesis Testing)의 정의
: 표본에서 얻은 정보를 이용하여  모수에 대한 주장의 옳고 그름을 판정하는 과정 EX) 진통제의 진통효과 문제          기존 진통제는 진통효과가 나타나는 시간이 평균 30분, 표준편차 5분이라 한다.  연구진에서 개발한 새로운 진통제가 더 효과적인가를 확인하기 위하여 50명의 환자에게 실험을 하여 자료를 얻었다. 어떻게 결정을 내려야 하는가? 1. 통계적 가설(Statistical hypothesis) : 모수에 대한 주장 귀무가설 : 기존에 존재하는 대립가설에 반대되는 가설 대립가설 : 새로이 입증하고자 하는 가설 (연구자 주장) EX) 무엇을 기준으로 H0 와 H1중에서 하나를 선택하겠는가? 검정 통계량(Test statistic) : 검정에 사용되는 통계량  EX) 표본평균, 표본 분산, 표본비율 등을 사용 검정통계량을 정했다면 어떤 경우에 H0를 기각하겠는가? 기각역(Critical region) : H0 를 기각시키는 검정통계량의 관측 값의 영역  EX) ~19 변환 6시그마를 위한 기초통계

54 통계적 가설검정의 정의 모수를 모르므로 위의 기각역을 가지고 결정을 해도 항상 두 가지의 오류를 범한다. 사실 제1종 오류
제2종 오류 채택 두 종류의 오류를 둘 다 작게 해주는 것이 바람직하지만 동시에 작게 해주는 검정법은 없다. 보통 제1종 오류가 더 큰 문제를 일으킬 경우가 많으므로 일반적으로 제 1종 오류의 범위를 최대 허용한계에 고정시켜 놓고 제2종 오류를 줄이는 경우가 많다 유의수준(Significance level) : 제1종 오류를 범할 확률의 최대 허용한계 (α로 표기) EX) 유의 수준 5% 검정법 --- 제1종 오류를 범할 확률이 5% 이하인 검정법 검정력 함수(Power function) : 모수의 값에 따른 귀무가설 H0 를 기각하는 확률의 변화를 나타내는 함수 유의확률( Significance Probability) : 검정통계량의 관측 값을 가지고 귀무가설 H0를 기각할 수 있는 최소의 유의수준 ~19 변환 6시그마를 위한 기초통계

55 모평균 검정의 예 1-1. 모평균 검정의 예 우리 회사에서 마케팅 계획하고 있는 보험상품의 회사수익을 현재 가치를 계산한 결과가 다음과 같다.                  51   45   48   53   47   45   55   60   46   63   55   59 (단위 : 천원) 평균수익이 49이상이면 양호하다고 할 수 있는가? 유의수준 5%로 검정하여 보자. t검정통계량은 1.804로 기각역인 1.796보다 크므로 귀무가설이 기각된다. 즉, 보험상품의 평균수익은 49(천원) 이상이라고 말할 수 있다. ~19 변환 6시그마를 위한 기초통계

56 검정: P-Value의 이용 검정(Testing) : P-value 이용 1. 모평균의 검정
cf) Test Statistic 이용 이면, , 그러므로, 이면, 귀무가설 기각 P-value Method 이용 방법 만약, 이면 귀무가설 기각 못함 1-1. 모평균 검정의 예 포항제철에서 생산하는 강판의 두께가 평균이 300, 표준편차가 15이다. 생산된 강판 중 100개의 표본을 추출하여 두께를 재어 보니 평균 297을 얻어 내였다. 이때, 두께 297가 95% 유의수준에서 유의하다 볼 수 있는가? , 이므로 95% 유의 수준이므로 Z value는 1.96 (양측 검증임) 이므로 귀무가설 기각 ~19 변환 6시그마를 위한 기초통계

57 모 분산의 검정 2. 모분산의 검정 검정 통계량은 이면 일 때 기각 일 때 기각 2-1. 모분산 검정의 예
일 때 기각 일 때 기각 2-1. 모분산 검정의 예 삼성전기 부품 20개를 임의 추출하여 동일한 기계를 이용하여 사용시간을 측정하였더니 표본표준편차가 52시간이었다.  사용시간이 정규분포를 따른다고 가정할 때 건전지 사용시간의 표준편차의 참값이 48시간보다 높다는 뚜렷한 증거가 있는지 유의수준 1%에서 검정하여보자. 카이제곱 통계량의 기각치보다 작으므로 귀무가설을 기각할 수 없다.  즉, 부품 사용시간의 표준편차의 참값이 48시간보다 높다는 뚜렷한 증거가 없다. ~19 변환 6시그마를 위한 기초통계

58 ~19 변환 6시그마를 위한 기초통계

59 두 모집단의 비교 ~19 변환 6시그마를 위한 기초통계

60 용어의 정의 용어의 정의 1. 처리(Treatment) : 실험단위에 특정한 실험환경 또는 실험조건을 가하는 것.
2. 독립표본(Independent sample) : 두 모집단에서 각각 독립적으로 관측된 표본 3. 대응표본(Paired sample) : 실험단위를 동질적인 쌍으로 택하여 각 쌍에서 임의로 한 실험단위에는 처리1을, 다른 실험단위에는 처리2를 적용하여 얻은 관측 값. ~19 변환 6시그마를 위한 기초통계

61 두 모평균의 비교: 독립표본 T 검증 두 모평균의 비교 : 독립표본 T 검증
   모집단 1 :    모집단 2 : * 두 모집단은 서로 독립 두 모평균차에 대한 추론 : 을 알 경우 두 모평균의 차인 μ1-μ2 의 추론에 사용할 통계량 : 통계량의 분포 : 추론에 사용할 표준화된 통계량 : 가설검정 : 통계량은 : < 예 > 당사 자사 초 우량회원 중 무작위로 추출한 남녀(각 1,000 名) 두 집단간 신판 평균이용금액의 차이 검정. ~19 변환 6시그마를 위한 기초통계

62 쌍대비교에 대한 t검정 쌍체비교(Paired comparison)에 대한 t 검정
: 연속형 변수들에 대한 기본적인 단일변수 서술통계량 및 모평균이 0 인지에 대한 가설의 t검정 값 및 이의 확률 값(PRT)을 구하고자 할 때와 두 집단간 비교(paired comparison)에 대한 t 검정을 실시한다. 특히, 쌍체 비교(paired comparison)란 실험단위를 동질적인 쌍(또는 동질적이라고 생각되는 쌍)에서 임의로 한 실험단위에 대해서는 처리방법1을 적용시키고 나머지 실험집단에는 처리방법2를 적용시켜서 두 쌍간의 처리효과를 관측하여 차이를 비교하는 방법이다. 예> 아래의 숫자는 텔레비전 광고타입(Type1과 Type2)을 보고 소비자가 그 상품을 소비하고자 하는 정도라 하자. 이때, 광고타입1(Type1)과 광고타입2(Type2)중 어느 Type이 효과가 있는가를 알아보자. ~19 변환 6시그마를 위한 기초통계

63 예제 풀이 공식 ~19 변환 6시그마를 위한 기초통계

64 ~19 변환 6시그마를 위한 기초통계

65 상관분석 ~19 변환 6시그마를 위한 기초통계

66 상관분석(Correlation) □ 의미 : 두 변수가 1차 선형관계 존재 여부 및 강도를 측정
□ 용어 : 상관계수 (두 변수간의 밀접도) □ 상관계수의 정의 공식 □ 관련 부문 - 두 변수간의 선형 관계 분석 (회귀분석) : 결정계수 - 두 변수 이상의 연관성 분석 (다변량 분석) : 주성분분석, 요인분석 등 ~19 변환 6시그마를 위한 기초통계

67 산점도와 상관계수와의 관계 r=-1 r=-0.8 r=0 r=1 r=0.8 r=0 □ 산포도와 상관계수와의 관계
~19 변환 6시그마를 위한 기초통계

68 ~19 변환 6시그마를 위한 기초통계

69 분산분석(ANOVA) ~19 변환 6시그마를 위한 기초통계

70 분산분석과 t검정 ~19 변환 6시그마를 위한 기초통계

71 분산분석의 정의 관심 있는 확률표본과 관련하여 다른 형태의 분산을 분석하여 여러 모집단 평균들의 동일성을 검정
주요용어 : 인자(factor)/요인/처리(treatment)/설명변수, 수준(level), 반복(replication), 반응변수 예 : 어떤 약품의 합성반응에서 합성 수율에 대한 가열온도의 영향을 조사하기 위해 가열온도로 ℃를 실험한다면 인자 : 가열온도 / 수준 : 3개 ( ) / 반응변수 : 합성수율 추가 인자로 납품업자를 고려 시 수준 A, B 가 존재한다면 처리 : 납품업자 by 가열온도 ( 6가지 처리 ) 각 처리마다 5회 반복실험을 한다면 반복 : 5 ~19 변환 6시그마를 위한 기초통계

72 분산분석 모델 : 전체 평균 : ii번째 집단의 평균 가 정 모집단은 정규분포를 따른다 모집단의 분산은 모두 같다
가 정 모집단은 정규분포를 따른다 모집단의 분산은 모두 같다 표본은 서로 독립이며 무작위로 추출한다 ~19 변환 6시그마를 위한 기초통계

73 분산분석 모델 처리효과 잔 차 전체평균 ~19 변환 6시그마를 위한 기초통계

74 예제 자료 1 2 3 4 7 12 14 19 8 17 18 25 15 13 22 11 23 9 16 10 20 4 3 2 1 5 4가지 학습방법(처리 4수준) , 6번 반복 측정 ~19 변환 6시그마를 위한 기초통계

75 변동 분해 결과 SST = SSW + SSB 총 변동 그룹 내 변동 그룹 간 변동 20081101~19 변환
총 변동 그룹 내 변동 그룹 간 변동 ~19 변환 6시그마를 위한 기초통계

76 ANOVA table SST 총변동 MSB MSW SSB SSW 급간변동 급내변동 F 제곱평균 자유도 제곱합 변동요인
k-1 SSB SSW 급간변동 급내변동 F 제곱평균 자유도 제곱합 변동요인 ~19 변환 6시그마를 위한 기초통계

77 다중비교 Fisher’s least significant difference Newman-Keuls test
분산분석표에서 귀무가설을 기각하는 경우 어느 그룹간에 모평균 차이가 있는지 분석절차 실제로 분산분석결과와 관계없이 수행가능 Fisher’s least significant difference 반복수가 다른 경우 Newman-Keuls test 반복수가 같은 경우 Tukey’s honestly significance difference 반복 수 동일, 유의수준 0.1이상 이용 Tukey’s Studentized range test Tukey’s HSD 의 신중성 극복 Scheffe’s test 반복 수 상이, 유의수준 0.1이상 이용 Duncan’s test 반복 수 동일, 검출력 높으나 오류가능성 높음 ~19 변환 6시그마를 위한 기초통계

78 ~19 변환 6시그마를 위한 기초통계

79 질적 자료분석 ~19 변환 6시그마를 위한 기초통계

80 범주형 변수(Categorical Variables)
예 : 성별(gender) - 여(0), 남(1) 출신지역 - 서울 • 경기(1), 강원(2), 충청(3), 호남(4), 영남(5) 교육수준 - 초등(1), 중(2), 고등(3), 대학(4) 분류 : 이항형(binary) 예 - 성별 명목형(nominal) 예 - 출신지역 순서형(ordered) 예 - 교육수준 ~19 변환 6시그마를 위한 기초통계

81 카이제곱 검증(Chi-Square Test)
행의 동질성(Homogeneity) : 각 행의 구성비율이 동일 행과 열의 독립(Independence) 1 2 3 합계 11 n 12 13 + 21 22 23 N ~19 변환 6시그마를 위한 기초통계

82 카이제곱 검증 1) 행들이 동질적이라는 가설 하에서는 이므로 칸 의 기대빈도(expected frequency) 는
1) 행들이 동질적이라는 가설 하에서는 이므로 칸 의 기대빈도(expected frequency) 는 으로 추정. 2) 관측빈도(observed frequency) 와 차이는 : Pearson의 카이 제곱 3) 분할 표에서 Pearson 카이 제곱에 대한 준거 분포는 자유도 의 카이 제곱 분포 . ~19 변환 6시그마를 위한 기초통계

83 자료출처 자료: SERI 게시자료 다운로드. 이 창엽, , easy 기초통계강의 교재(BB대상):1006kb 참고교재 : 통계학 원리와 방법 (자유아카데미), 만화로 쉽게 배우는 통계학 (성안당) ~19 변환 6시그마를 위한 기초통계


Download ppt "6σ를 위한 알기 쉬운 기초통계 Histogram 이항분포의 정규 근사 정규분포(n ≥30) t (5) :자유도 5인 t 분포"

Similar presentations


Ads by Google