Six Sigma를 하려면 꼭 알아야만 하는 통계 6
목 차 1. 기본 통계량 : 평균과 편차 2. 정규분포 3. 통계적 의사결정 - 가설검정 4. 분포를 이용한 추정,검정 목 차 1. 기본 통계량 : 평균과 편차 2. 정규분포 3. 통계적 의사결정 - 가설검정 4. 분포를 이용한 추정,검정 - 평균치 : z 분포/t 분포 - 산 포 : χ² 분포/F 분포 5. 회귀분석 6. 실험계획법 기타-공정능력 지수 / 장기,단기 Sigma
Six Sigma와 통계Tool Define Measure Analyze Improve Control *통 계 Tools and Techniques 친화도 브레인스토밍 고객조사 전개도 간트차트 그래프 카노분석 회합스킬 Mult-voting 명목집단방법 팀 헌장 정성적 프로세스 분석 Top Down Mapping 고객의 소리 변환 품질기능전개 벤치마킹 체크시트 관리도 데이터 차트 Guage R&R 히스토그램 척도 Run Chart 샘플링 시그마 계산 층별 산포 인과분석 상관 실험계획법 Fault Tree FMEA 가설검증 파레토 프로세스 시뮬레이션 정량적 프로세스 분석 회귀 계층화 Structure Tree 가치분석 Challenge Assumptions CDAM 비용 효과분석 기준선정 메트릭스 Force Field Analysis How-By Pursuits 수평적 사고 Mind Mapping Random Word Six Hat Thinking Storyboards Solution Mapping FMEA 프로세스 관리시스템 Workplanning
통계적 사고의 정의 1. 모든 일은 상호 연결된 프로세스의 연속이며, 2. 모든 프로세스는 변화하며, 1. 모든 일은 상호 연결된 프로세스의 연속이며, 2. 모든 프로세스는 변화하며, 3. 산포를 이해하고 줄이는 것이 성공의 열쇠이다.
확률과 통계 확률은 게임의 규칙을 알고 게임을 관전하는 것과 같음. 통계는 게임의 규칙을 알기 위해 게임을 관전하는 것과 같음. Six Sigma 경영에서는 프로세스를 관찰하고 (측정을 통해 게임을 관전함) 사실에 근거한 의사결정을 하며, 프로세스를 관리하기위해 규칙을 적용함.
1.기본 통계량 통계는 표본을 통해 모집단의 특성을 파악하는 것 모집단과 표본 모집단(Population) 표본(Sample) 정의 : 파악하고자 하는 대상 ex : 전 국민의 평균 수명 전 국민의 출신 지역 정의 : 통계적 판단을 위해 모집단에서 선택된 작은 집단 Sampling × × 표 본 × × ▲ ▲ ▲ ○ × ▲ ○ ▲ ○ × × × ○ × × ○ ○ ▲ × : 8개 × 2개에 ▲, ○가 각 1개씩 존재 ▲ : 4개 ○ : 4개 통계량 평균 : μ 산포 : σ 평균 : χ 산포 : s
통계를 통해 모집단의 특성을 알고 앞으로 일어날 사건도 예측 왜 통계가 필요? ■ 표본을 통해 모집단의 대표 값이나 변동의 크기를 구하는 것 기술 통계(Descriptive Statistics) ex) GNP의 추정, 평균수명 ■ 표본을 통해 얻은 정보를 이용하여 불확실한 사실에 대해 추론하고 통계적 판단을 위한 Model을 설정하는 것, 미지의 특성에 대해 주어진 정보를 이용하여 결론을 내리고 미래에 일어날 특성치에 대한 예측을 하는 것 추측 통계(Inferential Statistics) ex) 회귀분석 Model
Input,프로세스 및 Output 척도 Input 척도 프로세스 척도 Output 척도 효율성 척도 비용 activity 당 시간 재작업 양 대응 시간 activity의 변동성 효과성 척도 결점율 결점수 총 반응 시간 대금 청구 정확도 이익
(Frequency Distribution) 그래프/도표의 필요성 자료가 갖는 의미를 쉽게 이해하고 의미를 찾아냄 돗 수 분 포 (Frequency Distribution) Delivery Time* 치우침, 대칭 등 Data이 구조를 이해 95, 120, 117, 99, 110, 107 125, 98, 85, 127, 105, 114 103, 112, 92, 101, 122, 120 도표화 × × × Data 자체는 의미 없는 숫자 덩어리 × × 시간 80 90 100 110 120 130 의문이 명확해짐 왜 치우침이 발생할까? * 주문접수 후 고객에게 도착한 시간
데이터 수집 방법 지표 마련 Step 1 Step 2 Step 3 Step 4 데이터 평가 지표에 대한 운용정의 마련 측정계획 수립 Step 3 데이터 수집 Step 4 데이터 표현 데이터 평가
데이터 표현 방법
산포란 무엇인가? • 산포란 제품이나 서비스가 제공될 때 프로세스가 정확하게 동일한 결과를 가져오는 것은 아니라는 것을 의미함 • 산포란 제품이나 서비스가 제공될 때 프로세스가 정확하게 동일한 결과를 가져오는 것은 아니라는 것을 의미함 • 산포는 모든 프로세스에 존재함 • 비즈니스 프로세스에서 산포를 측정하고 이해하는 것은 현재의 성과수준이 어느 정도 수준인지, 산포를 줄이는 한편 불량을 줄이기 위해 필요한 것이 무엇인지를 도출하는 데 도움을 줌 데이터 산포
2.정규분포 이항분포는 모집단의 불량율(P)를 알고 있을 때 표본집단에서 나타난 불량율이 모집단과 얼마나 다른지를 알고 싶을 때 사용 모집단과 표본 모집단 정보 표본집단에서 나타날 수 있는 경우 4번 추출 BBBB WBBB BWBB BBWB BBBW WWBB BWBW BWWB WBBW WBWB BBWW WWWB WWBW WBWW BWWW WWWW 공 4개의 가능한 조합 흰 공 확율 : 3/4 검은 공 확률 : 1/4 ○ : 흰 공(W) ● : 검은 공(B) 추출된 흰 공의 개수 (W) 1 2 3 4 경우의 수 1 4C0 4 4C1 6 4C2 4 4C3 4 4C4 전 제 조 건 각 실험은 Yes, No 같은 2가지 결과만 갖음(P, 1-P) 각 실험은 독립으로 서로 영향을 주지 않음(복원추출) 각 경우의 확율 (1/4)⁴ (1/4)³ (3/4) (1/4)² (3/4)² (3/4)³ (1/4)¹ (3/4)⁴ 확율 0×(1/4)⁴ = 0.004 4×(1/4)³ ×(3/4) = 0.007 6×(1/4)² ×(3/9)² = 0.211 4×(3/4)³ ×(1/4)¹ = 0.422 1×(3/4)³ = 0.316
주어진 n, p에 따라 확률분포를 그리고 모집단의 χ, S를 구할 수 있음 이항분포(2) 이항분포 χ S 0.004 0.047 0.211 0.422 0.316 1 2 3 4 나타나는 검은 공 개수(X) P(X = 흰 공 개수) = 4Cχ(3/4) (1/4) χ 4-χ 4×0.75 = 2.25 4×1/4×3/4 = 0.87 n = 4 p = 3/4 (흰 공 3개) 0.375 0.25 0.25 4Cχ(2/4) (2/4) χ 4-χ 4×0.5 = 2 4×2/4×2/4 = 1 n = 4 p = 2/4 (흰 공 2개) 0.063 0.003 X 1 2 3 4 0.422 0.211 0.047 1 2 3 4 X 0.316 0.004 4Cχ(1/4) (3/4) χ 4-χ 4×0.25 = 1 4×3/4×1/4 = 0.87 n = 4 p = 1/4 (흰 공 1개) 일반식 : nCχP (1-P) χ n-χ χ = np S = np(1-8)
연속형 Data는 계급의 폭을 작게 하여 분포를 함수형태로 나타낼 수 있음 확률 밀도함수 계급의 폭이 10cm 계급의 폭이 3cm 계급의 폭이 아주 작음 키가 167.5cm부터 172.5cm까지의 학생은 전체의 28% P(167.5< χ<172.5) = 0.28 0.28 28% 0.25 0.16 0.12 0.08 0.04 0.04 0.02 0.01 155 160 165 170 175 180 185 190 195 155 170 195 155 170 195
정규분포는 평균치에서 벗어난 정도에 따라 확률 값으로 주어짐 정규 분포 정규 분포의 통계적 판단의 출발점 정규분포는 평균치에서 벗어난 정도에 따라 확률 값으로 주어짐 정규 분포의 특성 정규 분포란? 평균값 = 중앙값= 최고 값 Gauss가 발견 계측 오차에 대한 분포 대부분의 자료에 적합 면적 68% 좌우대칭 평균 M, 표준편차 σ f(χ) = 1 Exp - (χ-Μ)² 2π 2σ² - ∞< χ< ∞ χ축에 닫지 않음 면적 95% N(M, σ²)으로 표시 -2σ -σ Μ +σ 2σ ☞ Data가 정규 분포에 따르지 않으면 고도의 Approach가 필요
Data가 정규 분포에 따르면 표본집단의 평균치가 정규 분포상에 어디에 위치하는지에 따라 일어날 수 있는 확률을 구할 수 있음 정규 분포의 활용 Data가 정규 분포에 따르면 표본집단의 평균치가 정규 분포상에 어디에 위치하는지에 따라 일어날 수 있는 확률을 구할 수 있음 A사직원의 신장은 χ = 170, σ = 10 이다. 180cm 이상은 몇 %일까? 은행에서 고객은 5분 이내 업무처리를 원한다. A은행의 업무처리는 χ = 4분 σ = 1분이다. 몇% 고객이 불편을 참고 있는가? 고객의 요구수준 알고 싶은 확율 고객 불만 영역 150 -2σ 160 -1σ 170 π 180 1σ 190 2σ 1 -3σ 2 -2σ 3 -1σ 4 π 5 1σ 6 2σ 7 3σ 50% - 68% = 16% 2 50% - 68% = 16% 2
정규확률분포의 표준화 평균이 0 이고 표준편차가 1인 정규분포를 표준정규분포라고 부른다. z value: X라고 지정하는 어떤 값과 모집단의 평균 m 와의 거리를 모집단의 표준편차 s로 나눈 값을 말한다.
표준화를 통해 산포의 척도를 Z값으로 통일 표준 정규분포 Data마다 1σ, 2σ, 3σ 위치를 따로 구해야 해당면적을 구할 수 있음 A 집단의 120과 B 집단의 120은 우열을 비교하기 어려움 Z = X-Μ로 표준화하면 1σ, 2σ, 3σ 위치가 동일한 Z값으로 표시됨 A 집단의 120은 Z값이 2, B 집단의 120은 Z값이 1, A 집단의 120이 더 나타나기 어려운 사건 σ χ = 100, σ = 10 80 -2 90 -1 110 1 120 2 100 70 -3 130 3 Z값 A집단 N(100, 10²) Z = X-100 10 70 -3σ 80 -2σ 90 -1σ 100 π 110 1σ 120 2σ 130 3σ N(0, 1)로 표준화 됨 χ = 100, σ = 20 60 -2 80 -1 120 1 140 2 100 40 -3 160 3 Z값 B집단 N(100, 20²) Z = X-100 20 40 -3σ 60 -2σ 80 -1σ 100 π 120 1σ 140 2σ 160 3σ N(Μ, σ²)
정규 분포에 따르는 모집단에서 추출한 Data는 아래와 같은 성질을 갖음 정규 분포의 성질 정규 분포에 따르는 모집단에서 추출한 Data는 아래와 같은 성질을 갖음 성질 1 X = N(Μ, σ²)일 때 예) 어떤 온도 Data가 섭씨로 N(100, 10²) 일 때 Y = a + bX의 관계가 성립하면 Y는 Y = N(a + bΜ, b²σ²)인 정규 분포를 따름 Y = 32 + 1.8χ 공식을 이용하여 화씨로 바꾸면 바뀐 Data는 N(32+180, 1.8²×10²)에 따른다 성질 2 X = N(Μ₁,σ1²)이고 Y = N(Μ₂, σ2²)이라면 예) 체중은 N(60, 6²)이고 키는 N(170, 10²)이라면 X + Y는 N(Μ₁+ Μ₂, σ1² + σ2²)에 따른다 신체지수 체중 + 키는 N(230, 6²+10²)의 정규 분포에 따름 성질 3 N(Μ, σ²)인 모집단에서 n개의 Sample을 취하면 예) N(100, 10²)인 모집단에서 10개의 Data를 취하면 n개의 표본집단은 N(Μ, σ²/n)의 정규 분포에 따른다 표본집단의 분포는 평균 100, 분산 10인 정규 분포에 따름
이항 분포는 정규 분포로 간주하여 계산할 수 있다. 이항 분포와 정규 분포 이항 분포는 정규 분포로 간주하여 계산할 수 있다. B(n, p) n : 반복수, p : 나타날 확율 χ = np σ = np(1-p) B(15, 0.4) 이항 분포에서 P(7≤χ≤10) = 15C7(0.4) (0.6) + · · · + 15C10(0.4) (0.6) = 0.381 0.2 7 8 10 5 정규 분포에서 P(6.5≤χ≤10.5) = P(6.5 - 6 ≤ Z ≤ 10.5 - 6) = P(0.263 < Z< 2.368 = 0.387 0.1 1.9 1.9 1 2 3 4 5 6 7 8 9 10 11 12 13 빗금부분의 확률은? ☞ np >15인 경우에는 거의 정규 분포에 가까움
모집단이 정규 분포에 따른다는 가정은 통계처리의 출발점 모집단에 대한 가정 모집단이 정규 분포에 따른다는 가정은 통계처리의 출발점 모집단에 대한 의심 해 답 1. 모집단이 정규분포에 따르는지 어떻게 아나? 2. 모집단이 정규분포가 아니면 무엇이 잘못되나? 3. 모집단이 정규 분포가 아니면 어떻게 해야 하나? Normality Test(정규성 검증) 예를 들어 구간 추정을 할 때 신뢰도 95%면 t0.025 s 로 하는데 모집단이 정규분포가 아니면 구간이 90%인지 80% 인지 알 수 없게 됨 정규성을 해치는 이상 Data를 제거 자료를 변환하여 정규화 Minitab 사용 Z 값 -2 -1 1 2 · 누적 확율 n Y = logχ ×
모든 Data는 정규분포에 따르는지를 확인후 통계적 의사결정에 사용 각 데이터에 대한 정규성 검정을 실시함. Graph > Probability Plot Variables: Data25 OK. 샘플이 많은 경우 (100개 이상) Anderson-Darling 검정 실행 Stat > Basic Statistics > Normality Test Variables: Data1000 OK. (p value가 =.05 보다 크다면 정규 분포를 따름)
정규성 검정: p값>0.05 이상이면 정규분포 Data를 직선화된 정규분포 선상에 Plot하여 정규성을 검정 정규성 검정: p값>0.05 이상이면 정규분포
정규분포에 따르지 않는 Data는 정규성을 같도록 변환 목적: 정규성 검정 연습 Minitab 연습 File: Case6Sigma.mpj c2 Cycle Time 에 대한 히스토그램 작성 Y 변수(c2 Cycle Time)가 정규 분포를 하는지 검정
사례연구 : 은행의 예금처리 시간 정규성과 변환 cycle time은 대략적으로 정규 분포를 하는가? Graph > Probability Plot Cycle time 은 정규분포를 따르지 않음.
정규성을 갖는 Data로 변환 목적: 알맞은 변환 방법을 선택함. 테이블 연습 File: Case6Sigma.mpj Box-Cox 변환을 이용하여 알맞은 변환 방법을 결정함 Stat > Control Charts > Box-Cox Transformation Single column: Cycle Time Subgroup size: = 1
정규성 검정과 변환 cycle time 은 대략적으로 정규분포를 하는가? Graph > Probability Plot 어떤 변환을 이용해야 하는가? Stat > Control Charts > Box Cox = 0 이므로 log 변환이 적합함
Box-Cox 변환 Stat>Control Charts>Box-Cox
MINITAB Calculator를 이용하여 데이터를 변환하기 Calc > Calculator “store result in variable” Log10 Cycle Time “Expression”내부를 클릭하고, functions 메뉴에서 Log 10을 선택함. C2 Cycle Time 을 식에 대입하기 위해 두번 클릭하여 “number’가 보이도록 함. 그러면, 변환된 데이터가 Log 10 Cycle Time 컬럼에 나타남.
3.통계적 의사결정 가설검정은 “Group 1은 Group 2 와 비교할 때 유의하게 다른가”에 대한 답을 줌. Groups 1과 2 는 개선 전, 후 프로세스의 싸이클 타임 일수도 있고, 장소1과 장소2 에서 발생하는 결점 일수도 있음. 가설검정은 연속형 데이터와 이산형 데이터에 적용 할 수 있고, 두개 이상의 그룹에도 적용됨. 검정 방법: t-검정(t-Tests) 분산분석(ANOVA tests) 상관관계(Correlation) 회귀(Regression) 카이-제곱 검정(Chi-squared tests)
통계적으로 서로 독립이다는 가정 가설검정의 가정 모집단으로 부터 충분히 많은 시료가 랜덤하게 추출되었음. 데이터는 정규분포를 함.
검정은 표본집단이 모집단과 같은지 다른지를 판정하는 것 검정의 판단 논리 올바른 선택 Ha가 사실이나 Ho를 선택 Type Ⅱ error β Ho가 사실이나 Ha를 선택 Type Ⅰ error α Ho(귀무가설) : 표본에서 얻은 정보를 볼 때 표본은 모집단과 일치한다는 주장 Ha(대립가설) : 표본에서 얻은 정보를 볼 때 모집단과 같다고 할 수 없다는 주장 Ho 선 택 Ha Ho Ha 사 실
통계적 의사결정 사례 six sigma 팀은 두 부서간 평균 급여에 대해 차이가 있는지를 비교하려 함. 팀은 먼저 두 부서의 모집단으로 부터 무작위로 샘플을 채취한 다음 부서별로 히스토그램을 그린 결과 아래와 같음. x = cs x = m
가설검정의 해석 우리가 하려는 가설검정은 “귀무가설이 잘못 되었음을 증명하라” 임. 우리가 하려는 가설검정은 “귀무가설이 잘못 되었음을 증명하라” 임. 이것을 위해 앞에서 언급한 p-value의 개념을 상기 시켜 주고자 함. P 에 대한 정의는 아래와 같음. 만일 p < 0.05 이면, 차이가 있다는 것을 의미함. “ p-value는 xcs 와 xm 사이에서 관측된 차이는 샘플링 산포에 의해서만 발생할 확률이다” p-value에 대한 또 다른 정의는: “p-value는 두 샘플이 같은 모집단에서 추출될 확률이다.” 결론적으로 우리가 범할 오류가 5% 보다 작지 않다면 우리는 통계적으로 유의 하다고 주장할 수 없게 됨..
Y X 가설검정 이산형 연속형 t-Test ANOVA Chi Square Logistic Regression
양쪽 검정 한쪽 검정 (1-α) 100% 신뢰 1-α χ α 2 Ha 채택 Ha 기각 T χ α Ha 채택 Ha 기각 1-α χ - <μ <χ+ t α 2 n σ χ > T + t α 2 n σ 이면(1- ) 100%의 신뢰도를 갖고 Ha를 채택
활용 분포 중요한 통계적 의사결정 사항 모집단이 정규분포에 따르면서 모집단의평균,산포를 알고 표본집단과 모집단간의 평균의차가 있는 지를 알고 싶을 경우 Z 분포 모집단이 정규분포에 따르되 모집단의평균을 모르면서 표본집단과 모집단간의 평균의차가 있는 지를 알고 싶을 경우 t 분 포 표본의 분산이 정규분포에 따르는모분산과의 차이가 있는 지를 알고 싶을 경우 카이자승(χ²) 분포 정규분포에 따르는 두집단간의 산포의차가 있는 지를 알고 싶을 경우 F 분포
통계적 판단을 위한 샘플의 크기는 허용오차(d)와 신뢰수준에 따라 결정됨 모집단이 N(μ, σ²)에 따를 때 μ추정 값의 100(1-α)%의 오차 한계는 Case Study 철판 수축의 표준 편차는 4㎜로 알려져 있다 90% 신뢰수준을 갖고 추정오차가 0.8㎜ 이내로 되려면 몇 개를 Test하여야 하나? Z σ α 로 표시된다 2 n n = Z α 2 · σ d ² = 1.64 4 0.8 = 68 Z0.05 = 1.64 100(1-α)%의 확신을 갖고 오차가 d 이내가 되려면 n Z σ 2 α = d 이를 만족시키는 n값은 n = Z α 2 · σ d ²
Data 수가 n개인 표본집단의 평균치가 X, 편차가 σ 라면 모집단의 평균치가 존재할 수 있는 범위는 99.7% 확율에서 4.분포를 이용한 가설검정 및 추정 Z 분포의 이용 중심극한의 정리 모집단 평균의 추정 (정규분포의 성질) 모집단 평균 값 Data 수가 n개인 표본집단의 평균치가 X, 편차가 σ 라면 모집단의 평균치가 존재할 수 있는 범위는 99.7% 확율에서 n개 추출 평 균 : Μ 편 차 : σ N(Μ, σ²) X₁ X₂ X₃ Xn n개 추출 평균 : Μ 편차 : σ/ n N(Μ, σ/ n) n개 추출 n개 추출 면적 99.7% -3σ Μ +3σ N(Μ, σ²)인 모집단에서 n개 취한 표본 집단들의 평균값은 Μ이고 평균값의 편차는 σ/ n이다 샘플개수 n이 증가할 수록 표본집단의 평균 X는 Μ에 수렴 σ σ 3× X 3× n n
표본집단의 평균치, 편차에서 모집단의 평균치를 측정할 수 있음 사출 부품의 중량 모집단의 평균은? 3.6 2.9 2.8 2.6 2.4 3.2 2.2 2.5 2.3 2.1 3.0 2.7 3.1 3.8 2.0 1.8 4.1 모집단 N(Μ, σ²) Μ가 존재하는 범위(95%) 표 본 χ = 2.217 S = 0.475 40개 X의 신뢰구간은 ±2σ이나 σ가 미지의 양으로 표본집단의 편차 S값을 추정량으로 사용 n = 40 χ = Σχi = 2.715 S = Σ(χi-χ)² = 0.475 39 40 Μ = 2.217이고 어떻게 표본을 골라도 95% 평균치가 검출되는 구간은 2.217 - 2× 0.475< Μ< 2.217 + 2× 0.475 2.067 < Μ< 2.367 40
모집단의 편차를 아는 경우 모집단의 편차를 모르는 경우 (정규분포의 성질) t 분 포의 이용 모집단의 편차를 아는 경우 모집단의 편차를 모르는 경우 (정규분포의 성질) 표본의 평균 값 모집단 모집단 n개 n개 X S N(Μ, σ²) X₁ X₂ Xn N(Μ, σ²) σ : DRI n개 N(Μ, σ²/ n) S는 알 수 있음 n개 추출 t 분 포 정 의 표본 X의 표준 정규 분포는 표본 X의 표준 정규 분포에서 σ를 표본으로 추정치 S로 대체하면 X - Μ t는 자유 n-1의 t 분포에 따른다 n이 크면 정규 분포로 수렴 σ/ n X - Μ Z = t = S/ n
모집단의 정보에 따라 적용하는 분포가 틀려짐 Z 분포/ t 분포의 차이 Z 분포 t 분포 (모평균, 편차가 기지) (모평균을 모를 때) 자유도 n-1인 t분포 신뢰구간 α 2 1-α α 2 α 2 rd α 2 Z α 2 α α α Z t t 2 2 2 Z α 2 σ Z α 2 σ χ - <χ<χ+ t α 2 n S χ - <χ<χ+ n n 사 례 ABS의 강도의 편차는 8로 알려져 있는데 모집단의 평균은 잘 모른다 100개를 Sampling하여 Test해보니 평균치가 42.7이었다 모평균의 90% 신뢰구간은? 새로운 ABS를 개발하여 충격강도를 15회 측정하여 보니 평균이 39.3, 표준편차가 2.6이었다 새로운 ABS의 충격강도 Μ에 대해 90%신뢰구간은? Z α 2 = Z0.05 = 1.64 n = 15 : 자유도 14 Μ의 구간은 42.7± 1.64× 8/ 100 t분포표에서 자유도가 14일 때 = t0.05 = 1.7 t α 2 = 42.7 ± 1.31 Μ의 구간은 39.3± 1.761× 2.6/ 15 = 39.3 + 1.18
모집단의 편차(σ)를 알고 있으면 Z값을 이용하여 검정 평균치의 검정(1) 모집단의 편차(σ)를 알고 있으면 Z값을 이용하여 검정 평균치 검정(Z 검정) Case 15 2.5% Z0.025 = -1.96 AL사 C/S팀은 A/S 접수 후 처리가 평균 15시간, 편차 3시간 내에 처리하고 있다 C/S팀에서는 새로운 업무 절차를 만들어 처리 70건의 A/S 요청에 적용해 본 결과 시간을 단축하였다고 한다(편차는 같음) 이런 주장을 97.5% 신뢰 수준에서 받아들이려면 처리 시간은 얼마가 되어야 하나? 검정 통계량 : Zα< χ - Μ σ/ n -1.96 < χ - 15 3/ 70 Ho = Μ ≥ 15 Ha = Μ< 15 χ< 14.3 결론 : Test 평균이 14.3 시간 보다는 작아야 95%수준에서 단축되었다고 말할 수 있다
모집단의 편차를 모를 때는 t값을 이용하여 검정 평균치의 검정(2) 모집단의 편차를 모를 때는 t값을 이용하여 검정 평균치 검정(t 검정) Case 검정 통계량 : t = χ - Μ 자동차 부품의 평탄도는 200㎛ 까지 허용된다 10개를 임의로 택해 Test하여 175, 190, 215, 198, 184 207, 210, 193, 196, 180 10개의 Data를 얻었다 이 부품 모집단의 평균치를 Μ, 편차를 σ로 할 때 가설은 Ho : Μ >200 Ha : Μ< 200이며 유의 수준 0.01에서 검정하면 S / n 표본집단 통계량 : χ = 194 S = 13.14 t = 194.8 - 200 = -1.25 13.14/ 10 자유도 9, α = 0.01일 때 t값은 표에서 -2.82< -1.25 t0.01 = -2.82 표본의 t값 = -1.25 결론 : 주어진 표본의 Data로는 200 이하로 개선되었다 할 수 없다
평균치 검정(3) 모편차(σ)를 알 때 모편차(σ)를 모를 때 Ho Ha 기각역 Ho Ha 기각역 Μ≤Μo Μ≥Μo Z ≥ Za Z ≤ Za │Z│≥ Z 2 α 한쪽 검정 양쪽 검정 Ho Ha 기각역 Μ≤Μo Μ≥Μo Μ = Μo Μ >Μo Μ< Μo Μ ≠ Μo t ≥ ta t ≤ ta │t│≥ t 2 α 통계량 χ - Μ S / n Z = χ - Μo S / n t =
정 의 특성/활용방법 카이자승(χ²) 분포 모집단 확률 표본 n개 N(Μ, σ²) X₁ X₂ X₃ Xn 확율 정 의 특성/활용방법 모집단 N(Μ, σ²) 확률 표본 n개 X₁ X₂ X₃ Xn 확율 자유도 n-1인 함수 특성 : 긴 꼬리 비대칭 항상 양수 α α χ² χ1² χα² 활용방법 : 표본의 산포(S²)를 알고 모집단의 산포(σ²)를 추정할 때 산포의 크기 σ² Σ(χi - χ)² 95%에서 모집단 σ²의 신뢰구간을 구하려면 χ² = Σ(χi-χ)² = (n-1)S² σ² P[χ²0.975< (n-1)S²< χ²0.025] = 0.95 σ² (n-1)S²< σ²< (n-1)S² = 0.95 P χ² 0.025 χ² 0.975
카이자승(χ²) 분포의 이용(1) Case χ² n - 1 = 9, 1-α = 0.9 5% χ²-α = χ²0.95 = 3.325 2 χ²-α = χ²0.05 = 16.919 Case 전지는 전압이 균일하게 유지되어야 함 생산시 검사에 통과한 전지 10개를 10시간 사용 후 전압차이를 Test해보니 평균차이가 0.7V, 편차가 0.4V 였다 (편차가 큰 문제임) 이러한 차이가 정규 분포에 따른다고 가정할 때 모집단의 편차는 90% 신뢰 수준으로 얼마라고 말할 수 있는가? (n-1)S² (n-1)S² < σ²< χ²0.05 χ²0.95 9×(0.4)² 9×(0.4)² < σ²< 16.919 3.325 0.085< σ²< 0.433 0.29< σ²< 0.66
카이자승 분포를 이용하여 표본의 분산이 모분산과 같은지를 검정할 수 있음 카이자승(χ²) 분포의 이용(2) 카이자승 분포를 이용하여 표본의 분산이 모분산과 같은지를 검정할 수 있음 해 답 Case Ho : σ = σ² Ha : σ² >σ² 앞의 전지 예에서 전해질의 처방을 변경하여 전압차의 편차를 0.2로 줄였다고 한다 (n = 10) 95% 신뢰수준에서 산포가 개선되었다고 할 수 있는가 전지 전압차의 편차는 0.25 이하로 관리되어야 한다 검정 통계량 : χ² = (n-1)s² σ² = (10-1)(0.2)² (0.25)² = 5.76 자유도 9, 95%에서 χ²0.95 = 3.325 5.76 >3.325 (Ho를 기각 개선되었다고 할 수 있음) 5% 기각역 χ²0.95 = 3.325 표본의 χ²=5.76
F 분포는 두 집단의 산포를 비교하는데 이용됨 F 분포 개념 모집단 X 모집단 Y 표본집단 표본집단 F 분포 N(μ1, σ1²) X₁ X₂ X₃ Xn1 N(μ1, σ2²) Y₁ Y₂ Y₃ Yn2 F 분포 S1²/σ1² Σ(χi-χ)² n1-1 S1² = Σ(Yi-Y)² n2-1 S2² = F = 은 자유도 (n1-1, n2-1)인 F분포에 따른다 신뢰도 α에서 Fα (n1-1, n2-1) 값은 F표로 주어짐 S2²/σ2² 두 집단간의 모분산 비교는 표본의 분산을 이용 X, Y 두 집단의 분산이 동일한가 하는 가설은 σ1² Ho : = 1 두 집단의 분산 검정 σ2² S1² σ₁, σ₂는 모르므로 표본집단의 S₁, S₂를 이용하여 값이 Fα(n1-1, n2-1) 값보다 크면 Ho를 기각 S2²
F 분포는 산포가 중요한 제품에서 두 집단의 산포를 평가할 수 있게 해줌 해 답 Case σA² Ho : σA = σB²= 1 Ha : >1 σB² A 기계 12번 측정 편차 : 2.3 B 기계 10번 측정 편차 : 1.5 검정 통계량 : F = = SA² SB² 5.29 2.25 = 2.35 A 기계의 생산품이 B 기계 생산품보다 산포가 크다고 할 수 있는가? 표에서 F0.05(11, 9) = 3.10 기각역은 F>3.10(유의 수준 5%) 기각역에 속하지 않으므로 Ho를 기각할 수 없다 (σA, σB는 다르다고 할 수 없다)
5.회귀분석(Regression Analysis) 독립변수(X)가 종속변수(Y)에 어떻게 영향을 끼치는지를 정량화 한 것 B사 T제품 출시 후 광고투자와 매출액을 분석해 보니 아래의 결과를 얻었다. 이 Data에서 광고투자를 늘리면 매출액이 상승한다고 결론 내릴 수 있을까? 월 광고료(억원) 매출액(십억원) 1 2 3 4 5 6 7 8 9 10 12 20 22 15 17 30 18 25 매출액(Y) 30 20 10 2 4 6 8 12 광고료(X) · 1 9 5 3 7 매출액과 광고비는 선형관계가 있음
회귀 직선식은 오차항의 크기가 가장 작아지도록 설정함 최소 자승법 회귀 직선식은 오차항의 크기가 가장 작아지도록 설정함 회귀분석의 Model 최소자승법 χ, y간에 선형관계가 있다고 가정하면 어떤 yi 값에서 오차항은 ei = yi - (a + bχi) 모든 점 y₁y₂··· yn의 오차의 합은 Σei = Σ(yi - a - bχi) 최소자승법(Σei)²이 최소가 되도록 a, b값을 정하는 것 y χ · e₁ a+bχ₁ e₂ a+bχ₂ y = a + bχ χ₁ χ₂ b = , Sχy Sχ² ^ a = y - bχ y₁ = a + bχ₁+ e₁ y₂ = a + bχ₂+ e₂ 선형식으로 설명 안 되는 부분 오차항으로 N(0, σ²)에 따른 yn = a + bχn + en
회귀 직선식은 오차항의 크기가 가장 작아지도록 설정함 최소 자승법 회귀 직선식은 오차항의 크기가 가장 작아지도록 설정함 달 χ y (χ₁- χ)² (χ₁- χ) (y₁- y) y χ y = -2.27 + -2.609χ χ₁ y = 18.6 (yi - y) (χi - χ) 1 2 3 4 5 6 7 8 9 10 4 8 9 12 6 10 9 20 22 15 17 30 18 25 10 16 1 4 (-4)× (-9.6) 3.4 4 × 11.4 (-2)× (-0.6) 2× 6.4 (-2)× (-8.6) 1.4 계 80 186 46 120 S²χ = Σ(χi-χ)² n - 1 = 46 9 Sχy = Σ(χi-χ)²(yi- y) n - 2 120 b = Sχy S²χ = 2.609 9 = y - bχ = -2.270 (χ가 변할 때 y가 변한 크기)
(yi - yi)² = (yi - y)² + (yi - yi)² 회귀직선의 분산 분석 회귀직선을 구한 다음에는 그 회귀직선이 얼마나 문제를 설명하는지를 검증해야 함 회귀분석의 설명력 회귀직선의 분산분석 y χ · y = a + bχ yi - yi ^ yi - y yi r² = SSR Sy² 요 인 제곱합 자유도 제곱합 평균 Fo SSR 회귀선 잔차 계 SSR SSE Sy² 1 n - 2 n - 1 SSR SSE/n-2 SSE n - 2 Fo>Fα(1, n-2)이면 회귀직선은 유의 yi가 y에서 떨어진 크기를 SSR, SSE로 구분하여 2집단으로 만든 후 2집단의 분산을 비교하는 F검정을 통해 판단 (yi - yi)² = (yi - y)² + (yi - yi)² ^ 총변동 회귀선으로 설명되는 변동 설명 안 되는 오차항(잔차) Sy² = SSR + SSE
B사 T제품 매출증가의 85%를 광고비가 설명해 줌 분산분석의 예 B사 T제품 매출증가의 85%를 광고비가 설명해 줌 분산분석 달 χ y yi = a+bχi 잔차 1 2 3 4 5 6 7 8 9 10 12 20 22 15 17 30 18 25 8.17 18.60 21.21 29.04 13.38 23.81 0.83 1.43 0.79 -3.60 -1.60 0.96 4.62 1.19 -3.38 -1.21 계 80 186 ^ yi - y -8.63 2.61 1.04 -5.24 5.21 -5.22 Ho : b = 0(상관관계가 없다) Ha : b ≠ 0(상관관계가 있다) 요 인 자유도 제곱합 MS Fo 회귀선 잔차 313.04 55.36 368.40 1 8 9 313.04 6.92 45.24 Fo0.05(1, 8) = 5.31 Fo>5.31(Ho 기각) R² = 313.04 368.40 = 85% 회귀선은 95% 신뢰수준으로 믿을 수 있으며 Data 변화의 85%를 설명해 준다 광고비를 증가 시키면 매출액이 증가 ! ! !
B사 T제품의 매출이 광고비뿐 아니라 판촉에 투입된 영업사원 숫자에도 상관 관계가 있는 것 같다면 어떻게 해석될 수 있을까? 다중회귀분석 B사 T제품의 매출이 광고비뿐 아니라 판촉에 투입된 영업사원 숫자에도 상관 관계가 있는 것 같다면 어떻게 해석될 수 있을까? 분산분석 χ1(광고) χ(판촉인원) 4 8 9 12 6 10 5 15 13 y(매출) 20 22 30 18 25 Ho : b₁ = b₂(상관관계가 없다) Ha : b ≠ b₂ ≠ 0(상관관계가 있다) 요 인 자유도 MS Fo 회귀선 잔차 332.12 36.28 367.40 166.06 5.17 32.04 제곱합 2 7 9 유의수준 α = 0.05에서 Fo0.05(2, 7) = 4.75 회귀식 y = a+b1+χ1+b2χ2는 y = -0.651+1.551χ1+0.760χ2으로 표시됨 Fo>4.75(Ho 기각) r² = 332.12 368.40 = 90.15% 더욱 설명력이 향상되었음
6.실험계획법(DOE) 실험계획법은 품질을 결정하는 인자를 찾고 최적화 시켜 나가는 방법 DOE 전개순서/Tool 반제품 수율 Screening - 품질에 영향을 미치는 인자를 검출 - 교락법(Resolution Ⅲ) 공정정의 (Process Characterization) - 공정의 개선방향을 제시 - 요인 배치법(Full Factorial) 최적화(Optimization) - 최적 조건을 선정 - 반응표면 분석 (Response Surface) 개시제 농도 (○) 반응 온도 (×) 반응 압력 (×) 교반력 (×) 원료 투입비 (○) 작업 방법 (×) 유의 인자 과거의 Data가 근본원인을 밝혀 주지 못할 때 공정에 대한 지식이 부족할 때 최적 작업조건 설정이 필요할 때 L H - - - L - - 개선 방향 수율 = f(개시제 - χ₁, 원료 투입비χ₂) 수율 최적점 최적점 χ₂ χ₁
DOE 사례 Scatter Daigram(산점도) Nylon 함량 Test Data(강도) Total AVE. · · · BS사 원사의 강도는 Nylon 함량에 따라 달라진다고 추정된다 Nylon 함량별로 5번씩 시험한 결과를 정리하면 × - × : 평균 강도 · :측정치 분포 Nylon 함량 15 20 25 30 35 Test Data(강도) 1회 2회 3회 4회 5회 7 12 14 19 17 18 10 22 11 9 23 Total 49 77 88 108 54 AVE. 9.8 15.4 17.6 21.6 10.8 376 반복(Repetition) · 인자 (Factor) · · 20 × · · · · · · · · · 수준 (Level) × Ave = 15.4 × · · · · · × · · · · · 10 × · · · Nylon 함량 15 20 25 30 35 처리(Treatment) : 인자가 2개 이상일 때 인자별 수준의 조합된 상태 ex) A₁수준(100℃)× B₂수준(5kg) 과연 Nylon 함량이 강도를 결정한다고 할 수 있을까?
(yi - y)² = (y1 - y)² + (yi - y1)² 분산 분석 인자의 유의 여부는 총변동을 수준의 변화로 인한 변동(SST)와 수준내 오차로 인한 변동(SSE)로 나누어 두 변동간의 차이를 F 분포를 이용하여 검정 반응 × - × : 평균 1수준 2수준 3수준 4수준 5수준 y(총평균) × yi - y · yi yi - y1 y1 분 산 분 석 Ho : (y1 - y) = (y2 - y) = · · · = (y5 - y) = 0 Ho : 적어도 한 수준의 효과는 있다 요 인 제곱합 제곱평균 Fo Nylon 함량 오차 475.76 (SST) 161.20 (SSE) 118 8.6 14.76 자유도 4 20 계 636.96 (TSS) 24 (yi - y)² = (y1 - y)² + (yi - y1)² F0.05(4, 20) = 2.87< 14.76 Nlyon 함량은 유의하다 총변동 모집단 평균에서 떨어진 크기 (TSS) 수준으로 인한 변동 (SST) 수준 내 피할 수 없는 오차 때문에 생기는 변동 (SSE) (y1-y)보다 (yi-y1)가 크면 수준의 변화가 오차에 묻혀버림
분산 분석 Data 구조 Test No. Test 순서 Nylon 함량 반복 강도(yi) yi - y y - y 1 2 3 4 5 6 7 8 9 10 11 20 15 25 12 17 18 14 - 8.4 - 0.4 - 4.4 - 6.4 - 3.4 1.6 2.6 2.3 - 1.6 - 5.6 - 2.8 5.2 1.2 - 0.8 y = 15.4 TSS = Σ(yi-y)² SST = Σ(y-y)² SSE 1수준 2수준 SST SSE = ST² SE² = Fo
인자가 2개 이상일 때도 똑같은 원리로 결과치의 차이가 인자의 수준차인지 단순한 오차 범위에 해당되는 것인지를 판단 인자가 2개인 경우 인자가 2개 이상일 때도 똑같은 원리로 결과치의 차이가 인자의 수준차인지 단순한 오차 범위에 해당되는 것인지를 판단 A 인자(온도, ℉) A1(15) 계 Ave. 83.2 108.3 125.1 - 105.5 Test Data표 전지의 전해질과 사용온도에 따른 수명 20, 70 82, 58 136, 122 106, 115 25, 70 58, 45 96, 104 82, 60 B₁ 770 998 1,300 1,501 3,799 148.6 107.6 64.2 150, 188 159, 126 138, 110 168, 160 174, 120 150, 139 1738 1291 B인자 (재질) 130, 155 74, 180 B₂ 34, 40 80, 75 인자의 영향 수명 1 2 3 온도 ▲ ■ · 재질3 재질1 재질2 온도변화와 재질변화가 모두 수명을 단축하는 방향 두 인자간 교호작용이 없다
Y(수명) = a + bχ1(재질) + cχ2(온도) + dχ1χ2로 표시 2인자 분산 분석 제곱합 (TSS) 요 인 자유도 제곱평균 Fo P값 F값 결론 재질 온도 교호 오차 10,683 39,119 9,614 18,231 2 4 27 5,342 19,558 2,403 675 7.91 28.97 3.56 - 0.0020 0.0001 0.0186 - F0.05, 2, 27 = 2.73 상동 F0.05, 4, 27 = 3.35 - 유의 - 계 77,647 35 이 실험을 다중회귀 분석으로 표현하면 Y(수명) = a + bχ1(재질) + cχ2(온도) + dχ1χ2로 표시 10,683(재질) + 39,119(온도) + 9,614(교호) 이 Model의 설명력은 r² = 77,647 = 76%
공정능력지수 / 장기,단기 Sigma 공정능력지수는 설계능력(규격) 대비 공정이 나타내고 있는 6 sigma 범위(공정능력)의 비율임. Cp = 설계능력(규격) / 공정능력 m0 -3sst +3sst 공정능력 Process Width Design Width 설계능력(규격) T LSL USL
프로세스능력은 공정능력, 영업능력, 구매능력, 개발능력 등등 Cp(Process Capability) 프로세스 능력 사람 제품 또는 서비스 프로세스 설비 고객 재료 방법 환경 INPUT PROCESS OUTPUT OUTPUT Process표준 프로세스 능력 = = INPUT Process산포 프로세스능력은 공정능력, 영업능력, 구매능력, 개발능력 등등
공정문제의 일반적 증상 Cp < 1.0 Cp-Cpk > 0.33 산포의 문제 불안정 문제 기형(freak) 경향(trend) 주기(cycle) 변화(shift) 중심치 이탈 Cp-Cpk > 0.33 정상 단계
가피 원인(special causes) 의 발견 공정문제는 공정에 영향을 주는 가피원인에 기인함. 가피 원인(special causes) 의 발견 관리 범위 내의 산포 관리 범위 밖의 산포
단기 Process Capability Ratios: Cp 설계 여유(Margin)가 클수록, 단위당 총 결함수(TDU; Total Defects Per Unit )는 작아진다. 설계 여유는 공정능력지수(Cp)에 의해 측정된다. Cp = (특성치의 최대 허용가능한 범위) (공정의 자연적인 변동 -- Short Term) Cp = │USL-LSL│ m0 ±3s st -3sst +3sst ZST = 3 Cp Process Width Design Width Note: Pp 는 한가지 예외를 제외하고는 Cp와 공식이 같다. 즉, Pp는 long-term의 표준편차를 적용하고 Cp는 short-term의 표준편차를 적용한다. T LSL USL
단기 Process Capability Ratios: Cpk Cpk = Cp (1 - k) Note: PpK 는 한가지 예외를 제외하고는 CpK와 공식이 같다. 즉, PpK는 long-term의 표준편차를 적용하고 CpK는 short-term의 표준편차를 적용한다. K는 공차범위에서 정적인(Static) 평균의 변화(Shift)가 차지하는 비율을 말한다. │T - m│ (USL-LSL)/2 k = Example: Cp = 2, k = .25 Cpk = 2( 1 - .25 ) = 1.5 m0 m1 6s st 4.5s st 0 ppm 3.4 ppm T LSL USL
장기 Process Capability Ratios: Pp Note: Pp 는 한가지 예외를 제외하고는 Cp와 공식이 같다. 즉, Pp는 long-term의 표준편차를 적용하고 Cp는 short-term의 표준편차를 적용한다. Pp = │USL-LSL│ ZLT = 3 Pp ±3s lt Pp = (특성치의 최대 허용가능한 범위) (공정의 정상적인 변동 -- Long Term) Short-term 분포 오직 순수한 에러, 즉 White Noise만을 보여준다. 평균은 인위적으로 목표값(target)에 일치한다.(계산식을 통해) m0 -3slt +3slt Long-term 분포 white noise와 black noise를 보여준다. 이 경우에 black noise는 표준편차를 크게하는 경향이 있는 공정의 non-random한 변동을 말한다. Pp의 경우에, 평균은 인위적으로 목표값(target)에 일치한다.(계산식을 통해) Process Width Design Width T LSL USL
장기 Process Capability Ratios: Ppk Ppk = Pp (1 - k) Note: Ppk 는 한가지 예외를 제외하고는 Cpk와 공식이 같다. 즉, Ppk는 long-term의 표준편차를 적용하고 Cpk는 short-term의 표준편차를 적용한다. K는 공차범위에서 정적인(Static) 평균의 변화(Shift)가 차지하는 비율을 말한다. │T - m│ (USL-LSL)/2 k = Long Term m0 m1 정적인 변화가 있는 Long Term Short Term T LSL USL
Pooled 표준편차와 Overall 표준편차 Pooled 표준편차 : 군내변동(Within Variation), 우연요인/ Noise만 작용한 변동. 시간에 지남에 따라 군간에 발생하는 차이는 고려하지 않는다. Example n= 4, g= 5 : 4개의 연속 샘플을 5회에 걸쳐 수집 n SSW : Within Sum of Square(군내변동) Group 1 2 3 4 SSW (g) 1 1 2 3 4 5.0 SSW= 2 2 3 4 5 5.0 3 3 4 5 6 5.0 4 4 5 6 7 5.0 5 5 6 7 8 5.0 Pooled 표준편차 = SSW / g(n-1) = 1.2909 Overall 표준편차 는 전체 20개의 데이터를 일반적인 샘플 표준편차(s)를 구하는 공식에 따라 구함. Overall 표준편차 = 1.8496 Minitab의 Stat>Quality Tools>Capability Analysis 에서 ‘Estimate’에서 지정할 수 있음. 단, Pooled Stdev는 n>1일 때만 구할 수 있음
Data 해석의 주요 Point Six Sigma에서는 단기/장기간 1.5σ Shift를 인정 Data의 의미 품 질 능 력 Su(10) Data의 의미 품 질 능 력 제 1기간 주요 공정 조건이 일정하다고 보고 공정이 나타내는 변동만 관찰 설비 노후, 종업원의 숙달 환경변화 등의 통제 불가능 요소(Special Cause)의 영향으로 χ, σ값이 변하게 됨 Data 누적에 따라 분포가 완만해짐 (산업마다 다름) 공정/품질의 장기적 변동이 반영됨 Z 분포에서 Spec-Out 부분의 확률로부터 직접 계산 σst₁ (0.5) Su-χ Ex) Zst = σst 단기 χ₁ 10-7 = = 3 Data Drift 0.5 Cpk 값에서 계산 제 2기간 Cpk = 1.0 Zst = Cpk×3=3.0 σst₂ (0.5) 단기 6 Sigma가 품질 목표 Zlt = Zst-1.5 : 1.5σ Shift는 최대 인정 폭 Χ₂(7) Z 분포표에서 직접 계산 10-8.5 Zlt = = 1.5 장기 1.0 σlt(1.0) Ppk 값에서 계산 Ppk = 0.5 Zlt = 3×Ppk=1.5 χ 8.5 장기 4.5 Sigma가 3.4ppm 수준
제품설계에서 1.5 Sigma Shift의 의미 Short-term Performance Long-term Performance