생산 분석을 위한 확률 및 통계 현대로템 직무능력 향상 교육 - 1주차 정재우 경북대학교 경영학부 생산관리전공 2017년 3월
목 차 확률 및 통계 개요 자료의 표현 확률분포 가설검정 두 모평균에 관한 가설검정 분산분석 회귀분석 목 차 확률 및 통계 개요 자료의 표현 확률분포 가설검정 두 모평균에 관한 가설검정 분산분석 회귀분석 강의자료: http://webbuild.knu.ac.kr/~chung/hrotem/
1 확률 및 통계의 개요 통계는 역사적으로 세금을 걷거나 군인을 뽑기 위한 인구조사에 활용됨 국가의 살림을 체계적으로 꾸려나가기 위해 필요한 숫자를 체계적으로 산출해내기 위한 학문 統計=통치(統治)를 위한 계산(計算) State Arithmetic (국가 산수) = Statistics 통계학이란-주어진 문제에 대하여 객관적이고 합리적인 답을 줄 수 있도록 자료를 수집하고 이를 분석하여 정보를 얻고 이 정보로부터 신뢰성 있는 결과를 이끌어내기 위한 방법을 연구하는 과학 확률이란? 수학적 이론을 바탕으로 어떤 현상에 대한 믿음의 정도를 나타내는 것 통계는 확률을 바탕으로 조사된 자료를 분석하고 의미를 해석하는 것 통계학 용어 모집단(population): 조사의 대상이 되는 전체 집단 표본(sample): 모집단 전체 중에서 조사를 위해서 일부를 선택한 것 표본조사(sample survey, sampling test): 표본을 조사하는 것 삼성전자 LCD 총괄
1 확률 및 통계의 개요 생산관리에서 확률과 통계의 주요 응용 분야 생산관리 활동의 기초 지식을 제공 – 의사소통, 보고서 작성, 의사결정에 활용 자료의 표현 (통계량-평균, 표준편차, 중앙값 등, 히스토그램, 산점도, 파이차트, 도수다각형 차트, 확률 분포도 등) 예측 (수요의 예측, 고장 발생의 예측, 양품율의 예측, 대기시간 예측 등) 품질관리(샘플링 방법의 결정, 품질 불량분석, 관리도의 도입 등) 공정개선(공정 자료의 분석, 해석, 시뮬레이션 등) WIP (매) Target Photo Move (매/일) ※ LOC 산출 수식 사례) 공정 A와 B의 공정 수요 대비 공정 능력의 비교 재공의 수준에 따른 생산량 예측 실적 자료로부터 예측 곡선을 추정함 추후 입력 수준의 변화에 따른 결과값을 예측할 수 있음 생산관리에 존재하는 불확실성을 이해하고 대책을 마련하는데 활용 삼성전자 LCD 총괄
2 자료의 표현과 분석 히스토그램(도수표)의 작성: 엑셀의 Frequency 함수 이용 히스토그램으로부터 상대빈도와 누적 빈도의 작성 사례: 1월의 온도와 습도에 따른 고장건수 (실측치) 1온도와 습도가 각각 독립적임으로 각각에 대한 히스토그램을 작성하고자 함 Frequency 함수의 사용 계급구간의 작성 Block 잡기 Frequency 함수의 자료 지정하기 Ctr+Shift+Enter 기온 습도 고장건수 -1.68 76 5 -0.05 59 2 -3.35 65 3 -3.77 74 4 -5.03 69 6 -3.24 73 -0.82 71 0.39 72 -2.71 55 -2.98 56 -1.21 61 1 -0.14 52 -4.90 54 1.15 64 -0.52 66 -2.19 67 … 전체 자료가 입력된 열 계급구간이 입력된 열 삼성전자 LCD 총괄
2 자료의 표현과 분석 히스토그램(도수표)의 작성: 엑셀의 Frequency 함수 이용 히스토그램으로부터 상대빈도와 누적 빈도의 작성 Frequency 함수의 사용 계급구간의 작성 Block 잡기 Frequency 함수의 자료 지정하기 Ctr+Shift+Enter 삼성전자 LCD 총괄
2 자료의 표현과 분석 히스토그램(도수표)의 작성: 엑셀의 Frequency 함수 이용 히스토그램으로부터 상대빈도와 누적 빈도의 작성 온도 빈도 상대빈도 -5.0 1 0.03 -4.5 -4.0 -3.5 -3.0 3 0.09 -2.5 5 0.15 -2.0 -1.5 2 0.06 -1.0 -0.5 0.0 0.5 1.0 0.00 1.5 합계 33 1.00 습도 빈도 상대빈도 49 1 0.03 51 0.00 53 55 3 0.09 57 59 2 0.06 61 4 0.12 63 65 5 0.15 67 69 71 73 75 합계 33 1.00 삼성전자 LCD 총괄
2 자료의 표현과 분석 히스토그램(도수표)의 작성: 엑셀의 Frequency 함수 이용 히스토그램으로부터 상대빈도와 누적 빈도의 작성 삼성전자 LCD 총괄
2 자료의 표현과 분석 난수의 생성과 자료의 복제(엑셀의 난수생성 기능) 데이터>데이터분석>난수생성 변수의 개수: 1 난수의 개수: 20,000 (충분히) 분포: 이산분포 모수: 상대빈도와 계급구간을 같이 선택 출력범위: 임의로 지정 삼성전자 LCD 총괄
2 자료의 표현과 분석 히스토그램(도수표)의 작성: 엑셀의 Frequency 함수 이용 히스토그램으로부터 상대빈도와 누적 빈도의 작성 삼성전자 LCD 총괄
2 자료의 표현과 분석 모집단과 표본 모집단 (모수) 표본 (통계량) 통계분석 구분 특성치 모집단 표본 중심경향 평균( ), 중앙값, 최빈값, 백분위수 등 모수 통계량 산포 (흩어짐의 정도) 표준편차( ), 평균편차, 범위, 변동계수 변동계수( )= 표준편차/평균, 상대적 산포를 나타냄 모집단 (모수) 표본 (통계량) 이해, 조정 통계분석 삼성전자 LCD 총괄
2 자료의 표현과 분석 자료의 분석(엑셀) 엑셀의 데이터분석 기능 활용 메뉴에서 파일>옵션>추가기능 선택 삼성전자 LCD 총괄
2 자료의 표현과 분석 자료의 분석(엑셀) 엑셀의 데이터분석 기능 활용 첨도=0, 정규분포 첨도<0 완만 첨도>0 뾰족 삼성전자 LCD 총괄
3 확률과 확률분포 확률분포란? 확률변수(random variable, ): 확률적으로 값을 갖는 변수 (예: 7일 중 비가 올 날짜의 수, 어떤 설비가 고장 날 때까지 걸리는 시간, 불량율, 불량품의 숫자) 확률분포(probability distribution): 어떤 확률변수가 갖는 분포 확률분포의 표현: 서술, 표, 함수, 그래프 등등 확률변수 1 2 3 4 5 6 7 합계 확률 0.6020 0.2010 0.0998 0.0600 0.0246 0.0090 0.0032 0.0004 1.0000 삼성전자 LCD 총괄
3 확률과 확률분포 확률분포란? 확률분포를 알면 어떤 것이 좋은가? (확률분포의 활용) 해당 확률변수를 더 잘 이해함 (분포를 잘 알기 때문) 특성치를 쉽게 구할 수 있음 (평균, 표준편차, 중앙값, , 등) 확률분포의 종류(대표적인 것) 구분 (변수) 분포의 이름 확률변수의 의미 파라미터(주어진 값) 평균 표준 편차 이산확률분포 일반분포 정의되지 않음(히스토그램) 변수와 확률값 이항분포 N번 시도해서 X 번 성공할 확률 시행 횟수, 성공확률 포아송분포 구간 안에 사건이 X번 발생할 확률 : 의 평균(사전조사로부터) 균등분포 구간 a b 사이에 X가 발생할 확률 a: 최소값, b: 최대값 연속확률분포 지수분포 사건이 일어날 때까지 거리는 시간(X) : X 의 평균(사전조사로부터) (포아송 분포로부터 주어짐) 정규분포 매우 다양함 삼성전자 LCD 총괄
3 확률과 확률분포 정규분포 Gauss에 의해서 만들어져서 가우스 분포(Gaussian Dist’n)로도 불림 정규분포의 확률변수( ): 는 평균이 이고 분산이 인 자료에서 가 어떤 구간에 있을 확률 예) 어떤 고등학교 학생들의 키의 평균이 170cm, 분산이 64cm 일 때 이 고등학교에 재학 중인 학생을 임으로 뽑았을 대 키가 180cm 이상일 확률은? 정규분포의 확률밀도함수 정규분포의 평균과 분산 표준정규분포 (standard normal distribution): 평균이 0이고 분산이 1인 정규분포 삼성전자 LCD 총괄
3 확률과 확률분포 표준 정규분포 표준정규분포 (standard normal distribution)의 확률밀도함수 그래프 삼성전자 LCD 총괄
확률과 확률분포 표준정규분포 (standard normal distribution)의 확률 계산 삼성전자 LCD 총괄
3 확률과 확률분포 정규분포의 활용 사례(엑셀) 확률값의 계산 NORM.DIST(x, 평균, 표준편차, 누적여부) 알려줌 NORM.DIST(1, 1.79, 1.586, True) = 0.96 NORM.INV(확률, 평균, 표준편차) => 누적 확률이 주어지면 해당 x 값을 알려줌 NORM.INV(0.05, 1.79, 1.586) = -4.4 NORM.S.DIST(z, 누적여부) => z 값을 주면 확률을 계산 NORM.S.INV(확률) => 확률을 주면 z 값을 계산 삼성전자 LCD 총괄
3 확률과 확률분포 정규분포를 활용한 점수의 표준화 어떤 대안을 선택하는 과제에서 평가 기준이 2개 이상의 단위로 주어져 있을 때 예)레이아웃 설계(이동거리-미터, 투자비용-원, 공간효율-%, 유연성-10점 척도) 어떤 대안이 가장 우수한 대안인가? 각 평가기준별 가중치를 결정해야 함 각 평가기준별 표준점수를 계산해야 함 대안 이동거리 (m) 투자비용(천원) 공간효율(%) 유연성(4점척도) 1 2,300 49,000 89 3 2 5,300 46,700 85 0.3 6,300 48,000 86 0.5 4 5,600 47,500 87 5 4,500 48,600 90 삼성전자 LCD 총괄
3 확률과 확률분포 정규분포를 활용한 점수의 표준화 어떤 대안을 선택하는 과제에서 평가 기준이 2개 이상의 단위로 주어져 있을 때 예)레이아웃 설계(이동거리-미터, 투자비용-원, 공간효율-%, 유연성-10점 척도) 대안 이동거리 투자비용 공간효율 유연성 측정값 백분율 1 - 2,300 94.8% - 49,000 12.6% 89 78.0% 3 92.7% 2 - 5,300 37.3% - 46,700 91.8% 85 12.4% 0.3 17.4% - 6,300 16.5% - 48,000 48.2% 86 25.0% 0.5 22.3% 4 - 5,600 30.2% - 47,500 69.4% 87 42.4% 71.5% 5 - 4,500 57.7% - 48,600 24.0% 90 89.5% 37.5% 평균 - 4,800 - 47,960 87.4 1.36 표준편차 1,539 907 2.1 1.128 NORM.DIST(-4,500, -4,800, 1,539,TRUE) 삼성전자 LCD 총괄
3 확률과 확률분포 정규분포를 활용한 점수의 표준화 어떤 대안을 선택하는 과제에서 평가 기준이 2개 이상의 단위로 주어져 있을 때 예)레이아웃 설계(이동거리-미터, 투자비용-원, 공간효율-%, 유연성-10점 척도) 대안 백분율 가중평균 이동거리 투자비용 공간효율 유연성 1 94.8% 12.6% 78.0% 92.7% 39.49 2 37.3% 91.8% 12.4% 17.4% 69.52 3 16.5% 48.2% 25.0% 22.3% 38.33 4 30.2% 69.4% 42.4% 71.5% 59.38 5 57.7% 24.0% 89.5% 37.5% 37.20 가중치 0.1993 0.6535 0.0860 0.0612 삼성전자 LCD 총괄
3 확률과 확률분포 t 분포 연속확률분포, 정규분포와 유사하나 자료의 수가 30이하로 작을 때 사용함 N-1 삼성전자 LCD 총괄
3 확률과 확률분포 F 분포 연속확률분포, 두 집단의 분산의 비가 따르는 분포 두 모집단의 분산을 비교하기 위하여 분산의 비( ) 를 구함 정규분포를 따르는 두 집단 으로부터 추출한 서로 독립인 두 표본의 분산의 비( ) => 모집단의 분산을 비교하는데 활용 F-분포는 두 카이제곱 확률변수의 비가 따르는 분포 F-분포의 성질 삼성전자 LCD 총괄
4. 가설검정 주어진 명제에 대하여 추출된 표본을 통해서 증명하는 과정 예제1) 기존 제품의 평균 중량은 500g 이었음. 신제품 개발 후 기존제품 대비 무게가 줄었는지 알아보기 위하여 10개의 샘플을 측정(450, 510, 480, 490, 505, 511, 460, 495, 487, 502) 가설검정에는 항상 두 가지 가설이 사용됨 귀무가설 (null hypothesis): 기존에 알려진 가설 대립가설(alternative hypothesis): 새롭게 증명하고자 하는 가설 가설검정의 기본적인 전제는 귀무가설은 참일 가능성이 매우 높음 대립가설을 참으로 인정하기 위해서는 충분한 증거가 필요함 재판에서 무죄 추정의 원칙과 동일 예제1) 유의성검증(test of significance): 귀무가설에 대한 반증의 강도를 제공하는 과정 귀무가설을 어느 정도의 확률로 기각할 수 있는지를 결정하는 과정 삼성전자 LCD 총괄
4. 가설검정 가설수립 귀무가설은 항상 의 형태임. 부등호 형태는 불가 여기서 는 검정대상이 되는 모수, 는 상수값을 의미 귀무가설은 항상 의 형태임. 부등호 형태는 불가 여기서 는 검정대상이 되는 모수, 는 상수값을 의미 단측가설과 양측가설 단측가설: 대립가설이 일 경우 양측가설: 대립가설이 일 경우 가설검정은 주어진 가설의 유의성 검증을 하기 위하여 샘플을 취한 후 적절한 통계량을 활용하여 가설의 유의성을 조사하고 이를 바탕으로 가설에 대한 판단을 내리는 과정 검정 통계량(test statistic): 유의성 검증을 위해서 사용되는 통계량 모평균에 대한 유의성 검증: 모비율에 대한 유의성 검증: 분산에 대한 유의성 검증: 삼성전자 LCD 총괄
4. 가설검정 유의 확률(significance probability) 또는 p 값 귀무가설에 대한 반증의 강도를 나태내는 확률 귀무가설이 사실일 가능성을 나타내는 확률 예) 제품 경량화 검정 10개의 샘플을 통해서 얻는 평균 새로운 공정에 대해 알려진 표준편차는 유의 확률 또는 p 값은 으로 계산됨 귀무가설이 참이라는 가정하에 표본평균이 관측값인 489.9보다 작게 나올 확률 반대로 생각하면 귀무가설이 참일 가능성이 0.0235 만큼 낮음 유의 확률이 낮으면 낮을 수록 대립가설에 대한 지지가 강함 삼성전자 LCD 총괄
4. 가설검정 유의 확률 또는 p 값 계산 (엑셀) 제품무게 480 505 487 490 506 460 495 469 502 평균 489.9 표준 편차 16.0724 관측수 10 z= -1.9872 p 0.0235 삼성전자 LCD 총괄
4 가설검정 예제2) 신종바이러스가 환자의 체온을 증가시키는가를 검정하고자 함 신종바이러스에 걸린 환자 10명을 샘플링. 귀무가설: 대립가설: 유의 확률은? p 값은? 위 예제에서 주요하게 사용된 통계량 Z 임 => ‘Z-검정’이라고 함 유의수준(level of significance): 로 표현됨. 귀무가설을 기각할 수 있는 미리 정해진 확률수준, 일반적으로 유의확률(p)값이 유의수준( )보다 작으면 에 대한 반증의 정도가 강함=> 기각 예제5-3의 귀무가설은 유의수준 0.1에서 기각 가능한가? 삼성전자 LCD 총괄
4. 가설검정 유의성 검정 절차 p-값(0.104)가 유의수준(0.05)보다 큼으로 H0 기각 불가 삼성전자 LCD 총괄
4. 가설검정 기각의 의미 새로운 사실인 을 채택할 수 있는 충분한 근거가 있음을 뜻함 새로운 사실인 을 채택할 수 있는 충분한 근거가 있음을 뜻함 를 기각시키지 못할 때 라고 결론을 내리는 것은 아님 를 기각시킬 확실한 근거가 없다는 뜻 새로운 사실인 을 사실로 인정할 수 있는 충분한 증거가 없다는 뜻 가설검정의 오류 제 1종 오류의 확률은 유의수준과 동일 삼성전자 LCD 총괄
4. 가설검정 가설검정 유의확률(p-값)에 의한 검정: 앞에서 학습한 방법 기각역에 의한 검정: 샘플로부터 구한 통계량과 유의순준 만으로 검정을 실시함 기각역에 의한 검정 기각역: 귀무가설에 대한 반증으로 통계적 유의성이 있는 검정 통계량의 영역 샘플로부터 얻은 통계량(Z값)에 대하여 귀무가설을 기각할 수 있는 영역(Z-값 영역) 기각역은 유의수준 에 의해서 결정됨 모평균에 대한 기각역은 값으로 주어짐 삼성전자 LCD 총괄
4. 가설검정 모평균( )에 대한 Z-검정에서 유의확률의 계산 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 실제 샘플자료에 대한 추론의 문제는 두 집단을 비교하는 문제가 더 보편적 2표본(two-sample problem)문제: 두 집단을 비교 (통제그룹과 처리그룹) 통제그룹(대조그룹): 실험에서 아무런 처리를 하지 않은 그룹 처리그룹: 실험에서 어떤 처리를 시행한 그룹 2표본 가설검정의 종류 독립표본비교(independent-sample comparison) 등분산(두 집단의 분산이 같을 경우) 이분산(두 집단의 분산이 다를 경우) 쌍체표본 비교(paired sample comparison) 독립표본비교(independent-sample comparison) 의 자료구조 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 두 집단의 모평균에 대한 추론 두 집단으로부터 추출한 샘플의 평균에 대한 차이를 통해 추론함 두 샘플의 평균이 따르는 분포 를 표준화 시킨 분포 가 알려지지 않은 경우가 대부분임 샘플의 크기가 충분히 큰 경우 대신 사용 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 예제 3 가설검정 가설은? 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 예제 3 가설: 등분산 t 검정 새공법 기존공법 7.6 7.5 7.8 7.4 8.1 6.9 8.5 7.3 6.8 7.2 7 8 7.1 7.9 6.7 7.7 새공법 기존공법 평균 7.77 7.15 분산 0.142 0.083 관측수 10 공동(Pooled) 분산 0.1126 가설 평균차 자유도 18 t 통계량 4.13 P(T<=t) 단측 검정 0.0003 t 기각치 단측 검정 1.7341 P(T<=t) 양측 검정 0.0006 t 기각치 양측 검정 2.1009 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 대응비교(paired comparison)-쌍체비교 대응비교란 각 쌍의 차이값에 대한 추론을 의미함 이 추론을 위하여 와 를 활용함 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 대응비교-쌍체 검증 삼성전자 LCD 총괄
5. 두 모평균에 관한 가설검정 대응비교-쌍체 검증(예 4) 어떤 연마작업의 시간은 기계와 컷팅 공구 모두에 의해 영향을 받음. B사의 새로운 공구가 A사의 기존 공구에 비해 더 비싸지만 성능이 뛰어나다고 주장함. 실험을 통해서 다음의 자료를 확보 쌍체검정 가설 A사 공구 B사 공구 평균 62.4 59.3 분산 156.71 217.34 관측수 10 피어슨 상관 계수 0.95 가설 평균차 자유도 9 t 통계량 2.04 P(T<=t) 단측 검정 0.04 t 기각치 단측 검정 1.83 P(T<=t) 양측 검정 0.07 t 기각치 양측 검정 2.26 기계 A사 공구 B사 공구 1 56 50 2 68 60 3 65 4 70 5 75 69 6 62 7 40 35 8 80 85 9 45 10 63 삼성전자 LCD 총괄
6.분산분석 (Analysis of Variance – ANOVA) 앞에서 한모집단과 두모집단의 평균을 비교하는 검정 방법에 대해서 공부하였음 분산분석 또한 모집단의 평균을 비교하는데 활용하고 비교집단이 세 집단 이상일 때 분석방법임 분산분석의 귀무가설 외생변수 종속변수에 영향을 미치는 독립변수를 제외한 모든 변수 외생변수의 특징-수가 매우 많고 외생변수 간 관계가 복잡하여 각각의 외생변수에 대하여 영향력의 크기를 측정하는 것은 불가능함=>통제가 불가능 예) 불량율의 증가 독립변수: 온도 외생변수: 대기시간, 먼지, 건조시간, 작업자 등 분산분석: (1) 종속변수에 영향을 미치는 독립변수와 외생변수의 영향력을 파악 (2) 실험계획법-많은 실험이 필요할 때 효과적이고 경제적인 실험이 필요 삼성전자 LCD 총괄
6.분산분석 (Analysis of Variance – ANOVA) 분산분석의 사례: 현대로템은 연마 공정의 공정시간을 개선하고자 온도의 조건에 따라 공정시간이 줄어드는지를 관찰하기 위하여 3가지 조건에서 실험을 진행하였다. 공정시간은 온도 뿐만 아니라 다른 외생면수의 영향도 있기 때문에 온도가 공정시간에 어떤 영향을 미치는지 알고자 한다. (단위: 초) 높은온도 중간온도 낮은온도 55 58 60 53 62 52 51 54 48 50 56 63 57 분산분석의 가설 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 만약 외생변수의 영향력이 존재하지 않는다면 아래 표와 같은 결과를 예측할 수 있음 나올 것임 외생변수의 영향력이 없다면 온도가 공정시간에 영향을 미치는 정도를 즉시 파악할 수 있음 높은온도 중간온도 낮은온도 52 54 56 높은온도 중간온도 낮은온도 54 삼성전자 LCD 총괄
6.분산분석 (Analysis of Variance – ANOVA) 분산분석의 사례 2: KNU 섬유에서는 합성섬유의 인장 강도에 면(cotton)의 함량이 어떤 영향을 미치는지 알기 위하여 아래와 같은 실험을 실시하였다. (단위: kg/cm2) 면함유량 시행 15 20 25 30 35 1 7 12 14 19 2 17 18 10 3 22 11 4 5 9 23 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 사례1- 연마 공정시간 종속변수 - 공정시간 독립변수 - 온도 외생변수 – RPM, 공구, 기계, 작업자, 습도 등 사례2- 합성섬유 인장강도 종속변수-인장강도 독립변수-면함유량 외생변수-다른 합성 물질의 양, 굵기, 순도 등 분산분석의 접근방법 종속변수에 영향을 주는 독립변수의 영향력 측정 종속변수에 영향을 주는 외생변수의 영향력 측정 독립변수의 영향력과 외생변수의 영향력을 비교하여 독립변수의 영향력이 일정수준 이상이면 독립변수의 영향력을 인정 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 독립변수의 영향력을 어떻게 측정할 것인가? 집단간의 분산을 측정 외생변수의 영향력을 어떻게 측정할 것인가? 집단내의 분산을 측정 결론 독립변수의 영향력(집단간의 분산) 외생변수의 영향력(집단내의 분산) 집단내의 분산대비 집단간의 분산이 크면 독립변수의 영향력이 큼 독립변수가 1개인 분산분석 => 일원분산분석(One-Way ANOVA), 일원배치법 독립변수가 2개인 분산분석=> 이원분산분석(Two-Way ANOVA), 이원배치법 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 분산분석의 자료구조 처리(수준) 반복 (자료의 수) 1 2 3 … K n 평균 총평균 삼성전자 LCD 총괄
집단 내 6. 분산분석 (Analysis of Variance – ANOVA) 분산분석의 자료구조: 집단 내 처리(수준) 반복 (자료의 수) 1 2 3 … K n 평균 총평균 집단 내 삼성전자 LCD 총괄
집단 간 6. 분산분석 (Analysis of Variance – ANOVA) 분산분석의 자료구조: 집단 간 처리(수준) 반복 (자료의 수) 1 2 3 … K n 평균 총평균 집단 간 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 일원배치법의 모형(반복수가 같은 경우) 분산분석의 개별자료 ( ) 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 삼성전자 LCD 총괄
6. 분산분석 (Analysis of Variance – ANOVA) 일원분산분석의 분산분석표 삼성전자 LCD 총괄
6.분산분석 (Analysis of Variance – ANOVA) 분산분석의 사례: 현대로템은 연마 공정의 공정시간을 개선하고자 온도의 조건에 따라 공정시간이 줄어드는지를 관찰하기 위하여 3가지 조건에서 실험을 진행하였다. 공정시간은 온도 뿐만 아니라 다른 외생면수의 영향도 있기 때문에 온도가 공정시간에 어떤 영향을 미치는지 알고자 한다. (단위: 초) 높은온도 중간온도 낮은온도 55 58 60 53 62 52 51 54 48 50 56 63 57 요약표 인자의 수준 관측수 합 평균 분산 기계1 11 580 52.7 6.0 기계2 598 54.4 14.3 기계3 617 56.1 23.3 분산 분석 변동의 요인 제곱합 자유도 제곱 평균 F 비 P-값 F 기각치 처리 62.2 2 31.12 2.14 0.13 3.32 잔차 435.6 30 14.52 계 497.9 32 삼성전자 LCD 총괄
6.분산분석 (Analysis of Variance – ANOVA) 분산분석의 사례: 현대로템은 연마 공정의 공정시간을 개선하고자 온도의 조건에 따라 공정시간이 줄어드는지를 관찰하기 위하여 3가지 조건에서 실험을 진행하였다. 공정시간은 온도 뿐만 아니라 다른 외생면수의 영향도 있기 때문에 온도가 공정시간에 어떤 영향을 미치는지 알고자 한다. (단위: 초) 분산 분석 변동의 요인 제곱합 자유도 제곱 평균 F 비 P-값 F 기각치 처리 62.2 2 31.12 2.14 0.13 3.32 잔차 435.6 30 14.52 계 497.9 32 높은온도 중간온도 낮은온도 55 58 60 53 62 52 51 54 48 50 56 63 57 P-값이 유의수준 0.05보다 큼으로 귀무가설 기각이 불가능함 온도가 연마시간에 영향을 미친다는 증거가 부족함 삼성전자 LCD 총괄
7. 회귀분석 두 개 이상의 변수가 서로 상관이 있는지 판단하거나 상관이 있다고 판단되는 경우 여러변수값으로부터 하나의 변수값을 예측해야 하는 경우에 사용 사례: 1월의 평균온도 -> 난방비 지출, 전년 7, 8, 9월의 평균기온 -> 에어컨 판매량 변수 독립변수(independent variable), 설명변수(explanatory variable), 예측변수(predictor variable): 다른 변수에 영향을 받지 않고 독립적으로 값이 변화하는 변수, 종속변수에 영향을 주는 변수 종속변수(dependent variable), 반응변수(response variable): 독립변수의 변화에 의하여 영향을 받는 변수 상관분석(correlation analysis): 표본상관계수를 통해서 모집단의 상관계수를 추론 회귀분석(regression analysis): 모집단에서의 두 개 이상의 변수에 대한 함수관계를 분석 단순선형회귀분석(simple linear regression model) – 단순회귀분석, 두 개의 변수 사이의 관계를 함수적 관계로 표현 중회귀분석(multiple regression), 다중회귀분석-종속변수에 영향을 주는 독립변수가 2개 이상일 떄 삼성전자 LCD 총괄
7. 회귀분석(상관분석) 모집단의 상관계수인 모상관계수를 추정하기 위하여 표본상관계수를 사용함 모상관계수 표본상관계수 모집단의 상관계수인 모상관계수를 추정하기 위하여 표본상관계수를 사용함 모상관계수 표본상관계수 상관계수의 범위: 결정계수( ) : 상관계수의 제곱, 종속변수 Y의 변동이 독립변수 X에 의해서 설명될 수 있는 비율 결정계수는 0과 1.사이의 값 변수들 간의 방향에 대한 표현이 포함되어 있지 않음 삼성전자 LCD 총괄
7. 회귀분석(상관분석) 상관관계의 유의성 상관계수는 샘플의 수가 2~3개 정도로 매우 작더라도 계산이 됨 상관계수는 계산이 되지만 상관계수가 어느 정도 신뢰성을 가지고 있는지를 검정할 필요가 있음 상관계수의 유의성 검정은 상관계수의 신뢰성을 검정하는 절차임 상관계수의 유의성 검정( 가 0 인 경우) 귀무가설 대립가설 검정 통계량 가 0이 아닌 경우 r의 분포가 t-분포를 따르지 않음으로 복잡하지만 원리는 유사한 형태로 검정이 진행됨 삼성전자 LCD 총괄
7. 회귀분석(상관분석) 상관관계의 유의성 Excel을 활용한 분산형 챠트의 작성 및 상관계수의 계산 삼성전자 LCD 총괄
7.회귀분석(상관분석) 기온 습도 고장건수 -1.68 76 5 -0.05 59 2 -3.35 65 3 -3.77 74 4 -5.03 69 6 -3.24 73 -0.82 71 0.39 72 -2.71 55 -2.98 56 -1.21 61 1 -0.14 52 -4.90 54 1.15 64 -0.52 66 -2.19 67 … 기온 습도 고장건수 1 -0.26654 -0.63084 0.693971 구분 T-값 P-값 기온과 습도 사이 -1.46333 0.0769 기온과 고장건수 -4.30218 0.0001 습도와 고장건수 5.100192 0.0000 삼성전자 LCD 총괄
7. 회귀분석 종속변수와 독립변수간의 관계를 함수로 나타내고 독립변수의 값을 바탕으로 종속변수이 값을 추정함 종속변수와 독립변수간의 관계를 함수로 나타내고 독립변수의 값을 바탕으로 종속변수이 값을 추정함 종속변수와 독립변수와의 관계 => 회귀방정식(회귀식) 종속변수와 독립변수의 관계를 선형 방정식으로 나타낸 것=>단순회귀모형 또는 선형회귀모형 회귀분석은 X 값에 따른 Y값의 예측에 사용되고, 상관분석과 같이 두변수간의 관계를 분석하는데 활용됨 삼성전자 LCD 총괄
7. 회귀분석 단순회귀모형 단순회귀모형의 가정 선형성: 등분산성: 독립성: 오차항 은 서로 독립임 독립성: 오차항 은 서로 독립임 모회귀직선(population regression line): 모회귀계수(population regression coefficient): 최소제곱법 (method of least squares): 자료로부터 를 추정하는 방법 삼성전자 LCD 총괄
7. 회귀분석 잔차(residual) 회귀식을 통해 추정값과 실제값과의 차이 잔차가 작을수록 회귀식의 설명력이 커짐 잔차의 분석을 통해서 회귀식의 정확도를 표현 SSE(sum of square of errors): 잔차의 제곱합(residual sum of squares) 잔차평균제곱(MSE-residual mean squared) 삼성전자 LCD 총괄
7. 회귀분석 회귀식의 설명력 총편차(total deviation): 종속변수의 관측값 과 그 평균 의 차 삼성전자 LCD 총괄
7. 회귀분석 총제곱합의 분해 총제곱합(SST-total sum of squares) =잔차제곱합(SSE)+회귀제곱합(SSR-regression sum of squares) 결정계수 ( ): 총제곱합 중에서 회귀에 의해 설명되는 부분 SSR의 비중, 종속변수가 독립변수에 의해서 설명되는 부분 결정계수는 표본상관계수의 제곱( ) 삼성전자 LCD 총괄
7. 회귀분석 회귀직선(회귀모형)의 유의성 검정 가설: 검정 원리 가 0에서 멀어질 수록 검정 원리 가 0에서 멀어질 수록 SST 에서 SSR 이 차지하는 비중이 커짐으로 SSE가 차지하는 비중이 낮아짐으로 회귀직선이 유의하다는 증거가 강함 귀무가설을 기각-> 회귀모형이 유의함 유의확률이 작을 수록 회귀모형에 대한 유의성은 커짐 삼성전자 LCD 총괄
7. 회귀분석 회귀직선(회귀모형)의 유의성 검정 가설: 검정 통계량 기각역(유의수준 ) 유의확률 삼성전자 LCD 총괄
7. 회귀분석 회귀직선(회귀모형)의 유의성 검정 회귀모형의 유의성 검정 요약(분산분석표) 삼성전자 LCD 총괄