DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석
상관분석(Correlation) 정의 - 상관분석(Correlation Analysis) : 두 변수들(X와 Y, 또는 X와X)간에 관련된 정도를 상관계수(r)를 이용하여 “계수화”하는 기법 - 회귀분석(Regression Analysis) : 입력변수 X와 출력변수 Y와의 함수 관계를 도출하고 출력변수를 예측할 수 있는 통계적 분석 기법 - 회귀식(Regression Equation) : 입력값을 이용하여 대응되는 출력값을 예측할 수 있게 하는 예측 방정식
상관분석(Correlation) 상관분석 (Correlation Analysis)의 사용 목적 - 통계학에서 가장 흥미 있는 문제 중 하나인 변수들 사이의 관련성을 분석하는 방법으로 산점도와 상관계수를 통해 분석할 수 있다. 예) 지능지수와 학업성적, 흡연량과 폐암의 발생률, 키와 몸무게, 공정온도와 제품강도, 운동량과 폐활량과의 관계, 소득과 소비지출 제품강도 ( Y) 공정온도 X) - 산점도 (Scatter Diagram) 상관분석의 첫 단계로 서로 대응하는 자료를 좌표평면 위의 점으로 나타낸 그래프로 두 변수 사이의 관계를 대략적으로 파악할 수 있도록 함
상관분석(Correlation) - 상관계수 (Correlation Coefficient) 두 변수 사이의 선형관계를 정량적으로 나타내는 지표이며 함수관계를 나타내는 것은 아님. 일반적으로 로 표시하며 그 범위는 1 1이다. 일반적으로 의 정확한 값은 알 수 없으며, 따라서 샘플로부터 추정한 값 r 을 사용 - 상관계수 (Correlation Coefficient)의 성질 (+) 이면 양의 상관관계 () 이면 음의 상관관계 0 에 가까우면 상관관계 없음 -1 또는 1에 가까울수록 강한 상관관계를 가지고 있음 r 값
상관분석(Correlation) 상관 분석 사용 예 다음 예제를 통해 산점도와 상관분석에 대해 살펴보도록 하자. - 다음은 어느 회사의 광고 비용과 판매액과의 관계를 나타내는 자료이다. 이 회사의 광고비와 판매액의 상관계수를 구하여라. 광고비 (10만) 판매액 (100만) 광고비 (10만) 판매액 (100만) 4 9 12 23 8 20 6 18 9 22 10 25 8 15 6 10 7 17 9 20
상관분석(Correlation) Minitab 사용 절차 워크시트에 데이터 입력 Graph > Plot Step 1 ( Y 란에 C2, X란에 C1입력) (Correlation.mtw) Plot을 통해 산점도를 작성한 결과 양의 상관관계임을 짐작할 수 있다.
상관분석(Correlation) Stat > Basic Statistics > Correlation 세션 결과 확인 Step 3 Stat > Basic Statistics > Correlation Step 4 세션 결과 확인 두개의 변수열 선택 상관계수 p 값 상관계수는 0.853으로 양의 상관 관계를 가짐을 알 수 있고 p 값이 0.002로 유의수준 0.05보다 작으므로 광고비와 판매액의 상관관계는 유의 하다고 할 수 있다.
회귀분석(Regression) 회귀분석(Regression)사용 목적 - 변수들간의 함수적인 관련성을 규명하기 위하여 어떤 수학적 모형을 가정하고, 이 모형을 측정된 변수들의 데이터로부터 추정하는 통계적 분석 방법. 이러한 함수 모형으로부터 한 변수의 변화로부터 다른 변수의 변화를 예측할 수 있다. 예) 아버지의 키와 아들의 키의 관계 공정온도가 미치는 제품의 강도 - 입력변수와 출력변수(반응변수) 출력변수 : 예측하고자 하는 변수, 입력변수에 영향을 받는 변수 입력변수 : 출력 변수에 영향을 주는 변수 아버지의 키나 공정온도는 독립변수 아들의 키나 제품의 강도는 종속변수가 되겠죠!
회귀분석(Regression) 결정계수 (Coefficient of Determination ) - R-Sq값은 결정계수라 불리며 R2 로 표시 - 0 R2 1 의 범위에 있고 총변동 중에서 회귀선에 의하여 설명되는 변동이 차지하는 비율이다. - R2 의 값이 1에 가까울수록 회귀선이 높은 정도를 갖고, 의미 있다는 판단을 내림. -바람직한 값은 얼마인가? 경우에 따라 다르다. 화학자는 0.99 정도의 R2 값을 요구할 것이다. 그러나, 공정과 산업에 따라 다르다. 일반적으로 0.7이상의 값이면 출력변수와 입력변수의 관계가 크다고 할 수 있다.
회귀분석(Regression) R2 이 의미하는 것은 ? g n P R2 = 0.695 즉, 회귀 공식으로 산포의 69.5% 4 5 3 2 1 9 8 7 6 S u p l i e r C s t o m R - q = . Y + X g n P R2 = 0.695 즉, 회귀 공식으로 산포의 69.5% 가 설명될 수 있다는 것이다. 산포의 31.5%는 다른 원인으로 인한 것이다.
회귀분석(Regression) 회귀분석 사용 예 다음 예제를 통해 회귀분석과 결정계수에 대해 살펴보도록 하자. - 자동차의 사용년도와 정비 비용간에 어떤 관계가 있는가를 알아보기 위하여 동일한 자동차들의 정비기록에 관한 데이터를 다음과 같이 얻었다. 사용년도(년) 정비비용(천원) 3 1 5 8 1 4 2 6 9 3 5 7 2 6 39 24 115 105 50 86 67 90 140 112 70 186 43 126 1) 이 데이터에 대하여 x와 y간의 관계를 설명하는 단순회귀방정식을 구하여라. 2) 사용년도가 10년일 경우 정비비용은 얼마가 된다고 할 수 있을까?
회귀분석(Regression) 워크시트에 데이터 입력 Stat > Regression > Regression Step 1 워크시트에 데이터 입력 Step 2 Stat > Regression > Regression 출력변수열 선택 입력변수열 선택 (Regression.mtw)
회귀분석(Regression) Regression - Graphs : 최적 회귀모형에 대한 분석에 도움을 주기 위한 잔차 플롯의 형태를 선택 잔차 그래프에 나타나는 잔차의 형태 선택 Residual Plots Histogram of residuals : 잔차의 히스토그램 작성 Normal plot of residuals : 잔차의 정규성 검정을 위한 그래프 작성 Residuals versus fits : 잔차와 적합 된 값의 그림을 작성 Residuals versus order : 잔차 대 관측순서의 그림을 작성 Residuals versus the variables : 잔차 대 지정한 변수의 그림을 작성
회귀분석(Regression) Regression - Options : 가중치 열을 선택할 수 있고, 새로운 관측치에 대한 예측과 신뢰구간을 확인 원하는 x 값을 입력하면 구해진 회귀식을 통해 값과 신뢰구간을 구할 수 있다. 10을 넣으면 10년 뒤의 정비비용 (예측값)이 계산되어진다.
회귀분석(Regression) Storage : 워크시트의 입력변수와 출력변수 열의 다음 열부터 체크 되어지는 항목들을 선택 Results : 윈도우 섹션에서 나타나는 회귀모형에 대한 분석 결과의 범위를 조정
회귀분석(Regression) 세션 결과 확인 Step 3 정비비용과 사용년도에 관한 회귀식은 결정계수 R-Sq 값이 61%로 전체 변동 중 회귀직선에 의해 설명되는 변동이 61%라고 할 수 있다. p 값이 0.001로 유의수준 0.05보다 작으므로 위의 회귀식은 유의하다고 할 수 있다. 사용년도가 10년인 기계의 정비비용의 기대값은 165.48이며 이에 대한 95% 신뢰구간은 (123.66, 207.29)이다. R-Sq(adj)는 회귀식에 변수가 추가될 때마다 R-Sq 값이 늘어나는 것에 대한 조정값이다. 입력변수가 두 개 이상일 때 이 값은 의미가 있으므로 R-Sq(adj)를 분석하는 것이 일반적이다.
회귀분석(Regression) Fitted Line Plot : 그래프로 분석하고자 할 때 활용한다. Step 1 Stat > Regression > Fitted Line Plot 출력변수열 선택 입력변수열 선택 회귀모형의 타입결정 (1차, 2차, 3차)
회귀분석(Regression) Step 2 그래프 결과 확인
회귀분석(Regression) 잔차 분석 실제 값에서 회귀모형에 의해 적합 된 값을 뺀 것을 잔차라 하며 잔차 분석을 통해 우리는 모형의 적합성을 확인하여야 한다. 잔차 : 회귀모형 실제값 잔차가 작을수록 추정한 회귀식이 실제 관측결과를 잘 설명함을 뜻한다 잔차는 오차의 가장 좋은 추정치다 잔차들을 독립변수의 크기 순으로 나열하거나 자료의 입력 순으로 나열했을 때, 이들이 “0” 에 대하여 대칭적이며 특별한 경향을 나타내지 않음을 확인한다. 잔차
회귀분석(Regression) 잔차 분석 사용 예 - 자동차의 사용년도와 정비 비용간에 어떤 관계가 있는가를 알아보기 위하여 동일한 자동차의 정비기록에 관한 데이터를 다음과 같이 얻었다. 적합 값과 잔차를 얻은 후에 잔차분석을 수행하여 보자. 사용년도(년) 정비비용(천원) 3 1 5 8 1 4 2 6 9 3 5 7 2 6 39 24 115 105 50 86 67 90 140 112 70 186 43 126 Step 1 워크시트에 데이터 입력 (Residuals.mtw)
회귀분석(Regression) Storage Stat > Regression > Regression Step 2 종속변수열 선택 독립변수열 선택 Storage Residuals(잔차) 체크 Fits(적합값) 체크
회귀분석(Regression) 워크시트 결과 확인 Stat > Regression > Residual Plots Step 3 워크시트 결과 확인 Step 4 Stat > Regression > Residual Plots 적합값열 선택 잔차와 적합값이 저장 됨 잔차열 선택
회귀분석(Regression) Step 5 그래프 확인
회귀분석(Regression) 결과 분석 Normal Plot of Residuals를 통해 타점들이 대각선에 근사해 있기 때문에 잔차의 분포는 정규분포에 근사 한다고 할 수 있다. ( Stat > Basic Statistics > Normality Test 를 통해 보다 자세히 정규성 검정을 할 수 있음) I Chart of Residuals 에서 관리한계선을 벗어나고 있지 않고 어떠한 패턴을 갖고 있지 않기 때문에 잔차의 분포는 안정적이라고 할 수 있다. - Histogram of Residuals 는 잔차의 형태를 나타내어 주는 그래프이다. - Residuals vs. Fits 는 잔차 대 적합값의 그래프이며 “0”근처에 랜덤하게 타점 되어 있으므로 회귀모형이 적합하다고 할 수 있다.
회귀분석(Regression) 실습 90 분 - 다음 방법에 의해 종이헬기 실습을 하라. 1) 날개길이 6 ~ 14cm 2) 날개길이를 5mm씩 차이 나게 자른다. 3) 2.5m 높이에서 떨어뜨려 낙하시간을 측정한다. 회귀방정식을 구한 후, 낙하시간이 2초 및 2.5초가 되도록 하는 날개 길이를 구해 보아라. 90 분