DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석.

Slides:



Advertisements
Similar presentations
Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.
Advertisements

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
품질개선활동 본 강의 자료는 2003학년도 교육인적자원부·한국교육학술정보원의 지원에 의하여 개발된 것임.
재료수치해석 HW # 박재혁.
제14장 요인분석.
제 7 장 함수 사용을 통해 엑셀 정복하기.
• 수학 • 6학년 나단계 • 7. 연비>1/9 홈 두 수의 대응 관계를 , 를 사용한 식으로 나타내기 수업활동 수업계획.
구간추정 (Interval Estimation)
3일차 - 가설검정.
(Numerical Analysis of Nonlinear Equation)
공차 및 끼워맞춤.
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
컴퓨터 프로그래밍 기초 [Final] 기말고사
10장 랜덤 디지털 신호처리 1.
제12주 회귀분석 Regression Analysis
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
제 11 장 서비스 수요 예측.
상관함수 correlation function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
Keller: Stats for Mgmt & Econ, 7th Ed
Linear Mixed Model을 이용한 분석 결과
(independent variable)
회귀분석(Regression).
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
단순회귀분석 (Simple Linear Regression Analysis)
Decision Tree & Ensemble methods
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
⊙ 이차방정식의 활용 이차방정식의 활용 문제 풀이 순서 (1)문제 해결을 위해 구하고자 하는 것을 미지수 로 정한다.
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
균형이진탐색트리 이진 탐색(binary search)과 이진 탐색 트리(binary search tree)와의 차이점
미분방정식.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 2. 연립부등식의 영역 (3/5) 부등식 영역 수업계획 수업활동.
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 1. 부등식의 영역(2/5) 부등식 영역 수업계획 수업활동.
에어 PHP 입문.
홍수추적 담당교수명 : 서 영 민 연 락 처 :
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
비열.
Support Vector Machine
1. 접선의 방정식 2010년 설악산.
학습 주제 p 끓는점은 물질마다 다를까.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 3. 부등식의 영역에서 최대, 최소(5/5) 부등식 영역 수업계획 수업활동.
전류의 세기와 거리에 따른 도선 주변 자기장 세기 변화에 대한 실험적 고찰
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
X-13-ARIMA 프로그램 사용법.
문제의 답안 잘 생각해 보시기 바랍니다..
피보나치수열에 대하여 한림초 5학년 신동오.
Presentation transcript:

DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석

상관분석(Correlation)  정의 - 상관분석(Correlation Analysis) : 두 변수들(X와 Y, 또는 X와X)간에 관련된 정도를 상관계수(r)를 이용하여 “계수화”하는 기법 - 회귀분석(Regression Analysis) : 입력변수 X와 출력변수 Y와의 함수 관계를 도출하고 출력변수를 예측할 수 있는 통계적 분석 기법 - 회귀식(Regression Equation) : 입력값을 이용하여 대응되는 출력값을 예측할 수 있게 하는 예측 방정식

상관분석(Correlation)  상관분석 (Correlation Analysis)의 사용 목적 - 통계학에서 가장 흥미 있는 문제 중 하나인 변수들 사이의 관련성을 분석하는 방법으로 산점도와 상관계수를 통해 분석할 수 있다. 예) 지능지수와 학업성적, 흡연량과 폐암의 발생률, 키와 몸무게, 공정온도와 제품강도, 운동량과 폐활량과의 관계, 소득과 소비지출 제품강도 ( Y) 공정온도 X) - 산점도 (Scatter Diagram) 상관분석의 첫 단계로 서로 대응하는 자료를 좌표평면 위의 점으로 나타낸 그래프로 두 변수 사이의 관계를 대략적으로 파악할 수 있도록 함

상관분석(Correlation) - 상관계수 (Correlation Coefficient) 두 변수 사이의 선형관계를 정량적으로 나타내는 지표이며 함수관계를 나타내는 것은 아님. 일반적으로 로 표시하며 그 범위는 1    1이다. 일반적으로 의 정확한 값은 알 수 없으며, 따라서 샘플로부터 추정한 값 r 을 사용 - 상관계수 (Correlation Coefficient)의 성질 (+) 이면 양의 상관관계 () 이면 음의 상관관계 0 에 가까우면 상관관계 없음 -1 또는 1에 가까울수록 강한 상관관계를 가지고 있음 r 값

상관분석(Correlation)  상관 분석 사용 예 다음 예제를 통해 산점도와 상관분석에 대해 살펴보도록 하자. - 다음은 어느 회사의 광고 비용과 판매액과의 관계를 나타내는 자료이다. 이 회사의 광고비와 판매액의 상관계수를 구하여라. 광고비 (10만) 판매액 (100만) 광고비 (10만) 판매액 (100만) 4 9 12 23 8 20 6 18 9 22 10 25 8 15 6 10 7 17 9 20

상관분석(Correlation)  Minitab 사용 절차 워크시트에 데이터 입력 Graph > Plot Step 1 ( Y 란에 C2, X란에 C1입력) (Correlation.mtw) Plot을 통해 산점도를 작성한 결과 양의 상관관계임을 짐작할 수 있다.

상관분석(Correlation) Stat > Basic Statistics > Correlation 세션 결과 확인 Step 3 Stat > Basic Statistics > Correlation Step 4 세션 결과 확인 두개의 변수열 선택 상관계수 p 값 상관계수는 0.853으로 양의 상관 관계를 가짐을 알 수 있고 p 값이 0.002로 유의수준 0.05보다 작으므로 광고비와 판매액의 상관관계는 유의 하다고 할 수 있다.

회귀분석(Regression)  회귀분석(Regression)사용 목적 - 변수들간의 함수적인 관련성을 규명하기 위하여 어떤 수학적 모형을 가정하고, 이 모형을 측정된 변수들의 데이터로부터 추정하는 통계적 분석 방법. 이러한 함수 모형으로부터 한 변수의 변화로부터 다른 변수의 변화를 예측할 수 있다. 예) 아버지의 키와 아들의 키의 관계 공정온도가 미치는 제품의 강도 - 입력변수와 출력변수(반응변수) 출력변수 : 예측하고자 하는 변수, 입력변수에 영향을 받는 변수 입력변수 : 출력 변수에 영향을 주는 변수 아버지의 키나 공정온도는 독립변수 아들의 키나 제품의 강도는 종속변수가 되겠죠!

회귀분석(Regression) 결정계수 (Coefficient of Determination ) - R-Sq값은 결정계수라 불리며 R2 로 표시 - 0 R2 1 의 범위에 있고 총변동 중에서 회귀선에 의하여 설명되는 변동이 차지하는 비율이다. - R2 의 값이 1에 가까울수록 회귀선이 높은 정도를 갖고, 의미 있다는 판단을 내림. -바람직한 값은 얼마인가? 경우에 따라 다르다. 화학자는 0.99 정도의 R2 값을 요구할 것이다. 그러나, 공정과 산업에 따라 다르다. 일반적으로 0.7이상의 값이면 출력변수와 입력변수의 관계가 크다고 할 수 있다.

회귀분석(Regression) R2 이 의미하는 것은 ? g n P R2 = 0.695 즉, 회귀 공식으로 산포의 69.5% 4 5 3 2 1 9 8 7 6 S u p l i e r C s t o m R - q = . Y + X g n P R2 = 0.695 즉, 회귀 공식으로 산포의 69.5% 가 설명될 수 있다는 것이다. 산포의 31.5%는 다른 원인으로 인한 것이다.

회귀분석(Regression)  회귀분석 사용 예 다음 예제를 통해 회귀분석과 결정계수에 대해 살펴보도록 하자. - 자동차의 사용년도와 정비 비용간에 어떤 관계가 있는가를 알아보기 위하여 동일한 자동차들의 정비기록에 관한 데이터를 다음과 같이 얻었다. 사용년도(년) 정비비용(천원) 3 1 5 8 1 4 2 6 9 3 5 7 2 6 39 24 115 105 50 86 67 90 140 112 70 186 43 126 1) 이 데이터에 대하여 x와 y간의 관계를 설명하는 단순회귀방정식을 구하여라. 2) 사용년도가 10년일 경우 정비비용은 얼마가 된다고 할 수 있을까?

회귀분석(Regression) 워크시트에 데이터 입력 Stat > Regression > Regression Step 1 워크시트에 데이터 입력 Step 2 Stat > Regression > Regression 출력변수열 선택 입력변수열 선택 (Regression.mtw)

회귀분석(Regression) Regression - Graphs : 최적 회귀모형에 대한 분석에 도움을 주기 위한 잔차 플롯의 형태를 선택 잔차 그래프에 나타나는 잔차의 형태 선택 Residual Plots Histogram of residuals : 잔차의 히스토그램 작성 Normal plot of residuals : 잔차의 정규성 검정을 위한 그래프 작성 Residuals versus fits : 잔차와 적합 된 값의 그림을 작성 Residuals versus order : 잔차 대 관측순서의 그림을 작성 Residuals versus the variables : 잔차 대 지정한 변수의 그림을 작성

회귀분석(Regression) Regression - Options : 가중치 열을 선택할 수 있고, 새로운 관측치에 대한 예측과 신뢰구간을 확인 원하는 x 값을 입력하면 구해진 회귀식을 통해 값과 신뢰구간을 구할 수 있다. 10을 넣으면 10년 뒤의 정비비용 (예측값)이 계산되어진다.

회귀분석(Regression) Storage : 워크시트의 입력변수와 출력변수 열의 다음 열부터 체크 되어지는 항목들을 선택 Results : 윈도우 섹션에서 나타나는 회귀모형에 대한 분석 결과의 범위를 조정

회귀분석(Regression) 세션 결과 확인 Step 3 정비비용과 사용년도에 관한 회귀식은 결정계수 R-Sq 값이 61%로 전체 변동 중 회귀직선에 의해 설명되는 변동이 61%라고 할 수 있다. p 값이 0.001로 유의수준 0.05보다 작으므로 위의 회귀식은 유의하다고 할 수 있다. 사용년도가 10년인 기계의 정비비용의 기대값은 165.48이며 이에 대한 95% 신뢰구간은 (123.66, 207.29)이다. R-Sq(adj)는 회귀식에 변수가 추가될 때마다 R-Sq 값이 늘어나는 것에 대한 조정값이다. 입력변수가 두 개 이상일 때 이 값은 의미가 있으므로 R-Sq(adj)를 분석하는 것이 일반적이다.

회귀분석(Regression) Fitted Line Plot : 그래프로 분석하고자 할 때 활용한다. Step 1 Stat > Regression > Fitted Line Plot 출력변수열 선택 입력변수열 선택 회귀모형의 타입결정 (1차, 2차, 3차)

회귀분석(Regression) Step 2 그래프 결과 확인

회귀분석(Regression)  잔차 분석 실제 값에서 회귀모형에 의해 적합 된 값을 뺀 것을 잔차라 하며 잔차 분석을 통해 우리는 모형의 적합성을 확인하여야 한다. 잔차 : 회귀모형 실제값 잔차가 작을수록 추정한 회귀식이 실제 관측결과를 잘 설명함을 뜻한다 잔차는 오차의 가장 좋은 추정치다 잔차들을 독립변수의 크기 순으로 나열하거나 자료의 입력 순으로 나열했을 때, 이들이 “0” 에 대하여 대칭적이며 특별한 경향을 나타내지 않음을 확인한다. 잔차

회귀분석(Regression)  잔차 분석 사용 예 - 자동차의 사용년도와 정비 비용간에 어떤 관계가 있는가를 알아보기 위하여 동일한 자동차의 정비기록에 관한 데이터를 다음과 같이 얻었다. 적합 값과 잔차를 얻은 후에 잔차분석을 수행하여 보자. 사용년도(년) 정비비용(천원) 3 1 5 8 1 4 2 6 9 3 5 7 2 6 39 24 115 105 50 86 67 90 140 112 70 186 43 126 Step 1 워크시트에 데이터 입력 (Residuals.mtw)

회귀분석(Regression) Storage Stat > Regression > Regression Step 2 종속변수열 선택 독립변수열 선택 Storage Residuals(잔차) 체크 Fits(적합값) 체크

회귀분석(Regression) 워크시트 결과 확인 Stat > Regression > Residual Plots Step 3 워크시트 결과 확인 Step 4 Stat > Regression > Residual Plots 적합값열 선택 잔차와 적합값이 저장 됨 잔차열 선택

회귀분석(Regression) Step 5 그래프 확인

회귀분석(Regression)  결과 분석 Normal Plot of Residuals를 통해 타점들이 대각선에 근사해 있기 때문에 잔차의 분포는 정규분포에 근사 한다고 할 수 있다. ( Stat > Basic Statistics > Normality Test 를 통해 보다 자세히 정규성 검정을 할 수 있음) I Chart of Residuals 에서 관리한계선을 벗어나고 있지 않고 어떠한 패턴을 갖고 있지 않기 때문에 잔차의 분포는 안정적이라고 할 수 있다. - Histogram of Residuals 는 잔차의 형태를 나타내어 주는 그래프이다. - Residuals vs. Fits 는 잔차 대 적합값의 그래프이며 “0”근처에 랜덤하게 타점 되어 있으므로 회귀모형이 적합하다고 할 수 있다.

회귀분석(Regression)  실습 90 분 - 다음 방법에 의해 종이헬기 실습을 하라. 1) 날개길이 6 ~ 14cm 2) 날개길이를 5mm씩 차이 나게 자른다. 3) 2.5m 높이에서 떨어뜨려 낙하시간을 측정한다. 회귀방정식을 구한 후, 낙하시간이 2초 및 2.5초가 되도록 하는 날개 길이를 구해 보아라. 90 분