Ⅲ.Analysis Ⅲ. 분석(Analysis) (1) 1-표본 t 검정 (평균치 검정) 차례표 Ⅲ.Analysis (1) 1-표본 t 검정 (평균치 검정) (2) 2-표본 t 검정 (평균치 검정) (3) 일원 분산 분석 (One-way ANOVA;평균치 검정) (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) (5) 1 비율 (1-Proportion;모집단의 비율비교) (6) 2 비율 (2-Proportion; 두집단간의 비율비교) (7) 카이-제곱 (Chi-square) (8) 상관 분석 (9) 회귀 분석
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) [1] 가설수립 4. 어떤 제품의 중합반응에서 약품의 흡수속도가 제조시간에 영향을 미치고 있음을 알고 있다. 거기에 대한 큰 요인이라고 생각되는 촉매량과 반응온도를 취급하여 다음의 조건으로 행한 결과 다음의 데이터를 얻었다. 가설검정을 하시오. (유의수준 5%) ▶ 예제 풀이 순서 ① 가설 수립 → ② Data 입력 → ③ Stack → ④ 정규성 검정 → ⑤ 분산의 동질성 검정 → ⑥ 그래프에 의한 개괄적 분석 → ⑦ ANOVA [1] 가설수립 H0 : 촉매량과 반응온도에 따른 약품의 흡수속도의 차이가 없다. H1 : 촉매량 또는 반응온도에 따른 약품의 흡수속도에 차이가 있다. [2] Data 입력 여기서는, 원래의 Data가 Stack이 되어 있으므로, Stack의 절차가 필요 없음에 따라 다음 단계로 진행 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) [3] 정규성 검정 통계학 → 기초 통계학 → 정규성 검정… Ⓑ 대상 변수를 선택후에 ‘변수’칸으로 이동 시킵니다. Ⓐ ‘Y’을 마우스로 클릭한후, ‘선택’단추를 누릅니다. Ⓒ ‘확인’단추를 눌러 다음 단계로 진행합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘확률플롯’ 출력 창 입니다. P-Value가 미리설정 된 유의수준(5%)보다 크므로 정규분포를 한다고 볼수 있습니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) [4] 분산의 동질성 검정 통계학 → 기초 통계학 → 2 분산… ※ 이원 분산분석(Two-way ANOVA)에서는 인자가 2개 (여기서는 ‘인자 A’와 ‘인자B’)인 경우임에 따라 각각의 인자에 대해 분산의 동질성 검정을 해야 합니다. Ⓐ 먼저 표본의 칸에 마우스로 클릭하면 대상의 셀이 창의 왼쪽에 나타납니다. 여기서는 ‘Y’을 마우스의 왼쪽단추로 클릭한후 ‘선택 단추를 누릅니다. ‘A’의 칸에 마우스로 클릭하면 대상의 셀이 창의 왼쪽에 나타납니다. 여기서는 아까의 ‘Y’열과 ‘A’열이 모두 나타나는데 이중 ‘A’를 마우스의 왼쪽 단추로 클릭한후 ‘선택’단추를 누릅니다. 더블클릭을 하여 ‘선택’ 단추를 대신 하면 편리합니다. Ⓑ ‘옵션..’단추를 눌러 예제에서 제시된 신뢰수준 ‘95.0’을 확인합니다. Ⓒ ‘확인’단추를 눌러 다음 단계로 진행합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘등분산성 검정’(분산의 동질성 검정)을 활성화한 그림 입니다. 정규성검정에서 정규분포를 따르므로 이에 의해서 판단. P-Value ≫ 유의수준 이므로 인자 A에 대한 각 수준별 Data의 분산은 동질하다고 할수 있음에 따라 다음단계에서 일원 분산 분석 에 의해 평균치 치이를 검정 할수 있습니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) 통계학 → 기초 통계학 → 2 분산… ※ 이원 분산분석(Two-way ANOVA)에서는 인자가 2개 (여기서는 ‘인자 A’와 ‘인자B’)인 경우임에 따라 각각의 인자에 대해 분산의 동질성 검정을 해야 합니다. Ⓐ 먼저 표본의 칸에 마우스로 클릭하면 대상의 셀이 창의 왼쪽에 나타납니다. 여기서는 ‘Y’를 마우스의 왼쪽단추로 클릭한후 ‘선택 단추를 누릅니다. ‘B’의 칸에 마우스로 클릭하면 대상의 셀이 창의 왼쪽에 나타납니다. 여기서는 아까의 ‘Y’열과 ‘B’열이 모두 나타나는데 이중 ‘B’를 마우스의 왼쪽 단추로 클릭한후 ‘선택’단추를 누릅니다. 더블클릭을 하여 ‘선택’ 단추를 대신 하면 편리합니다. Ⓑ ‘옵션..’단추를 눌러 예제에서 제시된 신뢰수준 ‘95.0’을 확인합니다. Ⓒ ‘확인’단추를 눌러 다음 단계로 진행합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘등분산성 검정’(분산의 동질성 검정)을 활성화한 그림 입니다. 정규성검정에서 정규분포를 따르므로 이에 의해서 판단. P-Value ≫ 유의수준 이므로 인자 B에 대한 각 수준별 Data의 분산은 동질하다고 할수 있음에 따라 다음단계에서 일원 분산 분석 에 의해 평균치 치이를 검정 할수 있습니다. 이원분산 분석(Two-way ANOVA)에 앞서 그래프 분석에 의해 개괄적인 Data의 형태를 파악하고, 통계적 검정을 하는 것이 바람직 합니다. 이렇게 하는 것은 통계에 의한 수치만을 활용시, 이상치에 의한 오류를 막고 정확한 통계 Tool을 적용하기 위함 입니다. 여기서는, 그래프 분석과 통계 Tool 적용을 동시에 하는 방법을 Minitab을 사용하는 방법으로 전개하고자 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) [5] 이원 분산 분석 Ⓐ 먼저 표본의 칸에 마우스로 클릭하면 대상의 셀이 창의 왼쪽에 나타납니다. 여기서는 ‘Y’를 마우스의 왼쪽단추로 클릭한후 ‘선택 단추를 누릅니다. ‘행 요인’의 칸에 마우스로 클릭하면 대상의 셀이 창의 왼쪽에 나타납니다. 여기서는 아까의 ‘Y’, ‘A’ 및 ‘B’가 모두 나타나는데 이중 ‘B’(행요인)를 마우스의 왼쪽 단추로 클릭하고, 다시 ‘열 요인’에서 ‘A’를 클릭합니다. 통계학 → 분산 분석 → 이원 분산 분석… Ⓑ ‘평균보기’를 선택하여, 이원 분산분석시, 인자 A와 B 의 각 수준에 대한 평균치를 비교 할수 있도록 합니다. Ⓒ ‘신뢰수준’이 예제에서 제시한 ‘95.0’인자를 확인합니다. 예를 들어, 예제에서 유의수준을 1%로 제시하였을 경우에는 ‘99.0’ 으로 수정하여야 합니다. Ⓓ ‘그래프…’단추를 눌러 적절한 그래프를 선택합니다.(여기서는, 데이터 상자그림 사용) Ⓕ ‘가법모형적합’ 을 클릭하여 선택 합니다. 여기서는 반복이 없으므로, 가법모형적합에 해당됩니다. 가법 모형 적합: 상호작용 항이 없는 모형을 적합시킵니다. 이 경우 셀 (i,j)의 적합치는 (i번째 행에 있는 관측치의 평균) + (j번째 행에 있는 관측치의 평균) - (모든 관측치의 평균)입니다. Ⓔ ‘확인’ 단추를 눌러 앞의 창으로 돌아갑니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘확인’단추를 눌러 다음 단계로 진행한다 ‘상자그림(Box Plot)’ 출력 창 입니다. 통계적 검정에 앞서 Box plot에 의한 비교를 합니다. 큰 막대 부분에서 가상의 선을 그어서 겹치는 부분이 있으면, 네 집단간의 평균치 차이가 있는 것으로 보인다고 할수 있다. 확실한 판단은 이원분산분석 (ANOVA)에 의거하여 하여야 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘세션’을 활성화 하면 나타나는 통계적 Tool에 의해 도출된 결과 입니다. 여기서는 ‘인자 A’가 유의하지 않고, ‘인자 B’가 유의 함을 보여주고 있습니다. 하지만, ‘인자A’에 대한 P-값(P-Value)의 값이 유의수준 5%에 비해 차이가 많지 않으므로, 이상치의 Data의 제거, Data의 추가수집을 하고, 그래도 수치가 비슷하면, 경영에 유리한 방향으로 ‘유의성 유무’에 대한 의사결정을 합니다. 앞의 창에서 ‘평균표시’의 선택으로 도출된 부분입니다. ‘평균표시’를 하지 않으면 나타나지 않는 부분 입니다. ‘인자 B’에 대한 평균치 95% 신뢰구간을 보면 각 인자의 수준별로 차이가 있는 것으로 보입니다. ‘인자 A’에 대한 평균치 95% 신뢰구간을 보면 각 인자의 수준별로 차이가 별로 없는 것으로 보입니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) [6] 보고서 작업(ReportPad) 창 → Y의 확률 플롯 ‘Y의 확률 플롯’(정규성 검정 결과)을 활성화한 그림 입니다. ‘그래프 영역’을 활성화 한후, 마우스의 오른쪽 단추를 눌러 ‘바로가기 메뉴’에서 ‘보고서에 그래프 추가’를 선택 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘등분산성 검정’(분산의 동질성 검정)을 활성화한 그림 입니다. ‘그래프 영역’을 활성화 한후, 마우스의 오른쪽 단추를 눌러 ‘바로가기 메뉴’에서 ‘보고서에 그래프 추가’를 선택 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) 창 → 등분산성 검정 : Y 대 B ‘등분산성 검정’(분산의 동질성 검정)을 활성화한 그림 입니다. ‘그래프 영역’을 활성화 한후, 마우스의 오른쪽 단추를 눌러 ‘바로가기 메뉴’에서 ‘보고서에 그래프 추가’를 선택 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) 창 → Y 상자그림(기준: B, A) ‘Y 상자그림’(Box Plot)을 활성화한 그림 입니다. ‘그래프 영역’을 활성화 한후, 마우스의 오른쪽 단추를 눌러 ‘바로가기 메뉴’에서 ‘보고서에 그래프 추가’를 선택 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) ‘세션’을 활성화 한후, 마우스의 왼쪽 단추를 눌러 보고서에 입력할 영역을 선택한후, 오른쪽 단추를 눌러 ‘바로가기 메뉴’ 에서 ‘선택한 행에 보고서 추가’를 선택 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) Ⓐ ‘도구모음 메뉴’에서 ‘Project Manager’단추를 눌러 실행 시킵니다. Ⓑ 활성화된 Project Manager 창에서 ‘ReportPad’폴더를 선택 합니다. Ⓒ ‘최대화’ 단추를 눌러 창을 확대 합니다.
Y 연속형, X 이산형 Data의 분석 (4) 이원 분산 분석 (Two-way ANOVA;평균치 검정) 출력된 보고서 화면 입니다. ‘ReportPad’폴더에서 마우스의 오른쪽 단추를 눌러 ‘바로가기 메뉴’에서 보고서의 출력의 형태를 선택 합니다. 여기서는 ‘보고서 인쇄’를 선택 하였습니다.
개념 이해 Y 연속형, X 이산형 Data의 분석 (5) 1 비율 (1-Proportion;모집단의 비율비교) 이항분포의 정규분포 근사법을 사용하는 것으로서 종래의 어떠한 불량률은 ?%였으나, 개선 활동을 하여 총 ?개중에 불량 ?개가 나왔을 때 종래의 비율과 달라졌다고 할 수 있는가를 검정하는 것입이다. (불량률 외에도 응용하여 사용할 수 있습니다) (2) 두 집단의 비율비교 (2-Proportion;2 비율) : 이항분포의 정규분포 근사법을 사용하는 것으로서 A라는 집단에서 총 ?개중에 불량이 ?개, B라는 집단에서 총?개중에 불량이 ?개라고 가정하였을 때 두 집단의 불량에 차이가 있는가를 검정하는 것입니다. (3) 카이-제곱 검정 (Chi-Square: χ2 검정) : 이산형에 관한 어떤 기대치에 대하여 실측치가 적합한가의 여부를 근사적으로 검정하는 것입니다.
Y 이산형, X 이산형 Data의 분석 (5) 1 비율 (1-Proportion;모집단의 비율비교) [1] 가설수립 5. 방송국 LGBC에서는 새로 대하사극을 계획하여 어제 그 첫회를 방송하였다. 기존의 대하사극의 시청률은 15% 이었다. 1회 방영후 2,000가구를 임의추출(Random Sampling)하여 조사한 결과 350가구가 해당 프로그램을 시청한 것으로 응답하였다. 금번의 대하사극의 시청률은 15%를 초과하였다고 할수 있는지 절차에 의해 가설검정 하시오. (유의수준 5%) [1] 가설수립 H0 : 금번의 대하사극의 시청률은 15% 이다 (p=15%) H1 : 금번의 대하사극의 시청률은 15%를 초과한다 (p>15%) ▶ 예제 풀이 순서 ① 가설 수립 → ② 1 비율 Ⓐ 여기서는 요약 데이터를 선택, 시행횟수 2000 및 사건 발생횟수 350을 입력 합니다. [2] 1-Proportion 통계학 → 기초 통계학 → 1 비율… Ⓑ 예제를 통해 알고 있는 조건식을 입력하기 위해 ‘옵션…’단추를 누릅니다.
Y 이산형, X 이산형 Data의 분석 (5) 1 비율 (1-Proportion;모집단의 비율비교) Ⓐ 예제에서 제시하는 유의수준 5%에 의거하여 신뢰수준 ’95.0’을 확인. Ⓑ 이미 알고 있는 시청율 0.15를 입력 Ⓒ 예제에서 ‘대하사극의 시청률은 15%를 초과하였다고 할수 있는지’로 질문 하였기 때문에 여기서는 ‘greater than’을 선택 (한쪽규격) Ⓓ ‘확인’단추를 눌러 앞의 창으로 돌아갑니다. Ⓔ ‘확인’단추를 눌러 다음 단계로 진행합니다.
Y 이산형, X 이산형 Data의 분석 (5) 1 비율 (1-Proportion;모집단의 비율비교) ‘세션’을 활성화 하면 나타나는 통계적 Tool에 의해 도출된 결과 입니다. 95% 신뢰도로 분석시 P-Value 0.001 ≪ 유의수준 5%로 대립가설을 채택 => 새로운 대하사극의 시청률은 기존의 대하사극 시청률 15%보다 높다고 할수 있습니다.
※ 기존 김밥에 대한 선호도 P1, 새로운 김밥에 대한 선호도 P2 Y 이산형, X 이산형 Data의 분석 (6) 2 비율 (2-Proportion; 두집단간의 비율비교) 6. ‘맛나유’ 김밥집에서는 이웃의 경쟁 김밥집 ‘아맛나’와의 경쟁력에 있어 확실한 우위를 차지하기 위해 주력상품인 치즈김밥 의 신제품을 개발하였다. 맛에 대한 선호도를 조사한 결과, 기존 치즈김밥에 대해 100명중 72명이 선호하는 것을 나타 냈고, 새로운 치즈김밥에 대해 212명중 170이 선호하는 것으로 나타났다. 새로운 김밥의 원가가 높아 기존 김밥에 비해 10%P이상 선호도가 더 높아야 된다고 한다. 새로운 김밥이 기존의 김밥보다 10%P이상 선호도가 더 높은지 절차에 의해 가설검정 하시오. (유의수준 5%) ▶ 예제 풀이 순서 ① 가설 수립 → ② 2 비율 [1] 가설수립 H0 : 새로운 김밥의 선호도와 기존 김밥의 선호도의 차이가 10%P 이다 (P1 = P2) H1 : 새로운 김밥의 선호도가 기존 김밥의 선호도보다 10%P초과하여 더 높다 (P2 > P1 + 10%) ※ 기존 김밥에 대한 선호도 P1, 새로운 김밥에 대한 선호도 P2 [2] 2-Proportion 통계학 → 기초 통계학 → 2 비율… Ⓐ 여기서는 요약 데이터를 선택, 첫번째 시행횟수 100 및 사건수 72를 입력하고, 두번째 시행횟수 212 및 사건수 170을 입력 Ⓑ 조건내용을 입력하기 위해 ‘옵션…’단추를 누릅니다.
Y 이산형, X 이산형 Data의 분석 (6) 2 비율 (2-Proportion; 두집단간의 비율비교) Ⓐ 예제에서 제시하는 유의수준 5%에 의거하여 신뢰수준 ’95.0’을 확인. Ⓑ 새로운 감밥에 대한 선호도 차이가 10%P이상 차이가 나야 하므로 0.10을 입력 Ⓒ 기존의 김밥에 대비하여 새로운 김밥의 선호도가 더 높아야 하기 때문에 여기서는 ‘greater than’을 선택 (한쪽규격) Ⓓ ‘확인’단추를 눌러 앞의 창으로 돌아갑니다. Ⓔ ‘확인’단추를 눌러 다음 단계로 진행합니다.