제 10 장 다변량 자료의 탐색적 분석 산점도 행렬과 상관계수 행렬

Slides:

Advertisements

Similar presentations

1. 2 차원 배열  배열은 동일한 데이터 유형으로 여러 개의 변수를 사용할 경우 같은 이 름으로 지정하여 간편하게 사용할 수 있도록 하는 것으로서 앞에서 1 차원 배열을 공부하였습니다.  2 차원 배열은 바둑판을 생각하면 되며, 1 차원 배열에서 사용하는 첨자를 2.

Advertisements

1.3.1 원의 방정식. 생각해봅시다. SK 텔레콤에서는 중화동에 기지국을 세우려고 한다. 이 기지국은 중화고, 중화우체국, 뚝방에 모두 전파를 보내야 한다. 기지국은 어디에 세워야 할까 ? 중화동의 지도는 다음과 같다 원의 방정식.

Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.

재료수치해석 HW # 박재혁.

제14장 요인분석.

Engineering Mathematics, Fourth Edition

적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.

각 행 (row) 에서 같은 첨자가 있는 곳은 비워두고, 그 밖에 cell에 수준수 (level) 또는 반복수를 기입

(Numerical Analysis of Nonlinear Equation)

수치해석 6장 예제문제 환경공학과 천대길.

제12주 회귀분석 Regression Analysis

패턴인식 개론 Ch.3 선형 대수학 - 벡터와 행렬.

부록 1: 행렬대수의 기본개념 1. 기본정의 2. 행렬 연산 전치(transpose) 행렬의 동등(equal)

Chapter 02 순환 (Recursion).

질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.

11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.

Simulating Boolean Circuits on a DNA Computer

상관함수 correlation function

제 10장 주성분 분석(PCA) 주성분 분석(PCA)이란? 여러 개의 양적변수들 사이의 분산-공분산 관계를

행렬 기본 개념 행렬의 연산 여러가지 행렬 행렬식 역행렬 연립 일차 방정식 부울행렬.

상관분석 (p , p ).

제 7장 연관성분석 화장품과학과 홍보람.

제4장 제어 시스템의 성능.

Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.

프로그래밍 개요

Report #3 - due: 4/6 100*100의 2개의 희소 행렬 A, B를 전달 받아서 이들의 덧셈을 구하고, 그 결과의 행렬 C를 반환하는 add_sparse_matrix(A, B, C)를 다음과 같이 작성하라. 희소 행렬은 sparse_matrix 타입으로 표현된다.

Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의

Quiz #7 다음 수들을 합병 정렬과 퀵 정렬 알고리즘을 이용하여 오름 차순으로 정렬하였을 때, 데이터 이동 회수를 각각 구하라. 여러분은 정렬 과정을 단계별로 보이면서 이동 회수를 추적해야 한다. 단, 퀵 정렬시에 피봇으로 배열의 왼쪽 첫 번째 원소를 선택한다. 5.

(independent variable)

Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)

Computer Vision & Pattern Recognition Lab. 위 은 영 (월)

컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -

행렬의 개요 행렬은 수를 원소로 지니는 다차원 배열이다. mn (“m by n”) 행렬은 m개의 행과 n개의 열을 갖는다.

행렬의 개요 행렬은 수를 원소로 지니는 다차원 배열이다. mn (“m by n”) 행렬은 m개의 행과 n개의 열을 갖는다.

고체역학 2 - 기말고사 1. 단면이 정사각형이고 한번의 길이가 a 일 때, 최대굽힘응력과 최대전단응력의 비를 구하라(10).

Frequency distributions and Graphic presentation of data

생활 속의 밀도 (1) 뜨고 싶니? 내게 연락해 ! 물질의 뜨고 가라앉음 여러 가지 물질의 밀도.

5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열

보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.

텍스트 분석 기초.

논문작성을 위한 연구모형 설정 양동훈.

제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?

CAD 실습 2013년 2학기.

끓는점을 이용한 물질의 분리 (1) 열 받으면 누가 먼저 나올까? 증류.

미분방정식.

이차방정식과 이차함수의 관계 이차함수의 그래프와 축의 위치 관계 이차방정식 의 그래프와 축이 만나는 점의 좌표는 이차방정식

디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승

1. 선분 등분하기 (1) 주어진 선분 수직 2등분 하기 ① 주어진 선분 AB를 그린다. ② 점 A를 중심으로 선분AB보다

작도 작도 작도: 눈금 없는 자와 컴퍼스만을 사용하여 도형을 그리는 것

Chapter 1 단위, 물리량, 벡터.

5장. 선택 알고리즘.

원의 방정식 원의 방정식 x축, y축에 접하는 원의 방정식 두 원의 위치 관계 공통접선 원과 직선의 위치 관계

Chapter 1 단위, 물리량, 벡터.

1. 접선의 방정식 2010년 설악산.

쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석

최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)

비교분석 보고서 Template 2015.

Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5

통계학 R을 이용한 분석 제 2 장 자료의 정리.

텍스트 분석 ㈜ 퀀트랩.

CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1

수치해석 ch3 환경공학과 김지숙.

CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1

어서와 C언어는 처음이지 제21장.

수학10-나 1학년 2학기 Ⅱ.부등식의 영역 3. 부등식의 영역에서 최대, 최소(5/5) 부등식 영역 수업계획 수업활동.

교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)

: 3차원에서 입자의 운동 방정식 제일 간단한 경우는 위치만의 함수 : 시간, 위치, 위치의 시간미분 의 함수

Presentation transcript:

제 10 장 다변량 자료의 탐색적 분석 158 1. 산점도 행렬과 상관계수 행렬 통계자료의 탐색적 분석(EDA) 158 제 10 장 다변량 자료의 탐색적 분석 1. 산점도 행렬과 상관계수 행렬 여러 변량을 동시에 분석하는 것은 결코 쉬운 일은 아니다. 다변량 자료를 위한 그래픽 기법으로 체르노프 얼굴(Chernoff’s faces), 앤드류스 곡선(Andrews curves), 별 그림(star plot) 이 있지만 그다지 효율적이지 못하다. p ≽3 변량의 자료에 일반적으로 적용 가능한 그래프는 산점도 행렬(scatter plot matrix) 산점도 행렬과 브러싱(brushing)에 대하여 설명해 보자 변수 에 대하여 모든 쌍의 산점도 행렬형태로 나타낸다

여기서 대각선 상에 놓이는 의 그래프는 산점도적 의미가 없으므로 그리지 않을 수도 있다. 통계자료의 탐색적 분석(EDA) 159 여기서 대각선 상에 놓이는 의 그래프는 산점도적 의미가 없으므로 그리지 않을 수도 있다. 산점도 행렬의 번째 요소는 의 산점도이고 번째 요소는 의 산점도 이므로 사실 중복된다 . 그러므로 산점도 행렬에서 대각선 위의 산점도만 보는 것으로 충분하다. 피어슨의 상관계수(K. Pearson) – 저항성이 없는 것이 결점 스피어만의 상관계수(Spearman) – 비모수적 상관계수 는 중에서 가 차지한 순위

{(-2,-5), (-3,-4), (0,1), (10,3), (5,5)}, = (2,0) 인 경우 피어슨의 상관계수는 통계자료의 탐색적 분석(EDA) 160 예를 들어, 변량 1과 변량 2의 자료값이 {(-2,-5), (-3,-4), (0,1), (10,3), (5,5)}, = (2,0) 인 경우 피어슨의 상관계수는 원 자료를 순위값으로 대치하면 {(2,1), (1,2), (3,3), (5,4), (4,5)}, = (3,3) 스피어만의 상관계수 <도표 4> 유럽 25개국의 단백질 섭취 자료 피어슨 상관계수 Stat > Basic Statistics > Correlation… 스피어만 상관계수 먼저, Manip > Rank… 모든 자료를 순위화 하여 순위화 한 자료를 이용하여 상관계수를 구한다.

단백질 섭취 자료의 산점도 행렬 Graph > Matrix Plot…. 통계자료의 탐색적 분석(EDA) 161 단백질 섭취 자료의 산점도 행렬 Graph > Matrix Plot…. 피어슨 상관계수 C2 C3 C4 C5 C6 C7 C8 C9 C3 0.153 C4 0.586 0.620 C5 0.503 0.281 0.576 C6 0.061 -0.234 0.066 0.138 C7 -0.500 -0.414 -0.712 -0.593 -0.524 C8 0.135 0.314 0.452 0.222 0.404 -0.533 C9 -0.349 -0.635 -0.560 -0.621 -0.147 0.651 -0.474 C10 -0.074 -0.061 -0.046 -0.408 0.266 0.047 0.084 0.375

예를들어, 변량 1인 쇠고기(C2, C11)와 변량 4인 우유(C5, C14)사이의 피어슨 상관계수는 통계자료의 탐색적 분석(EDA) 162 스피어만의 상관계수 예를들어, 변량 1인 쇠고기(C2, C11)와 변량 4인 우유(C5, C14)사이의 피어슨 상관계수는 0.503이고, 스피어만의 상관계수는 0.611이다. 이는 우유가 소로부터 나온다(또는 소가 우유로부터 나온다)는 사실을 생각하면 자연스러운 결과이다. 그러나, 이런 식으로 모든 수치들을 해석하려 든다면 그것 또한 골치 아픈 일. 쉽게 하는 방법이 없을 까? 이를 위하여 고유값-고유벡터 분해(2절)와 상관도(3절)를 학습할 필요가 있다. C11 C12 C13 C14 C15 C16 C17 C18 C12 0.097 C13 0.580 0.600 C14 0.611 0.325 0.553 C15 0.239 -0.249 0.212 0.305 C16 -0.528 -0.411 -0.689 -0.691 -0.547 C17 0.056 0.167 0.290 0.119 0.396 -0.366 C18 -0.327 -0.605 -0.505 -0.638 -0.267 0.688 -0.413 C19 -0.200 0.064 0.028 -0.392 0.081 0.247 0.028 0.372

2. 고유값-고유벡터 분해(eigenvalue-eigenvector decomposition) 통계자료의 탐색적 분석(EDA) 163 2. 고유값-고유벡터 분해(eigenvalue-eigenvector decomposition) 양정치 대칭행렬(positive definite symmetric matrix)의 고유값-고유벡터 분해 대칭행렬 가 양정치라고 하자 이것은, 길이 인 임의의 벡터 에 대하여 가 인 조건 만족 양정치 대칭행렬의 의 고유값-고유벡터 분해를 설명해 보자 우선, 인 경우에 대하여 그리고 행렬 가 대각행렬인 경우에 대하여 의 기하적 의미를 살펴보자. 의 역행렬 은 이므로 으로 표기하면 이 된다. 인 경우 이 타원의 장축의 길이가 이고 단축의 길이가 이며 장축과 단축은 직교한다. 즉, 은 과 가 클수록 크기가 큰 타원 방정식이 된다.

타원의 크기는 장축의 길이 과 단축의 길이 로 결정 되므로, 마찬가지로 그것들이 2 Ⅹ2행렬의 크기를 특성화 한다. 통계자료의 탐색적 분석(EDA) 164 타원의 크기는 장축의 길이 과 단축의 길이 로 결정 되므로, 마찬가지로 그것들이 2 Ⅹ2행렬의 크기를 특성화 한다. 만약, 양정치행렬 가 대각행렬이 아닌 경우에도 의 자취에 대하여 똑 같이 말할 수 있는가? 답은 ‘그렇다’ 타원의 장축 절반 길이와 단축 절반 길이의 제곱값이 행렬 의 고유값이다. 고유벡터란 장축과 단축의 방향을 나타낸다. 타원의 장축과 단축은 회전 후에도 직교 하므로 고유벡터끼리의 내적은 0이 된다. 인 경우로 확장하면 다음과 같다. ◎ 양정치 대칭행렬 의 크기는 개의 고유값으로 나타내어지며 개의 고유값은 타원체 의 개 축의 길이와 관련이 있다. ◎ 개 축의 방향을 결정하는 것은 각기 해당하는 고유벡터이다.고유벡터는 서로 직교 [정의] 를 만족하는 실수 를 양정치 대칭행렬 의 고유값(eigenvalue)이라고 하고 단위벡터 를 고유벡터(eigenvector) 라고 한다.

양정치 대칭행렬 의 경우 이와 같은 고유값과 고유벡터는 모두 개가 있으며 이들을 각각 와 라고 하면 통계자료의 탐색적 분석(EDA) 165 양정치 대칭행렬 의 경우 이와 같은 고유값과 고유벡터는 모두 개가 있으며 이들을 각각 와 라고 하면 의 관계에 있으며 고유벡터들은 서로 직교하게 된다. 즉 가 성립 대칭행렬 의 고유값-고유벡터 분해 또는 여기서, 고유벡터들을 열로하는 행렬 는 를 만족하는 직교행렬 미니탭을 이용하여 2Ⅹ2행렬 의 고유값-고유벡터 분해를 구하자.

Calc > Matrices > Read… Calc > Matrices > Eigen Analysis… 통계자료의 탐색적 분석(EDA) 166 우선 행렬을 만들자 고유값-고유벡터의 분해 Calc > Matrices > Read… Calc > Matrices > Eigen Analysis… 고유값과 고유벡터 <고유벡터> <고유값> Matrix M2 C1 0.850651 0.525731 2.61803 0.38197 -0.525731 0.850651

상관계수 행렬을 이라고 할 때 이 행렬을 이용한 2차원(저차원) 평면상에 통계자료의 탐색적 분석(EDA) 167 3. 상관도 상관계수 행렬을 이라고 할 때 이 행렬을 이용한 2차원(저차원) 평면상에 개 변량 간의 상관관계를 잘 나타내도록 할 수 없을 까? Gabriel(1971)에 의하여 개발된 상관도(correlation plot ; 주성분 행렬도 : principle component biplot)방법을 설명 양정치 대칭행렬 을 고유값-고유벡터 분해식으로 표현 로 표현이 된다. 여기서 는 의 고유값 을 대각원소로 하는 대각행렬이고 는 고유벡터를 각 열로 하는 직교행렬이다. 만약, 처음 두 고유값 과 이 나머지 고유값들에 비하여 상당히 크다면 로 근사된다.

내적 = 크기 * 크기 * cosine 두 벡터 사이의 각이 작을수록 높은 상관관계 통계자료의 탐색적 분석(EDA) 168 라고 놓으면 (즉 ) 이다. 여기서 행렬 는 로 정의된다. 따라서, 변량 와 사이의 상관계수 는 내적으로 계산(근사) 내적 = 크기 * 크기 * cosine 두 벡터 사이의 각이 작을수록 높은 상관관계 미니탭을 이용한 상관도 작성 행렬 를 구해보자.

고유벡터가 행렬 M2(=V)에 만들어져 들어간다. 즉, M1=M2Ⅹdiag(C10)ⅩM2’ 이 된다. 통계자료의 탐색적 분석(EDA) 169 상관계수 행렬이 M1에 입력되어 있다면 ① Calc > Matrices > Eigen Analysis…. 명령어에 의하여 M1(=R)의 고유값이 열 C10에, 고유벡터가 행렬 M2(=V)에 만들어져 들어간다. 즉, M1=M2Ⅹdiag(C10)ⅩM2’ 이 된다. ② 다음으로 미니탭 명령어 Calc > Calculator… 에 의하여 열 C11에 열 C10의 제곱근 값을 저장 ( ) ③ Calc > Matrices > Diagonal… 에 의하여 열 C11의 각 값을 대각요소로 하는 대각행렬 M3를 만들고 ④ Calc > Matrices > Copy… 에 의하여 두 행렬 M2, M3를 곱하여 행렬 M4를 만들면 이것이 바로 행렬 H(9Ⅹ9) ⑤ Calc > Matrices > Copy… 명령어를 사용하여 행렬 M4의 9개 열의 원소를 각각 9개 열 C21, C22, , C28, C29로 복사해서 저장 이에 따라 처음 두 열 C21과 C22에 과 를 만들러 넣을 수 있다. 이것을 플롯한 것이 상관도인 <도표 7>이다.

<도표 7> 유럽 25개국 단백질 섭취원(변량)들의 상관도 통계자료의 탐색적 분석(EDA) 170 <도표 7> 유럽 25개국 단백질 섭취원(변량)들의 상관도 ① 변량 1(쇠고기), 변량 4(우유), 변량 3(계란), 변량 2(돼지, 닭고기) 축산업 ② 변량 6(곡식), 변량 8(콩, 견과), 변량 9(과일, 채소) 밭농사 ③ 변량 5(생선), 변량 7(전분) 농,어업 혼합형 상관행렬 M1의 고유값중 2개는 (4.01+1.41)/9=60.2%이다.

다중회귀(multiple regression)이란 통계자료의 탐색적 분석(EDA) 171 4. 저항성 다중 선형회귀 다중회귀(multiple regression)이란 어느 한 변량의 예측 또는 설명을 위하여 이 변량에 영향을 줄 것으로 생각되는 다른 여러 변량들을 이용하는 통계적 분석기법 저항성 직선 회귀를 2개 이상의 설명변량(=독립변량)으로 반응변량(=종속변량)을 설명하는 것 (sweeping 방법을 이용한 저항성 다중 선형회귀 적합) <자료를 이용한 예 : stack loss dataset> 3개의 설명변량 AIR, TEMP, ACID와 1개의 종속변량 LOSS로 구성 이들 변수들은 암모니아(NH3)를 산화하여 질산(HNO3)을 만드는 화학 공정에 관한 것 X1 = AIR = 공기흐름(속도) X2 = TEMP = 냉각수 온도 X3 = ACID = 질산의 농축도 Y = LOSS = 암모니아 비수거분(손실분, %)

자료분석의 목적 및 적합 방법(sweeping) 통계자료의 탐색적 분석(EDA) 172 자료분석의 목적 및 적합 방법(sweeping) : 변량 LOSS(=Y)가 변량 AIR(=X1), TEMP(=X2), ACID(=X3)에 의하여 어떤 영향을 받는가 => 모든 설명변수를 동시에 적합시키지 않고 선형관계가 가장 높은 변수 하나씩 적합 => 각 설명변량과 종속변량 사이의 산점도 LOSS - x - 36+ x x - x 24+ - 4 - x 3 x 12+ 3 - x - 4 +---------+---------+---------+---------+---------+------AIR 48.0 54.0 60.0 66.0 72.0 78.0 Y와 X1과의 저항성 직선식 Y=-40.93+0.9667X1+Y.1 Y.1 : X1 변수만 적합시키 고 남은 잔차

173 Y와 X2과의 저항성 직선식 Y=4.78+0.2778X2+Y.2 Y와 X3과의 저항성 직선식 통계자료의 탐색적 분석(EDA) 173 LOSS - x - 36+ x x - x 24+ - x x 2 - 2 2 x 12+ x x x - x - 2 2 --------+---------+---------+---------+---------+--------TEMP 18.0 20.0 22.0 24.0 26.0 Y와 X2과의 저항성 직선식 Y=4.78+0.2778X2+Y.2 LOSS - x - 36+ x x - x 24+ - 2 2 - x x x x x 12+ x x x - x - x x x x --+---------+---------+---------+---------+---------+----ACID 72.0 76.0 80.0 84.0 88.0 92.0 Y와 X3과의 저항성 직선식 Y=48.25+0.625X3+Y.3

중복되는 부분을 제외한 즉, 순수한 X2.1 또는 X3.1 을 찾는다 통계자료의 탐색적 분석(EDA) 174 1. Y와 X1과의 저항성 직선식 : Y = -40.93 + 0.9667X1 + Y.1 2. Y.1 과 X2 또는 X3 와 관계 X2 또는 X3 에는 X1 과 중복되는 부분 남아있다 중복되는 부분을 제외한 즉, 순수한 X2.1 또는 X3.1 을 찾는다 저항성 직선을 계산 : X2 = 4.78 + 0.2778X1 + X2.1 X3 = 48.25 + 0.6250X1 + X3.1 3. Y.1 과 X2.1 , Y.1 과 X3.1 사이의 산점도 확인, 저항성 직선 계산 : Y.1 = 0.40 + 0.60X2.1 + Y.12 , Y.12 는 적합후 남은 잔차 4. Y.12 와 X3 와의 관계는 단계 2 처럼 순수한 X3.12 를 사용 : X3.1 = 0.62 - 0.7418X2.1 + X3.12 5. Y.12 와 X3.12 사이의 산점도 확인, 저항성 직선 : Y.12 = a + bX3.12 + Y.123

Y = -43.53 + 0.80X1 + 0.60X2 + Y.12 : 최종적인 저항적인 회귀식 통계자료의 탐색적 분석(EDA) 175 모든 과정을 정리하면 Y = -40.93 + 0.9667X1 + Y.1 에서 Y.1 = 0.40 + 0.60X2.1 + Y.12 , X2 = 4.78 + 0.2778X1 + X2.1 각각 대입하면 Y = -43.53 + 0.80X1 + 0.60X2 + Y.12 : 최종적인 저항적인 회귀식 , Y.12 는 잔차 r , = -43.53 + 0.80X1 + 0.60X2

5. 최소제곱법에 의한 스위핑(sweeping) 최소제곱법에 의한 다중선형회귀에서 통계자료의 탐색적 분석(EDA) 176 5. 최소제곱법에 의한 스위핑(sweeping) 최소제곱법에 의한 다중선형회귀에서 A) 단순 선형회귀의 알고리즘을 사용하는 방법(sweeping) B) 다중 선형회귀의 표준적인 방법 첫째 방법 A 앞의 자료를 이용한 다중 회귀분석을 시도, 저항적인 방법의 결과 동일한 모형을 사용하여 을 적합하여 보자 ① i) Y를 X1에 최소제곱 회귀시켜보자. 그 결과 최소제곱 회귀식은 Y = -44.132 + 1.0203X1 + Y.1 ii) X2를 X1에 최소제곱 회귀시켜 보자. 그 결과 최소제곱 회귀식은 X2 = 4.807 + 0.26954X1 + X2.1 ② Y.1을 X2.1에 최소제곱 회귀시켜 보자. 그 결과 최소제곱 회귀식은 Y.1 = 0.000 + 1.2954X2.1 + Y.12

177 위의 단계별 결과 ① 과 ②를 종합하여 보면 Y = -44.132 + 1.0203X1 + Y.1 통계자료의 탐색적 분석(EDA) 177 위의 단계별 결과 ① 과 ②를 종합하여 보면 Y = -44.132 + 1.0203X1 + Y.1 = -44.132 + 1.0203X1 + (1.2954X2.1 + Y.12) = -44.132 + 1.0203X1 + 1.2954(X2 – 4.807 – 0.26954X1) + Y.12 = -50.36 + 0.6711X1 + 1.2954X2 + Y.12 두번째 방법 B 이 방법에 따른 의 해는 잘 알려진대로 를 최소화 시켜서 얻게 된다. = -50.4 + 0.671X1 + 1.30X2

다중 저항성 회귀에 의한 잔차와 최소제곱 회귀에 의한 잔차 비교 통계자료의 탐색적 분석(EDA) 178 다중 저항성 회귀에 의한 잔차와 최소제곱 회귀에 의한 잔차 비교 제곱잔차 절대값 잔차 중위수 평균 합 다중 저항성 잔차 r : 1.96 11.06 44.1 최소제곱 잔차 e : 4.48 8.99 49.8

⊙ 스피어만 상관계수 는 순위(rank)를 이용하여 구하는 데 특이값에 대하여 저항적 반면 피어슨의 상관계수 는 그렇지 않다. 통계자료의 탐색적 분석(EDA) 179 6. 요약 ⊙ 스피어만 상관계수 는 순위(rank)를 이용하여 구하는 데 특이값에 대하여 저항적 반면 피어슨의 상관계수 는 그렇지 않다. ⊙ 상관계수 행렬의 고유값-고유벡터 분해를 통하여 상관도를 그릴 수 있다. 변량들 사이의 상관계수는 상관도에서 변량점 벡터간의 내적으로 근사 두 변량점이 원점을 중심으로 이루는 사이각이 작은 경우 두 변수량간의 상관이 크다 ⊙ 다중 선형회귀에서 저항성이 있는 회귀 적합(sweeping) ① i) 종속변량 Y와 설명변량 X1 , , Xp의 각각의 산점도를 그린다. 그 중 Y와 가장 강한 선형관계를 갖는 변량 하나 선택 그 변량을 표기의 편의상 X1이라고 하자 ii) Y와 X1과의 회귀식을 구하고 잔차 Y.1을 구한다 마찬가지로 Xj 를 X1으로 회귀시키고 잔차 Xj.1을 구한다. (j=2, ,p)

② i) 종속변량 Y.1과 설명변량 X2.1, ,Xp.1의 각각의 산점도를 그려보고 그 중 통계자료의 탐색적 분석(EDA) 180 ② i) 종속변량 Y.1과 설명변량 X2.1, ,Xp.1의 각각의 산점도를 그려보고 그 중 Y.1과 가장 강한 선형관계를 갖는 변량 하나를 선택한다. 그 변량을 표기의 편의상 X2.1이라고 하자. ii) Y.1과 X2.1과의 회귀식을 구하고 잔차 Y.12를 구한다 마찬가지로 Xj.1을 X2.1으로 회귀하고 잔차 Xj.12를 구한다.(j=3, ,p) ③ i) 종속변량 Y.12와 설명변량 X3.12, ,Xp.12의 각각의 산점도를 그려보고 그 중 Y.12와 가장 강한 선형관계를 갖는 변량 하나를 선택한다 그 변량을 표기의 편의상 X3.12라고 하자 ii) Y.12와 X3.12와의 회귀식을 구하고 잔차 Y.123를 구한다. 마찬가지로 Xj.12를 X3.12로 회귀하고 잔차 Xj.123를 구한다(j=4, ,p) ④ 이상의 방법을 거듭하여 Y와 X1과의 회귀식과 잔차 Y.1, Y.1과 X2.1과의 회귀식과 잔차 Y.12, Y.12와 X3.12와의 회귀식과 잔차 Y.123, 을 구할 수 있게 되는데 이것을 종합하여 Y를 X1, ,Xp에 회귀시킨 회귀 적합식과 잔차 Y.12 p를 계산할 수 있게 된다.