Download presentation
Presentation is loading. Please wait.
1
제 10 장 다변량 자료의 탐색적 분석 158 1. 산점도 행렬과 상관계수 행렬
통계자료의 탐색적 분석(EDA) 158 제 10 장 다변량 자료의 탐색적 분석 1. 산점도 행렬과 상관계수 행렬 여러 변량을 동시에 분석하는 것은 결코 쉬운 일은 아니다. 다변량 자료를 위한 그래픽 기법으로 체르노프 얼굴(Chernoff’s faces), 앤드류스 곡선(Andrews curves), 별 그림(star plot) 이 있지만 그다지 효율적이지 못하다. p ≽3 변량의 자료에 일반적으로 적용 가능한 그래프는 산점도 행렬(scatter plot matrix) 산점도 행렬과 브러싱(brushing)에 대하여 설명해 보자 변수 에 대하여 모든 쌍의 산점도 행렬형태로 나타낸다
2
여기서 대각선 상에 놓이는 의 그래프는 산점도적 의미가 없으므로 그리지 않을 수도 있다.
통계자료의 탐색적 분석(EDA) 159 여기서 대각선 상에 놓이는 의 그래프는 산점도적 의미가 없으므로 그리지 않을 수도 있다. 산점도 행렬의 번째 요소는 의 산점도이고 번째 요소는 의 산점도 이므로 사실 중복된다 그러므로 산점도 행렬에서 대각선 위의 산점도만 보는 것으로 충분하다. 피어슨의 상관계수(K. Pearson) – 저항성이 없는 것이 결점 스피어만의 상관계수(Spearman) – 비모수적 상관계수 는 중에서 가 차지한 순위
3
{(-2,-5), (-3,-4), (0,1), (10,3), (5,5)}, = (2,0) 인 경우 피어슨의 상관계수는
통계자료의 탐색적 분석(EDA) 160 예를 들어, 변량 1과 변량 2의 자료값이 {(-2,-5), (-3,-4), (0,1), (10,3), (5,5)}, = (2,0) 인 경우 피어슨의 상관계수는 원 자료를 순위값으로 대치하면 {(2,1), (1,2), (3,3), (5,4), (4,5)}, = (3,3) 스피어만의 상관계수 <도표 4> 유럽 25개국의 단백질 섭취 자료 피어슨 상관계수 Stat > Basic Statistics > Correlation… 스피어만 상관계수 먼저, Manip > Rank… 모든 자료를 순위화 하여 순위화 한 자료를 이용하여 상관계수를 구한다.
4
단백질 섭취 자료의 산점도 행렬 Graph > Matrix Plot….
통계자료의 탐색적 분석(EDA) 161 단백질 섭취 자료의 산점도 행렬 Graph > Matrix Plot…. 피어슨 상관계수 C C C C C C C C9 C C C C C C C C
5
예를들어, 변량 1인 쇠고기(C2, C11)와 변량 4인 우유(C5, C14)사이의 피어슨 상관계수는
통계자료의 탐색적 분석(EDA) 162 스피어만의 상관계수 예를들어, 변량 1인 쇠고기(C2, C11)와 변량 4인 우유(C5, C14)사이의 피어슨 상관계수는 0.503이고, 스피어만의 상관계수는 0.611이다. 이는 우유가 소로부터 나온다(또는 소가 우유로부터 나온다)는 사실을 생각하면 자연스러운 결과이다. 그러나, 이런 식으로 모든 수치들을 해석하려 든다면 그것 또한 골치 아픈 일. 쉽게 하는 방법이 없을 까? 이를 위하여 고유값-고유벡터 분해(2절)와 상관도(3절)를 학습할 필요가 있다. C C C C C C C C18 C C C C C C C C
6
2. 고유값-고유벡터 분해(eigenvalue-eigenvector decomposition)
통계자료의 탐색적 분석(EDA) 163 2. 고유값-고유벡터 분해(eigenvalue-eigenvector decomposition) 양정치 대칭행렬(positive definite symmetric matrix)의 고유값-고유벡터 분해 대칭행렬 가 양정치라고 하자 이것은, 길이 인 임의의 벡터 에 대하여 가 인 조건 만족 양정치 대칭행렬의 의 고유값-고유벡터 분해를 설명해 보자 우선, 인 경우에 대하여 그리고 행렬 가 대각행렬인 경우에 대하여 의 기하적 의미를 살펴보자. 의 역행렬 은 이므로 으로 표기하면 이 된다. 인 경우 이 타원의 장축의 길이가 이고 단축의 길이가 이며 장축과 단축은 직교한다. 즉, 은 과 가 클수록 크기가 큰 타원 방정식이 된다.
7
타원의 크기는 장축의 길이 과 단축의 길이 로 결정 되므로, 마찬가지로 그것들이 2 Ⅹ2행렬의 크기를 특성화 한다.
통계자료의 탐색적 분석(EDA) 164 타원의 크기는 장축의 길이 과 단축의 길이 로 결정 되므로, 마찬가지로 그것들이 2 Ⅹ2행렬의 크기를 특성화 한다. 만약, 양정치행렬 가 대각행렬이 아닌 경우에도 의 자취에 대하여 똑 같이 말할 수 있는가? 답은 ‘그렇다’ 타원의 장축 절반 길이와 단축 절반 길이의 제곱값이 행렬 의 고유값이다. 고유벡터란 장축과 단축의 방향을 나타낸다. 타원의 장축과 단축은 회전 후에도 직교 하므로 고유벡터끼리의 내적은 0이 된다. 인 경우로 확장하면 다음과 같다. ◎ 양정치 대칭행렬 의 크기는 개의 고유값으로 나타내어지며 개의 고유값은 타원체 의 개 축의 길이와 관련이 있다. ◎ 개 축의 방향을 결정하는 것은 각기 해당하는 고유벡터이다.고유벡터는 서로 직교 [정의] 를 만족하는 실수 를 양정치 대칭행렬 의 고유값(eigenvalue)이라고 하고 단위벡터 를 고유벡터(eigenvector) 라고 한다.
8
양정치 대칭행렬 의 경우 이와 같은 고유값과 고유벡터는 모두 개가 있으며 이들을 각각 와 라고 하면
통계자료의 탐색적 분석(EDA) 165 양정치 대칭행렬 의 경우 이와 같은 고유값과 고유벡터는 모두 개가 있으며 이들을 각각 와 라고 하면 의 관계에 있으며 고유벡터들은 서로 직교하게 된다. 즉 가 성립 대칭행렬 의 고유값-고유벡터 분해 또는 여기서, 고유벡터들을 열로하는 행렬 는 를 만족하는 직교행렬 미니탭을 이용하여 2Ⅹ2행렬 의 고유값-고유벡터 분해를 구하자.
9
Calc > Matrices > Read… Calc > Matrices > Eigen Analysis…
통계자료의 탐색적 분석(EDA) 166 우선 행렬을 만들자 고유값-고유벡터의 분해 Calc > Matrices > Read… Calc > Matrices > Eigen Analysis… 고유값과 고유벡터 <고유벡터> <고유값> Matrix M C1
10
상관계수 행렬을 이라고 할 때 이 행렬을 이용한 2차원(저차원) 평면상에
통계자료의 탐색적 분석(EDA) 167 3. 상관도 상관계수 행렬을 이라고 할 때 이 행렬을 이용한 2차원(저차원) 평면상에 개 변량 간의 상관관계를 잘 나타내도록 할 수 없을 까? Gabriel(1971)에 의하여 개발된 상관도(correlation plot ; 주성분 행렬도 : principle component biplot)방법을 설명 양정치 대칭행렬 을 고유값-고유벡터 분해식으로 표현 로 표현이 된다. 여기서 는 의 고유값 을 대각원소로 하는 대각행렬이고 는 고유벡터를 각 열로 하는 직교행렬이다. 만약, 처음 두 고유값 과 이 나머지 고유값들에 비하여 상당히 크다면 로 근사된다.
11
내적 = 크기 * 크기 * cosine 두 벡터 사이의 각이 작을수록 높은 상관관계
통계자료의 탐색적 분석(EDA) 168 라고 놓으면 (즉 ) 이다. 여기서 행렬 는 로 정의된다. 따라서, 변량 와 사이의 상관계수 는 내적으로 계산(근사) 내적 = 크기 * 크기 * cosine 두 벡터 사이의 각이 작을수록 높은 상관관계 미니탭을 이용한 상관도 작성 행렬 를 구해보자.
12
고유벡터가 행렬 M2(=V)에 만들어져 들어간다. 즉, M1=M2Ⅹdiag(C10)ⅩM2’ 이 된다.
통계자료의 탐색적 분석(EDA) 169 상관계수 행렬이 M1에 입력되어 있다면 ① Calc > Matrices > Eigen Analysis…. 명령어에 의하여 M1(=R)의 고유값이 열 C10에, 고유벡터가 행렬 M2(=V)에 만들어져 들어간다. 즉, M1=M2Ⅹdiag(C10)ⅩM2’ 이 된다. ② 다음으로 미니탭 명령어 Calc > Calculator… 에 의하여 열 C11에 열 C10의 제곱근 값을 저장 ( ) ③ Calc > Matrices > Diagonal… 에 의하여 열 C11의 각 값을 대각요소로 하는 대각행렬 M3를 만들고 ④ Calc > Matrices > Copy… 에 의하여 두 행렬 M2, M3를 곱하여 행렬 M4를 만들면 이것이 바로 행렬 H(9Ⅹ9) ⑤ Calc > Matrices > Copy… 명령어를 사용하여 행렬 M4의 9개 열의 원소를 각각 9개 열 C21, C22, , C28, C29로 복사해서 저장 이에 따라 처음 두 열 C21과 C22에 과 를 만들러 넣을 수 있다. 이것을 플롯한 것이 상관도인 <도표 7>이다.
13
<도표 7> 유럽 25개국 단백질 섭취원(변량)들의 상관도
통계자료의 탐색적 분석(EDA) 170 <도표 7> 유럽 25개국 단백질 섭취원(변량)들의 상관도 ① 변량 1(쇠고기), 변량 4(우유), 변량 3(계란), 변량 2(돼지, 닭고기) 축산업 ② 변량 6(곡식), 변량 8(콩, 견과), 변량 9(과일, 채소) 밭농사 ③ 변량 5(생선), 변량 7(전분) 농,어업 혼합형 상관행렬 M1의 고유값중 2개는 ( )/9=60.2%이다.
14
다중회귀(multiple regression)이란
통계자료의 탐색적 분석(EDA) 171 4. 저항성 다중 선형회귀 다중회귀(multiple regression)이란 어느 한 변량의 예측 또는 설명을 위하여 이 변량에 영향을 줄 것으로 생각되는 다른 여러 변량들을 이용하는 통계적 분석기법 저항성 직선 회귀를 2개 이상의 설명변량(=독립변량)으로 반응변량(=종속변량)을 설명하는 것 (sweeping 방법을 이용한 저항성 다중 선형회귀 적합) <자료를 이용한 예 : stack loss dataset> 3개의 설명변량 AIR, TEMP, ACID와 1개의 종속변량 LOSS로 구성 이들 변수들은 암모니아(NH3)를 산화하여 질산(HNO3)을 만드는 화학 공정에 관한 것 X1 = AIR = 공기흐름(속도) X2 = TEMP = 냉각수 온도 X3 = ACID = 질산의 농축도 Y = LOSS = 암모니아 비수거분(손실분, %)
15
자료분석의 목적 및 적합 방법(sweeping)
통계자료의 탐색적 분석(EDA) 172 자료분석의 목적 및 적합 방법(sweeping) : 변량 LOSS(=Y)가 변량 AIR(=X1), TEMP(=X2), ACID(=X3)에 의하여 어떤 영향을 받는가 => 모든 설명변수를 동시에 적합시키지 않고 선형관계가 가장 높은 변수 하나씩 적합 => 각 설명변량과 종속변량 사이의 산점도 LOSS x - x x x 24+ x x - x - 4 AIR Y와 X1과의 저항성 직선식 Y= X1+Y.1 Y.1 : X1 변수만 적합시키 고 남은 잔차
16
173 Y와 X2과의 저항성 직선식 Y=4.78+0.2778X2+Y.2 Y와 X3과의 저항성 직선식
통계자료의 탐색적 분석(EDA) 173 LOSS x - x x x 24+ x x 2 x x x x x TEMP Y와 X2과의 저항성 직선식 Y= X2+Y.2 LOSS x - x x x 24+ x x x x x x x x x - x x x x ACID Y와 X3과의 저항성 직선식 Y= X3+Y.3
17
중복되는 부분을 제외한 즉, 순수한 X2.1 또는 X3.1 을 찾는다
통계자료의 탐색적 분석(EDA) 174 1. Y와 X1과의 저항성 직선식 : Y = X1 + Y.1 2. Y.1 과 X2 또는 X3 와 관계 X2 또는 X3 에는 X1 과 중복되는 부분 남아있다 중복되는 부분을 제외한 즉, 순수한 X2.1 또는 X3.1 을 찾는다 저항성 직선을 계산 : X2 = X1 + X2.1 X3 = X1 + X3.1 3. Y.1 과 X2.1 , Y.1 과 X3.1 사이의 산점도 확인, 저항성 직선 계산 : Y.1 = X2.1 + Y.12 , Y.12 는 적합후 남은 잔차 4. Y.12 와 X3 와의 관계는 단계 2 처럼 순수한 X3.12 를 사용 : X3.1 = X2.1 + X3.12 5. Y.12 와 X3.12 사이의 산점도 확인, 저항성 직선 : Y.12 = a + bX Y.123
18
Y = -43.53 + 0.80X1 + 0.60X2 + Y.12 : 최종적인 저항적인 회귀식
통계자료의 탐색적 분석(EDA) 175 모든 과정을 정리하면 Y = X1 + Y.1 에서 Y.1 = X2.1 + Y.12 , X2 = X1 + X2.1 각각 대입하면 Y = X X2 + Y.12 : 최종적인 저항적인 회귀식 , Y.12 는 잔차 r , = X X2
19
5. 최소제곱법에 의한 스위핑(sweeping) 최소제곱법에 의한 다중선형회귀에서
통계자료의 탐색적 분석(EDA) 176 5. 최소제곱법에 의한 스위핑(sweeping) 최소제곱법에 의한 다중선형회귀에서 A) 단순 선형회귀의 알고리즘을 사용하는 방법(sweeping) B) 다중 선형회귀의 표준적인 방법 첫째 방법 A 앞의 자료를 이용한 다중 회귀분석을 시도, 저항적인 방법의 결과 동일한 모형을 사용하여 을 적합하여 보자 ① i) Y를 X1에 최소제곱 회귀시켜보자. 그 결과 최소제곱 회귀식은 Y = X1 + Y.1 ii) X2를 X1에 최소제곱 회귀시켜 보자. 그 결과 최소제곱 회귀식은 X2 = X1 + X2.1 ② Y.1을 X2.1에 최소제곱 회귀시켜 보자. 그 결과 최소제곱 회귀식은 Y.1 = X2.1 + Y.12
20
177 위의 단계별 결과 ① 과 ②를 종합하여 보면 Y = -44.132 + 1.0203X1 + Y.1
통계자료의 탐색적 분석(EDA) 177 위의 단계별 결과 ① 과 ②를 종합하여 보면 Y = X1 + Y.1 = X1 + (1.2954X2.1 + Y.12) = X (X2 – – X1) + Y.12 = X X2 + Y.12 두번째 방법 B 이 방법에 따른 의 해는 잘 알려진대로 를 최소화 시켜서 얻게 된다. = X X2
21
다중 저항성 회귀에 의한 잔차와 최소제곱 회귀에 의한 잔차 비교
통계자료의 탐색적 분석(EDA) 178 다중 저항성 회귀에 의한 잔차와 최소제곱 회귀에 의한 잔차 비교 제곱잔차 절대값 잔차 중위수 평균 합 다중 저항성 잔차 r : 최소제곱 잔차 e :
22
⊙ 스피어만 상관계수 는 순위(rank)를 이용하여 구하는 데 특이값에 대하여 저항적 반면 피어슨의 상관계수 는 그렇지 않다.
통계자료의 탐색적 분석(EDA) 179 6. 요약 ⊙ 스피어만 상관계수 는 순위(rank)를 이용하여 구하는 데 특이값에 대하여 저항적 반면 피어슨의 상관계수 는 그렇지 않다. ⊙ 상관계수 행렬의 고유값-고유벡터 분해를 통하여 상관도를 그릴 수 있다. 변량들 사이의 상관계수는 상관도에서 변량점 벡터간의 내적으로 근사 두 변량점이 원점을 중심으로 이루는 사이각이 작은 경우 두 변수량간의 상관이 크다 ⊙ 다중 선형회귀에서 저항성이 있는 회귀 적합(sweeping) ① i) 종속변량 Y와 설명변량 X1 , , Xp의 각각의 산점도를 그린다. 그 중 Y와 가장 강한 선형관계를 갖는 변량 하나 선택 그 변량을 표기의 편의상 X1이라고 하자 ii) Y와 X1과의 회귀식을 구하고 잔차 Y.1을 구한다 마찬가지로 Xj 를 X1으로 회귀시키고 잔차 Xj.1을 구한다. (j=2, ,p)
23
② i) 종속변량 Y.1과 설명변량 X2.1, ,Xp.1의 각각의 산점도를 그려보고 그 중
통계자료의 탐색적 분석(EDA) 180 ② i) 종속변량 Y.1과 설명변량 X2.1, ,Xp.1의 각각의 산점도를 그려보고 그 중 Y.1과 가장 강한 선형관계를 갖는 변량 하나를 선택한다. 그 변량을 표기의 편의상 X2.1이라고 하자. ii) Y.1과 X2.1과의 회귀식을 구하고 잔차 Y.12를 구한다 마찬가지로 Xj.1을 X2.1으로 회귀하고 잔차 Xj.12를 구한다.(j=3, ,p) ③ i) 종속변량 Y.12와 설명변량 X3.12, ,Xp.12의 각각의 산점도를 그려보고 그 중 Y.12와 가장 강한 선형관계를 갖는 변량 하나를 선택한다 그 변량을 표기의 편의상 X3.12라고 하자 ii) Y.12와 X3.12와의 회귀식을 구하고 잔차 Y.123를 구한다. 마찬가지로 Xj.12를 X3.12로 회귀하고 잔차 Xj.123를 구한다(j=4, ,p) ④ 이상의 방법을 거듭하여 Y와 X1과의 회귀식과 잔차 Y.1, Y.1과 X2.1과의 회귀식과 잔차 Y.12, Y.12와 X3.12와의 회귀식과 잔차 Y.123, 을 구할 수 있게 되는데 이것을 종합하여 Y를 X1, ,Xp에 회귀시킨 회귀 적합식과 잔차 Y p를 계산할 수 있게 된다.
Similar presentations