제 9 장 2변량 자료의 탐색적 분석 139 1. 왜 그래프를 쓰는가? 그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문 통계자료의 탐색적 분석(EDA) 139 제 9 장 2변량 자료의 탐색적 분석 1. 왜 그래프를 쓰는가? 그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문 상관계수 두 변수간의 관계에 관한 대표적인 수치요약 2차원 자료 라고 할 때 상관계수는 자료를 효과적으로 축약 상관계수는 두 변수 자료에 대하여 충분한 정보를 갖고 있지 못하다 2변량 자료의 분석에 있어서 그래프를 쓰지 않고 수치요약에만 의존한다면 자료 의 중요한 특성을 파악하지 못함 Stat > Basic Statistics > Correlation…
두 변수 X와 y간의 관계를 알고자 하는 분석의 목적 통계자료의 탐색적 분석(EDA) 140 2. 2변량 자료분석의 목적 두 변수 X와 y간의 관계를 알고자 하는 분석의 목적 ① 두 변수 X와 Y가 호환적(exchangeable)인 경우, 그 연관성을 측정하고자 한다. 상관분석(correlation analysis) ② 어떤 한 변수 Y가 다른 한 변수 X에 의존적(dependent)인 관계를 갖는 경우, 그 관계식을 도출하고자 한다. 즉, ( 은 오차) 에서 함수 를 찾아내는 것이 목적이다. 이 경우에는 변수 Y를 세로축, 변수 X를 가로축으로 두는 것이 보통이다. 회귀분석(regression analysis) <도표 3> : 미국의 대입학력고사(수리능력 점수와 언어능력 점수의 산점도) 상관계수 = 0.275 <도표 4> : 학력고사 점수와 대학평균 학점 GPA를 SAT에 회귀시킨 적합 직선을 구하는 방법
<도표 5> : 서울 시내 어느 고등학교에서 공통과목(국어, 영어, 수학등)성적이 비슷한 통계자료의 탐색적 분석(EDA) 141 3. 산점도에서 볼 수 있는 것 <도표 5> : 서울 시내 어느 고등학교에서 공통과목(국어, 영어, 수학등)성적이 비슷한 37쌍의 학생들의 독어성적과 불어점수의 플롯 만약, 두 외국어(선택과목) 시험의 난이도가 동일하다면 자료점들은 y=x 직선을 중심으로 퍼지게 된다. 그런데, 이 플롯에서는 어떠한가? 자료점들이 대부분 y ≽ x 인 영역에 위치함으로 독일어 시험이 불어 시험 보다 쉬웠음을 플롯을 통하여 알 수 있다. <도표 6> : 자동차 52종의 배기량과 연료효율에 관한 자료 자동차의 배기량이 클수록 연료효율이 떨어지는 것은 당연 동일한 배기량으로 보다 나은 연료효율을 갖는 자동차를 개발하는것이 목표 산점도에서 관찰하여야 할 한가지 사항은 소수 군집의 존재여부 소수 군집이 존재한다면 그 이유를 탐구하여 볼 필요가 있다 (특이점도 소수 군집의 한 예이다)
<도표 7> : 어느 회사에서 근무하는 27명의 40대 남자 사원들의 교육 년수와 월 수입의 자료(가공한 자료) 통계자료의 탐색적 분석(EDA) 142 <도표 7> : 어느 회사에서 근무하는 27명의 40대 남자 사원들의 교육 년수와 월 수입의 자료(가공한 자료) 자료의 크기는 27인데 플롯에서는 13개의 점만이 나타난다. 여러자료의 겹쳐있는 것을 시각적으로 분석하기는 어렵다 교육변수는 1 간격이고, 월 수입은 10 간격이다. 이에 대한 어떤 해결책이 있을까? <도표 8> : <도표 7>의 질문의 해답이다. 이 플롯에 사용된 자료는 원 자료가 아니라 교육년수 교육년수 + 월 수입 월 수입 + 는 구간 (-0.5,+0.5)에서의 균일분포로부터의 난수
<도표 9> : 두 산점도는 앞의 <도표 6>에서의 자료를 각기 다른 척도로 다시 플롯 통계자료의 탐색적 분석(EDA) 143 4. 유의사항 <도표 9> : 두 산점도는 앞의 <도표 6>에서의 자료를 각기 다른 척도로 다시 플롯 ②의 플롯이 보다 강한 두 변수간의 연관성을 갖는다고 생각 즉, 가로와 세로를 같게 하여 플롯을 그릴 것 <도표 10> : 시계열 플롯에서는 가로와 세로의 비를 갖게 하는 것이 꼭 원칙이라 할 수 없다. ①의 시도표(time plot)에서는 가로와 세로의 길이가 같게 되어 있어 약간 산만해 보인다 ②의 시도표에서는 ①의 시도표보다 작지만 오히려 이 시계열의 특성인 주기성을 뚜렷이 볼 수 있다. 미니탭에서 시도표를 작성하는 데 쓰이는 명령어는 Graph > Character Graphs > Time Series Plot….
Too flexible (Over-fitting) Not flexible enough (Under-fitting)
산점도 평활(scatterplot smoothing)의 뼈대를 구성 하는 두 요인은 윈도우(window)와 통계자료의 탐색적 분석(EDA) 144 5. 윈도우, 가중 최소제곱법 및 LOWESS 산점도 평활(scatterplot smoothing)의 뼈대를 구성 하는 두 요인은 윈도우(window)와 가중 최소제곱법(weighted least squares method) 이라 할 수 있다. 윈도우란 <도표 11> : 스캐터 플롯의 일부만을 볼 수 있게 열어 놓은 창틀을 의미 한 개체의 X변수값을 중심으로 열리게 되며 그 윈도우에서 어떤 계산을 마치면, 또 다음 개체의 X변수값을 중심으로 가능한 대칭 적으로 열리게 된다. 가중 최소 제곱법이란 자료가 값에 의하여 정렬되어 있다고 가정하고 (즉, ), 한 윈도우에 포함된 자료점들을 라고 하자. 이 윈도우의 중심개체는 인데 논의를 간단히 하기 위하여 우선 <도표 11>의 ①에서와 같이 왼 쪽과 오른 쪽에 각각 개의 개체를 두는 경우를 생각하기로 하고, 이렇게 생긴 개 점에
라는 한 직선에 회귀시켜 에서 적합값을 구하기로 하자 이 때 회귀계수 와 를 어떻게 얻을 것인가? 통계자료의 탐색적 분석(EDA) 145 라는 한 직선에 회귀시켜 에서 적합값을 구하기로 하자 이 때 회귀계수 와 를 어떻게 얻을 것인가? 방법은 보통 최소제곱법으로 알고 있고 을 최소화 하는 것 지금 우리의 관심사는(즉, 윈도우의 중심인 에서 적합값을 구하는 것)를 적절히 고려한 것이라 보기 어렵다. 이것 보다는 윈도우내의 개체 중에서 중앙에 가까울 수록 큰 가중치를 주는 것이 좋다. 즉, 윈도우내의 개체들 에 다음과 같은 가중치를 두는 것이 바람직 가중치를 각 개체에 부여한 다음 회귀계수 와 를 추정하기 위하여 적용할 수 있는 방법은 가중 최소제곱(weighted least squares : WLS)법이다. 즉, 을 최소화하여 윈도우 내에서의 회귀계수 와 를 구하자.
를 풀어 얻어질 수 있는데 이것을 간단히 행렬을 사용하여 표현 하면 통계자료의 탐색적 분석(EDA) 146 WLS의 해는 를 풀어 얻어질 수 있는데 이것을 간단히 행렬을 사용하여 표현 하면 가 된다. 여기서 이고 는 대각행렬 이다. 이렇게 하고 나서 최종적으로 에서의 적합값 를 그 점에서의 산점도 평활값 로 한다.
이제까지의 윈도우 안에 개의 개체가 포함되는 경우를 생각하였는 데 <도표 11>의 통계자료의 탐색적 분석(EDA) 147 이제까지의 윈도우 안에 개의 개체가 포함되는 경우를 생각하였는 데 <도표 11>의 ②에서 처럼 한 쪽의 자료점을 충분히 확보할 수 없는 경우는 어떻게 되는가? 이 때는 윈도우 내에서 쓸 수 있는 개체만을 활용하는 수 밖에 없다. 가중치의 부여방식은 앞에서와 동일하다. 가령 마지막 점 이 윈도우의 중앙이 되는 경우에는 윈도우 내의 개체들 각각에 가중치 가 부여된다. 그리고, 이 때 에서의 산점도 평활값은 이다. 여기서 과 은 윈도우 내에서의 자료로부터 계산되는 가중최소제곱 추정치 이렇게 하여 개체의 값을 중심으로 윈도우를 만들고 그 점에서의 선형 회귀 적합값을 가중최소제곱법을 사용하는 과정을 모든 개체에서 수행하면 개의 산점도 평활점 이 점들을 연결하면 자연스러운 곡선이의 형태가 표출 LOWESS(locally weighted regression scatterplot smoothing)방법 이라고 한다.
LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀곡선을 얻게 되고 통계자료의 탐색적 분석(EDA) 148 LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀곡선을 얻게 되고 LOWESS 방법에서 윈도우의 너비 를 너무 크게 잡으면 밋밋한 회귀곡선을 얻게 된다 처음시도에서는 너비 를 자료수 의 1/3에서 2/3 사이에서 잡는 것이 보통 6. 미니탭의 매크로 기능과 활용 매크로(macro) : 어떤 계산의 반복시 사용하는 알고리즘을 한 서브루틴에 모아놓고 그것을 필요한 때마다 불러서 사용하는 것 확장자는 반드시 ‘mtb’로 저장 두 확률변수 과 가 각각 (-1, +1)구간에서 균일분포를 독립적으로 따를 때 확률변수 가 어떤 확률분포를 따르는지 모의 실험 (수학적 정답은 (-1, +1)에서의 대칭 삼각형 분포(symmetric triangular distribution)). 매크로를 이용하여 알아보자.
‘시작 > 프로그램 > 보조프로그램 > 메모장’ ==>> ‘파일 > 저장’ 통계자료의 탐색적 분석(EDA) 149 [미니탭의 활용] ‘시작 > 프로그램 > 보조프로그램 > 메모장’ ==>> ‘파일 > 저장’ ‘MTB > let k1=1’을 수행하여 상수 k1dml 초기값을 1로 지정 File > Other Files > Run an Exec… 파일 name의 확장자를 *.mtb
자료는 자동차의 배기량과 연료효율에 관한 자료 이 자료를 이용하여 LOWESS방법을 적용하여 회귀곡선을 구하여 보자 통계자료의 탐색적 분석(EDA) 150 7. 미니탭을 이용한 LOWESS 적용사례 자료는 자동차의 배기량과 연료효율에 관한 자료 이 자료를 이용하여 LOWESS방법을 적용하여 회귀곡선을 구하여 보자 준비작업 : ① 자료를 C2의 순서로 정렬(sort)한다 ② 홀수 길이의 가중치 함수를 C4에 입력한다. 여기서는 다음과 같이 대칭 삼각형 가중치를 쓰기로 한다. (예 : C4 = (1,2,3,…,9,10,9,…,3,2,1)’) ③ 자료길이의 1 벡터를 C5에, 0 백터를 C6에 만들어 넣는다. ④ 마지막으로 상수 k1=1로 놓는다.
자료(Data) 자료의 정렬 Manip > Sort … 통계자료의 탐색적 분석(EDA) 151 [미니탭 활용] 자료(Data) 자료의 정렬 Manip > Sort … 가중치 함수를 C4에 입력 Calc > Make Patterned Data > Arbitrary Set of Numbers…
Calc > Make Patterned Data > Arbitrary Set of Numbers… 통계자료의 탐색적 분석(EDA) 152 C5에 자료길이의 1 벡터를, C6에 0 벡터 생성 Calc > Make Patterned Data > Arbitrary Set of Numbers… 배기량과 연료효율의 산점도 - - x 32.0+ - x C3 - x x x - x x x 24.0+ 3 - 2 x 2 - 2 2 2 - 7 x - 24 xx x 16.0+ x x x x - 4 2 x - 2 --+---------+---------+---------+---------+---------+----C2 70 140 210 280 350 420
Session 창에서 ‘MTB> let k1=1’을 수행 통계자료의 탐색적 분석(EDA) 153 Session 창에서 ‘MTB> let k1=1’을 수행 File > Other Files > Run an Exec… 명령어 수행
☞ 산점도는 두 변수 사이의 관계를 효율적으로 보여 주는 그래프 수치요약은 불충분한 자료축약을 나타낼 수도 있다. 통계자료의 탐색적 분석(EDA) 155 8. 요약 ☞ 산점도는 두 변수 사이의 관계를 효율적으로 보여 주는 그래프 수치요약은 불충분한 자료축약을 나타낼 수도 있다. ☞ 두 변수의 관계는 그 성격에 따라 두 종류로 분류 ① 두 변수가 호환적(exchangeable)인 경우( 상관분석) ② 어떤 한 변수가 다른 한 변수에 의존적(dependent)인 관계의 경우 ( 회귀분석) ☞ 두 변수가 호환적인 경우, 산점도는 2변량 결합확률밀도함수의 추정치로 생각 확률밀도가 높은 영역에서 많은 자료점들이 조밀하게 찍히고 확률밀도가 낮은 영역 에서는 자료점들이 드문드문 찍히거나 전혀 찍히지 않는다. ☞ 산점도에서 관찰하여야 할 한가지 사항은 소수군집의 존재여부 소수군집이 존재한다면 왜 그런 군집이 생겼는지 그 이유를 탐구해야 함. 특이점도 소수군집의 한 예 ☞ 원자료의 섭동을 통하여 숨어있는 자료점을 바깥에 드러나도록 할 수 있다. 해당 변량의 마지막 유의숫자의 단위를 s라고 할 때, 자료를 섭동 하는 방법은 구간 (-s/2,+s/2)에서 균일분포를 따르는 난수를 원자료 값에 붙여 주는 것이다. 섭동자료를 반올림(반내림)하면 다시 원자료값이 된다.
☞ 산점도를 작성할 때 가급적 가로와 세로의 크기를 같게 하고 적당한 크기의 좌우상하 통계자료의 탐색적 분석(EDA) 156 ☞ 산점도를 작성할 때 가급적 가로와 세로의 크기를 같게 하고 적당한 크기의 좌우상하 여백을 두는 것이 좋다. 그러나, 시계열 자료의 플롯에서는 예외이다. ☞ 산점도 평활기법인 LOWESS는 비모수적 곡선형의 회귀관계를 자료 스스로가 보여주 도록 유도한다. 따라서, LOWESS를 비모수적 회귀 평활(non-parametric regression smoother)라고 할 수 있다. ☞ 자료의 일부를 보여주는 창틀인 윈도우(window)는 국소적 패턴(local pattern)을 추정하기 위한 수단으로 사용된다. 윈도우내에서는 중앙에 가까운 관측개체에 상대적 으로 큰 가중치를 부여하고 중앙에서 먼 관측개체에는 상대적으로 작은 관측치를 부여한다. 가중 최소제곱 회귀 방법으로 한 윈도우의 중앙에서 적합값을 계산하게 되고 이러한 국소적 패턴을 종합하여 LOWESS 평활곡선이 만들어 진다. ☞ LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀 곡선을 얻게 되고 반대로 너무 크게 잡으면 밋밋한 회귀곡선을 얻게 되므로 여러 개의 너비를 시도하여 보고 적당한 너비 를 선택하여야 한다. 자료수 의 1/3에서 2/3사이에서 처음 시도에서 쓸 너비 를 잡아보는 것이 보통이다.
☞ 미니탭의 매크로 기능을 사용하면 효율적으로 반복계산을 할 수 있다. 저장시 확장자를 mtb로 하여야 함. 통계자료의 탐색적 분석(EDA) 157 ☞ 미니탭의 매크로 기능을 사용하면 효율적으로 반복계산을 할 수 있다. 저장시 확장자를 mtb로 하여야 함. File > Other Files > Run an Exec…를 실행 ☞ 특이점의 탐색이 자료분석의 중요한 목적인 경우가 있으므로, EDA에서는 적합값 뿐만 아니라 잔차에도 관심을 두어야 한다는 것을 잊지 말자. LOWESS 적합 후 잔차분석을 통하여 특이한 사항을 알아내자.