제 9 장 2변량 자료의 탐색적 분석 왜 그래프를 쓰는가? 그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문

Slides:



Advertisements
Similar presentations
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
Advertisements

1. 2 차원 배열  배열은 동일한 데이터 유형으로 여러 개의 변수를 사용할 경우 같은 이 름으로 지정하여 간편하게 사용할 수 있도록 하는 것으로서 앞에서 1 차원 배열을 공부하였습니다.  2 차원 배열은 바둑판을 생각하면 되며, 1 차원 배열에서 사용하는 첨자를 2.
1. 도형의 연결 상태 2. 꼭지점과 변으로 이루어진 도형 Ⅷ. 도형의 관찰 도형의 연결상태 연결상태가 같은 도형 단일폐곡선의 성질 연결상태가 같은 입체도형 뫼비우스의 띠.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
재료수치해석 HW # 박재혁.
제 7 장 함수 사용을 통해 엑셀 정복하기.
구간추정 (Interval Estimation)
제 12 장 직교배열표에 의한 실험계획(1).
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
컴퓨터 프로그래밍 기초 [Final] 기말고사
제12주 회귀분석 Regression Analysis
전자기적인 Impedance, 유전율, 유전 손실
Chapter 02 순환 (Recursion).
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
Multimedia Programming 10: Point Processing 5
상관함수 correlation function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
제4장 제어 시스템의 성능.
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
프로그래밍 개요
군집 분석.
제 10 장 다변량 자료의 탐색적 분석 산점도 행렬과 상관계수 행렬
문제 2명의 사형수가 있다. 둘에게는 검정색 모자와 흰색 모자를 임의로 씌우는데, 자기가 쓴 모자의 색은 절대로 알 수가 없다. 서로 상대의 모자색만을 볼 수 있고, 이들이 살기 위해선 자신의 쓴 색의 모자를 맞춰야 한다. 단, 둘 중 한명만이라도 자신이 쓴 모자의 색을.
(independent variable)
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
Clipping 이진학.
고체역학 2 - 기말고사 1. 단면이 정사각형이고 한번의 길이가 a 일 때, 최대굽힘응력과 최대전단응력의 비를 구하라(10).
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
위치 에너지(2) 들어 올리기만 해도 에너지가 생겨. 탄성력에 의한 위치 에너지.
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
⊙ 이차방정식의 활용 이차방정식의 활용 문제 풀이 순서 (1)문제 해결을 위해 구하고자 하는 것을 미지수 로 정한다.
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
끓는점을 이용한 물질의 분리 (1) 열 받으면 누가 먼저 나올까? 증류.
미분방정식.
알고리즘 알고리즘이란 무엇인가?.
에어 PHP 입문.
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
비열.
원의 방정식 원의 방정식 x축, y축에 접하는 원의 방정식 두 원의 위치 관계 공통접선 원과 직선의 위치 관계
Chapter 1 단위, 물리량, 벡터.
1. 접선의 방정식 2010년 설악산.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
Static과 const 선언 조 병 규 한 국 교 통 대 학 교 SQ Lab..
전하량 보존 항상 일정한 양이지! 전류의 측정 전하량 보존.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
콘크리트(산업)기사 실기 작업형 시험 대비 동영상포함
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
문제의 답안 잘 생각해 보시기 바랍니다..
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
7 생성자 함수.
Presentation transcript:

제 9 장 2변량 자료의 탐색적 분석 139 1. 왜 그래프를 쓰는가? 그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문 통계자료의 탐색적 분석(EDA) 139 제 9 장 2변량 자료의 탐색적 분석 1. 왜 그래프를 쓰는가? 그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문 상관계수 두 변수간의 관계에 관한 대표적인 수치요약 2차원 자료 라고 할 때 상관계수는 자료를 효과적으로 축약 상관계수는 두 변수 자료에 대하여 충분한 정보를 갖고 있지 못하다 2변량 자료의 분석에 있어서 그래프를 쓰지 않고 수치요약에만 의존한다면 자료 의 중요한 특성을 파악하지 못함 Stat > Basic Statistics > Correlation…

두 변수 X와 y간의 관계를 알고자 하는 분석의 목적 통계자료의 탐색적 분석(EDA) 140 2. 2변량 자료분석의 목적 두 변수 X와 y간의 관계를 알고자 하는 분석의 목적 ① 두 변수 X와 Y가 호환적(exchangeable)인 경우, 그 연관성을 측정하고자 한다. 상관분석(correlation analysis) ② 어떤 한 변수 Y가 다른 한 변수 X에 의존적(dependent)인 관계를 갖는 경우, 그 관계식을 도출하고자 한다. 즉, ( 은 오차) 에서 함수 를 찾아내는 것이 목적이다. 이 경우에는 변수 Y를 세로축, 변수 X를 가로축으로 두는 것이 보통이다. 회귀분석(regression analysis) <도표 3> : 미국의 대입학력고사(수리능력 점수와 언어능력 점수의 산점도) 상관계수 = 0.275 <도표 4> : 학력고사 점수와 대학평균 학점 GPA를 SAT에 회귀시킨 적합 직선을 구하는 방법

<도표 5> : 서울 시내 어느 고등학교에서 공통과목(국어, 영어, 수학등)성적이 비슷한 통계자료의 탐색적 분석(EDA) 141 3. 산점도에서 볼 수 있는 것 <도표 5> : 서울 시내 어느 고등학교에서 공통과목(국어, 영어, 수학등)성적이 비슷한 37쌍의 학생들의 독어성적과 불어점수의 플롯 만약, 두 외국어(선택과목) 시험의 난이도가 동일하다면 자료점들은 y=x 직선을 중심으로 퍼지게 된다. 그런데, 이 플롯에서는 어떠한가? 자료점들이 대부분 y ≽ x 인 영역에 위치함으로 독일어 시험이 불어 시험 보다 쉬웠음을 플롯을 통하여 알 수 있다. <도표 6> : 자동차 52종의 배기량과 연료효율에 관한 자료 자동차의 배기량이 클수록 연료효율이 떨어지는 것은 당연 동일한 배기량으로 보다 나은 연료효율을 갖는 자동차를 개발하는것이 목표 산점도에서 관찰하여야 할 한가지 사항은 소수 군집의 존재여부 소수 군집이 존재한다면 그 이유를 탐구하여 볼 필요가 있다 (특이점도 소수 군집의 한 예이다)

<도표 7> : 어느 회사에서 근무하는 27명의 40대 남자 사원들의 교육 년수와 월 수입의 자료(가공한 자료) 통계자료의 탐색적 분석(EDA) 142 <도표 7> : 어느 회사에서 근무하는 27명의 40대 남자 사원들의 교육 년수와 월 수입의 자료(가공한 자료) 자료의 크기는 27인데 플롯에서는 13개의 점만이 나타난다. 여러자료의 겹쳐있는 것을 시각적으로 분석하기는 어렵다 교육변수는 1 간격이고, 월 수입은 10 간격이다. 이에 대한 어떤 해결책이 있을까? <도표 8> : <도표 7>의 질문의 해답이다. 이 플롯에 사용된 자료는 원 자료가 아니라 교육년수 교육년수 + 월 수입 월 수입 + 는 구간 (-0.5,+0.5)에서의 균일분포로부터의 난수

<도표 9> : 두 산점도는 앞의 <도표 6>에서의 자료를 각기 다른 척도로 다시 플롯 통계자료의 탐색적 분석(EDA) 143 4. 유의사항 <도표 9> : 두 산점도는 앞의 <도표 6>에서의 자료를 각기 다른 척도로 다시 플롯 ②의 플롯이 보다 강한 두 변수간의 연관성을 갖는다고 생각 즉, 가로와 세로를 같게 하여 플롯을 그릴 것 <도표 10> : 시계열 플롯에서는 가로와 세로의 비를 갖게 하는 것이 꼭 원칙이라 할 수 없다. ①의 시도표(time plot)에서는 가로와 세로의 길이가 같게 되어 있어 약간 산만해 보인다 ②의 시도표에서는 ①의 시도표보다 작지만 오히려 이 시계열의 특성인 주기성을 뚜렷이 볼 수 있다. 미니탭에서 시도표를 작성하는 데 쓰이는 명령어는 Graph > Character Graphs > Time Series Plot….

Too flexible (Over-fitting) Not flexible enough (Under-fitting)

산점도 평활(scatterplot smoothing)의 뼈대를 구성 하는 두 요인은 윈도우(window)와 통계자료의 탐색적 분석(EDA) 144 5. 윈도우, 가중 최소제곱법 및 LOWESS 산점도 평활(scatterplot smoothing)의 뼈대를 구성 하는 두 요인은 윈도우(window)와 가중 최소제곱법(weighted least squares method) 이라 할 수 있다. 윈도우란 <도표 11> : 스캐터 플롯의 일부만을 볼 수 있게 열어 놓은 창틀을 의미 한 개체의 X변수값을 중심으로 열리게 되며 그 윈도우에서 어떤 계산을 마치면, 또 다음 개체의 X변수값을 중심으로 가능한 대칭 적으로 열리게 된다. 가중 최소 제곱법이란 자료가 값에 의하여 정렬되어 있다고 가정하고 (즉, ), 한 윈도우에 포함된 자료점들을 라고 하자. 이 윈도우의 중심개체는 인데 논의를 간단히 하기 위하여 우선 <도표 11>의 ①에서와 같이 왼 쪽과 오른 쪽에 각각 개의 개체를 두는 경우를 생각하기로 하고, 이렇게 생긴 개 점에

라는 한 직선에 회귀시켜 에서 적합값을 구하기로 하자 이 때 회귀계수 와 를 어떻게 얻을 것인가? 통계자료의 탐색적 분석(EDA) 145 라는 한 직선에 회귀시켜 에서 적합값을 구하기로 하자 이 때 회귀계수 와 를 어떻게 얻을 것인가? 방법은 보통 최소제곱법으로 알고 있고 을 최소화 하는 것 지금 우리의 관심사는(즉, 윈도우의 중심인 에서 적합값을 구하는 것)를 적절히 고려한 것이라 보기 어렵다. 이것 보다는 윈도우내의 개체 중에서 중앙에 가까울 수록 큰 가중치를 주는 것이 좋다. 즉, 윈도우내의 개체들 에 다음과 같은 가중치를 두는 것이 바람직 가중치를 각 개체에 부여한 다음 회귀계수 와 를 추정하기 위하여 적용할 수 있는 방법은 가중 최소제곱(weighted least squares : WLS)법이다. 즉, 을 최소화하여 윈도우 내에서의 회귀계수 와 를 구하자.

를 풀어 얻어질 수 있는데 이것을 간단히 행렬을 사용하여 표현 하면 통계자료의 탐색적 분석(EDA) 146 WLS의 해는 를 풀어 얻어질 수 있는데 이것을 간단히 행렬을 사용하여 표현 하면 가 된다. 여기서 이고 는 대각행렬 이다. 이렇게 하고 나서 최종적으로 에서의 적합값 를 그 점에서의 산점도 평활값 로 한다.

이제까지의 윈도우 안에 개의 개체가 포함되는 경우를 생각하였는 데 <도표 11>의 통계자료의 탐색적 분석(EDA) 147 이제까지의 윈도우 안에 개의 개체가 포함되는 경우를 생각하였는 데 <도표 11>의 ②에서 처럼 한 쪽의 자료점을 충분히 확보할 수 없는 경우는 어떻게 되는가? 이 때는 윈도우 내에서 쓸 수 있는 개체만을 활용하는 수 밖에 없다. 가중치의 부여방식은 앞에서와 동일하다. 가령 마지막 점 이 윈도우의 중앙이 되는 경우에는 윈도우 내의 개체들 각각에 가중치 가 부여된다. 그리고, 이 때 에서의 산점도 평활값은 이다. 여기서 과 은 윈도우 내에서의 자료로부터 계산되는 가중최소제곱 추정치 이렇게 하여 개체의 값을 중심으로 윈도우를 만들고 그 점에서의 선형 회귀 적합값을 가중최소제곱법을 사용하는 과정을 모든 개체에서 수행하면 개의 산점도 평활점 이 점들을 연결하면 자연스러운 곡선이의 형태가 표출 LOWESS(locally weighted regression scatterplot smoothing)방법 이라고 한다.

LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀곡선을 얻게 되고 통계자료의 탐색적 분석(EDA) 148 LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀곡선을 얻게 되고 LOWESS 방법에서 윈도우의 너비 를 너무 크게 잡으면 밋밋한 회귀곡선을 얻게 된다 처음시도에서는 너비 를 자료수 의 1/3에서 2/3 사이에서 잡는 것이 보통 6. 미니탭의 매크로 기능과 활용 매크로(macro) : 어떤 계산의 반복시 사용하는 알고리즘을 한 서브루틴에 모아놓고 그것을 필요한 때마다 불러서 사용하는 것 확장자는 반드시 ‘mtb’로 저장 두 확률변수 과 가 각각 (-1, +1)구간에서 균일분포를 독립적으로 따를 때 확률변수 가 어떤 확률분포를 따르는지 모의 실험 (수학적 정답은 (-1, +1)에서의 대칭 삼각형 분포(symmetric triangular distribution)). 매크로를 이용하여 알아보자.

‘시작 > 프로그램 > 보조프로그램 > 메모장’ ==>> ‘파일 > 저장’ 통계자료의 탐색적 분석(EDA) 149 [미니탭의 활용] ‘시작 > 프로그램 > 보조프로그램 > 메모장’ ==>> ‘파일 > 저장’ ‘MTB > let k1=1’을 수행하여 상수 k1dml 초기값을 1로 지정 File > Other Files > Run an Exec… 파일 name의 확장자를 *.mtb

자료는 자동차의 배기량과 연료효율에 관한 자료 이 자료를 이용하여 LOWESS방법을 적용하여 회귀곡선을 구하여 보자 통계자료의 탐색적 분석(EDA) 150 7. 미니탭을 이용한 LOWESS 적용사례 자료는 자동차의 배기량과 연료효율에 관한 자료 이 자료를 이용하여 LOWESS방법을 적용하여 회귀곡선을 구하여 보자 준비작업 : ① 자료를 C2의 순서로 정렬(sort)한다 ② 홀수 길이의 가중치 함수를 C4에 입력한다. 여기서는 다음과 같이 대칭 삼각형 가중치를 쓰기로 한다. (예 : C4 = (1,2,3,…,9,10,9,…,3,2,1)’) ③ 자료길이의 1 벡터를 C5에, 0 백터를 C6에 만들어 넣는다. ④ 마지막으로 상수 k1=1로 놓는다.

자료(Data) 자료의 정렬 Manip > Sort … 통계자료의 탐색적 분석(EDA) 151 [미니탭 활용] 자료(Data) 자료의 정렬 Manip > Sort … 가중치 함수를 C4에 입력 Calc > Make Patterned Data > Arbitrary Set of Numbers…

Calc > Make Patterned Data > Arbitrary Set of Numbers… 통계자료의 탐색적 분석(EDA) 152 C5에 자료길이의 1 벡터를, C6에 0 벡터 생성 Calc > Make Patterned Data > Arbitrary Set of Numbers… 배기량과 연료효율의 산점도 - - x 32.0+ - x C3 - x x x - x x x 24.0+ 3 - 2 x 2 - 2 2 2 - 7 x - 24 xx x 16.0+ x x x x - 4 2 x - 2 --+---------+---------+---------+---------+---------+----C2 70 140 210 280 350 420

Session 창에서 ‘MTB> let k1=1’을 수행 통계자료의 탐색적 분석(EDA) 153 Session 창에서 ‘MTB> let k1=1’을 수행 File > Other Files > Run an Exec… 명령어 수행

☞ 산점도는 두 변수 사이의 관계를 효율적으로 보여 주는 그래프 수치요약은 불충분한 자료축약을 나타낼 수도 있다. 통계자료의 탐색적 분석(EDA) 155 8. 요약 ☞ 산점도는 두 변수 사이의 관계를 효율적으로 보여 주는 그래프 수치요약은 불충분한 자료축약을 나타낼 수도 있다. ☞ 두 변수의 관계는 그 성격에 따라 두 종류로 분류 ① 두 변수가 호환적(exchangeable)인 경우( 상관분석) ② 어떤 한 변수가 다른 한 변수에 의존적(dependent)인 관계의 경우 ( 회귀분석) ☞ 두 변수가 호환적인 경우, 산점도는 2변량 결합확률밀도함수의 추정치로 생각 확률밀도가 높은 영역에서 많은 자료점들이 조밀하게 찍히고 확률밀도가 낮은 영역 에서는 자료점들이 드문드문 찍히거나 전혀 찍히지 않는다. ☞ 산점도에서 관찰하여야 할 한가지 사항은 소수군집의 존재여부 소수군집이 존재한다면 왜 그런 군집이 생겼는지 그 이유를 탐구해야 함. 특이점도 소수군집의 한 예 ☞ 원자료의 섭동을 통하여 숨어있는 자료점을 바깥에 드러나도록 할 수 있다. 해당 변량의 마지막 유의숫자의 단위를 s라고 할 때, 자료를 섭동 하는 방법은 구간 (-s/2,+s/2)에서 균일분포를 따르는 난수를 원자료 값에 붙여 주는 것이다. 섭동자료를 반올림(반내림)하면 다시 원자료값이 된다.

☞ 산점도를 작성할 때 가급적 가로와 세로의 크기를 같게 하고 적당한 크기의 좌우상하 통계자료의 탐색적 분석(EDA) 156 ☞ 산점도를 작성할 때 가급적 가로와 세로의 크기를 같게 하고 적당한 크기의 좌우상하 여백을 두는 것이 좋다. 그러나, 시계열 자료의 플롯에서는 예외이다. ☞ 산점도 평활기법인 LOWESS는 비모수적 곡선형의 회귀관계를 자료 스스로가 보여주 도록 유도한다. 따라서, LOWESS를 비모수적 회귀 평활(non-parametric regression smoother)라고 할 수 있다. ☞ 자료의 일부를 보여주는 창틀인 윈도우(window)는 국소적 패턴(local pattern)을 추정하기 위한 수단으로 사용된다. 윈도우내에서는 중앙에 가까운 관측개체에 상대적 으로 큰 가중치를 부여하고 중앙에서 먼 관측개체에는 상대적으로 작은 관측치를 부여한다. 가중 최소제곱 회귀 방법으로 한 윈도우의 중앙에서 적합값을 계산하게 되고 이러한 국소적 패턴을 종합하여 LOWESS 평활곡선이 만들어 진다. ☞ LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀 곡선을 얻게 되고 반대로 너무 크게 잡으면 밋밋한 회귀곡선을 얻게 되므로 여러 개의 너비를 시도하여 보고 적당한 너비 를 선택하여야 한다. 자료수 의 1/3에서 2/3사이에서 처음 시도에서 쓸 너비 를 잡아보는 것이 보통이다.

☞ 미니탭의 매크로 기능을 사용하면 효율적으로 반복계산을 할 수 있다. 저장시 확장자를 mtb로 하여야 함. 통계자료의 탐색적 분석(EDA) 157 ☞ 미니탭의 매크로 기능을 사용하면 효율적으로 반복계산을 할 수 있다. 저장시 확장자를 mtb로 하여야 함. File > Other Files > Run an Exec…를 실행 ☞ 특이점의 탐색이 자료분석의 중요한 목적인 경우가 있으므로, EDA에서는 적합값 뿐만 아니라 잔차에도 관심을 두어야 한다는 것을 잊지 말자. LOWESS 적합 후 잔차분석을 통하여 특이한 사항을 알아내자.