기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석

Slides:



Advertisements
Similar presentations
모바일 시장 현황 경북대학교 혁신센터 김준영 김준영. 2 목차 하드웨어 시장11 서비스 제공 시장22 M-Solution 시장33 M-Contents 시장44 모바일 시장 현황.
Advertisements

SCG Loura Baek 1/ 장 주체별 운영전략 CEO, 그들은 브랜드다 기업 / 브랜드, 새로운 커뮤니케이션 방법에 적응하라 [ 공식 트위터나 미투데이의 효율적인 운영 팁 ] 연예인 / 공인, 진실하고 적극적인 만남이 필요하다 비영리 단체,
파리바게트의 기업이미지 주요 타겟 라이벌 기업 광고 방법 광고 INDEX 1. 파리바게트의 기업이미지 파리바게트 의 기 업이미 지 신선한 원료로 갓 만든 “ 건강한 빵 ” 프랑스의 지명 ’ 파리 ’ + 전통 빵 ’ 바게트 ’ 가 합쳐진 브랜드명 그 대로 유럽전통 베이커리에서.
 오산대학교 Page 1 주요 재무비율의 비교 ( 比較 ) 와 보완 ( 補完 ) 주요 재무비율의 비교 ( 比較 ) 와 보완 ( 補完 )
더불어 사는, 희망연대노동조합. 씨앤앰지부 / 케이블방송 비정규직 지부 ( 씨앤앰 ) / 케이블방송 비정규직 티브로드지부 / ktis 지부 / ktcs 지부 / 다산콜센터지부 / 더불어사는 지부 / 지역지부 준비모임 약 70 개 지회 ( 협력사 - 센터 - 지사 별로.
경영대학원 유통원론 대박네 막걸리집 쪽박네 막걸리집 유통원론 상권분석. I 삼천동 상권분석 Ⅲ 막걸리집 사업성공 요인 Index Ⅱ 막걸리집 분포현황 Ⅳ 막걸리 활성화 사업 ※ 별첨.
나의 꿈 화산초등학교 5 학년 4 반 8 번 이 상 천. 컴퓨터 네트워크에 들어가 스타크래프트나 피파와 같은 경쟁 게임 대회에 출전하는 사람을 말한다.
Steel 선물 옵션 분석 설민혁 윤재영 양승환 김서진 index 2. 최근 Steel 동향 3. 선물을 이용한 헤지비율 4. 이론적 옵션투자전략 4. 이론적 옵션투자전략 5. 옵션을 이용한 차익거래 1. Steel 선물 Review 6. 전망.
나만의 포인트 은행 Diversity Benefits, Best Choise EZ CRM EZ CRM 고객을 불러오는 신개념 CRM Service Draw Custom Service 대외비.
일 시 : (목) 장 소 : 문산종합사회복지관장) 파주시문산종합사회복지관 기관안내.
휴대폰인증서 서비스(Ubikey) ㈜인포바인
신문방송학과 고경섭 김문성 서용희 최다희 국제통상학과 유영
컴퓨터애니메이션 3장 이규민 김태일.
2015년도 6월 문산읍 기업인협의회 회의.
제3장 상황분석 Francis Bacon 자연을 지휘하려면 자연에 순응하라..
목 차 1. 회사개요 2. 회사연혁 3. 주요사업 4. 시스템 개요 5. 특징 및 기능 6. 시스템 구성도
01. 과업의 개요 공간적ㆍ시간적 범위 내용적 범위 과업의 기대효과
양구 미디어 컨텐츠 센터 사업계획서. mbc아카데미 주식회사
VM모바일뱅킹 가입방법 e-비즈니스부 / e-마케팅 담당 : 과장 이승아 ( )
면접 형태별 준비 및 대책.
스마트폰을 사려는데…
서비스 예절과 매너 페밀리 레스토랑 전화 채점표 조은경 장미.
인천대학교 모바일 학생증 시스템 메뉴얼
사 업 제 휴 제 안 서 Sep
안전한 먹을 거리 문화를 위한 청소년 의식조사 빈도수 & 백분율 분석 – 아침 식사 횟수와 매점 이용횟수 교차분석 –
판별분석의 개념과 적용(→ 추계통계적 성격)
Decision Tree 활용 사례 - YT세대의 이동통신사 선호도 조사분석 기말 프로젝트-
VIP 고객 관리를 위한 차별화 서비스 상품 제안
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
최소 자승 오차법 (Least Squares Method)
선형회귀분석.
통신서비스 시장현황과 정책방향 이 홍 재 (정보통신정책연구원)
논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원.
패턴인식 개론 Ch.11 주성분 분석법( PCA ).
                      모바일 센서스 조사 나윤정/(주)메트릭스 코퍼레이션
10초안에 전화를 건 고객의 마음을 사로잡는 비즈링의 매력!
발표, 토론 그리고 학술제 교육 : 황재원.
상관분석 (p , p ).
제 13장 예측이론.
서울아산병원 의학통계학과 울산의대 예방의학교실 이무송
일반물리 General Physics 2 장 일 차원 운동.
제Ⅲ부 생산능력계획 및 일정계획 제 8 장 수요예측 제 9 장 설비계획 제10장 총괄계획 제11장 일정계획
예원 아트 개그 콘서트 제안서 [ Proposal ] Present to 축제 사무국 제안 :예원 아트 컴퍼니
생명과학Ⅰ.
목차 INDEX 1. 회원가입 및 로그인 2. 업체정보 3. 제조검사 신청 4. 인보이스 5. 검사진행현황(현장검사 신청)
CDMA 정보통신공학과 주성환.
과목명 : 모바일 통신실무 학과명 : 마케팅 미디어과 지도교사 : 진선미
기초통계학 Chapter 5: 회귀분석 (Regression analysis)
제 7 장 정수계획법 정수계획법의 모형화 정수계획법의 해법 분단탐색법 정수계획법 적용사례.
수학8가 대한 92~95 쪽 Ⅳ. 연립방정식 1. 연립방정식과 그 풀이 및 활용 >끝내기전에(9/9) 끝내기 전에.
Association between two measurement variables Correlation
‘응급의료서비스 이해도 및 만족도’ 전국민 여론조사 보고서
연립방정식 활용 수학8가 대한 87~89 쪽 Ⅳ. 연립방정식
건강평가 이미경 임선미.
Index 2010년 공판장 업무보고 목차 구미농협 공판장 현황 판매사업 추진 계획 중점 추진과제 Ⅰ. 주요 품목별 추진계획
Mobile Consumer Trends 2007

K T F 촉진과 광고관리 촉진관리와 광고관리 외식영양학과 이찬서 이현진 이해서.
Mobile Consumer Trends 2007
수학8가 대한 92~95 쪽 Ⅳ. 연립방정식 1. 연립방정식과 그 풀이 및 활용 >끝내기전에(9/9) 끝내기 전에.
CONTENTS Part1. 조사 개요 / 3 1. 조사 목적 2. 조사 설계 3. 주요 조사 내용 4. 응답자 특성 5. 지수산출방법 Part2. 결과요약 및 제언 / 9 Part3. 조사결과 분석(만족도) / 종합 및 차원 만족도 2. 항목 만족도 3.
신뢰도 신뢰도 개념 (1)의미:어떤 검사 도구로 여러 번 측정을 하였을 경우, 개인의 검사 점수의 일관성 정도를 나타냄
초파리.
사 업 제 안 서 휴대 인터넷 전화 인터넷학습지 (주)맨투맨스쿨.
책을 읽읍시다  탈향 진지하게 설명해드림 1303 김소희 1309박지호 1315이지수.
2016년 제1차 운영위원회 평택시건강가정 ∙다문화가족지원센터
1-1) 하나투어 매니저 기획전 배너 삽입 ◀ SKT 데이터 로밍 쿠폰 배너 삽입 여행사를 위한 ,
강사 및 비전임교원 공개채용시스템 메뉴얼 교 무 연 구 팀.
『기분존』- 판매 잘하는 법.
Presentation transcript:

기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석 기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석 담당 교수님 김동건 교수님 20090111 화장품 과학과 노준영

연관성 분석 연관성분석은 2개의 변수가 독립적인가 아니면 이들 간에 어떤 연관성이 있는가를 분석하는 방법이다. 연관성분석은 척도의 변수에 따라서 상관분석과 교차분석으로 구분한다. 상관분석을 통해서 등간이나 비율척도로 측정된 변수의 연관성 정도를 파악한다. 변수가 명목척도나 서열척도로 측정된 변수일 경우에는 교차분석으로 변수 간의 독립성 여부를 파악한다.

상관분석(Correlation Analysis) 두 변수 간에 상관관계가 존재하는지를 파악하고, 상관관계의 정도를 측정하는 것이다. 이것은 변수간의 선형관계 정도를 분석하는 통계 기법이다. 통계학적인 측면에서 상관도란 선형적 상관도를 말하는 것으로,이는 두변수의 변수값이 산점도상의 직선을 중심으로 분포되어 있는 정도를 나타낸다. 즉, 상관계수의 절대값이 ‘1’이면 모든 관측값이 정확하게 직선상에 나타내며 ‘0’에 가까울수록 직선상에서 이탈하여 원형의 형태로 퍼지게 된다. 두 변수 사이의 관계를 알아보고자 할 때 가장 먼저 해볼 수 있는 일은 산점도를 그려보는 것이다. 산점도를 이용하면 여러 형태의 두 변수간의 상관관계를 파악할 수 있다. 이것은 공분산 분석으로 시작되는데, 공분산이란 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 지표이다.

산점도란 점들로 표시된 통계 그래프의 일종이다 예를 들어, 키와 몸무게의 관계에 대한 조사 160 78 163 65 168 69 173 68 176 72 178 83 94 180 71 183 184 80 188 85 190 90 191 91 193 95

상관분석(Correlation Analysis) 상관계수의 종류는 등간척도 이상으로 측정된 두 변수들간의 상관관계를 측정하는 데 사용되는 피어슨 상관계수(Pearson correlation)와 서열척도로 측정된 두 변수들간의 상관관계를 측정하는데 사용되는 스피어만 상관계수(Spearman correlation)로 나누어진다. 일반적으로 상관계수라 할 때는 피어슨 상관관계를 지칭하며, r 로 표시한다. 상관관계의 정도를 지수(index)로 나타내는데 이 지수를 상관계수라 한다. 공분산이 척도 크기에 의한 영향을 받지 않도록 각 변수를 그 변수의 표준편차로 나누어 표준화시킨 변수값을 사용하여 공분산을 구할 수 있는데, 이 값이 상관계수이다. 상관계수 r은 -1에서 +1까지의 값을 갖는다. r= +1.0 : 완전한 정의 상관관계 r= +0.0 : 전혀 관련성이 없음 r= -1.0 : 완전한 부의 상관관계

상관분석(Correlation Analysis) 피어슨 상관계수(Pearson correlation) 두 변수간의 관련성을 구하기 위해 보편적으로 이용되는 척도. 상관계수 r은 -1<=r<=1의 값을 갖고 측정된 자료가 좌표 상에 양의 기울기를 갖는 직선에 가깝다면 X가 증가할때 Y도 증가하면 그때의 상관계수는 양(+)이고 음의 기울기를 갖는 직선에 가깝다면 음(-)의 상관계수를 갖는다고 할 수 있다. 그리고 선형의 상관관계를 갖지 않는 경우 상관계수는 0에 가까워지게 된다. 여기서 상관계수가 0이라는 것은 '선형의 상관관계가 없다'는 것뿐이지 두 변수 간에 관계가 전혀 없다는 뜻은 아니므로 주의하여야 한다. 일반적으로 상관계수가 0.70~0.80이면 강한 양의 상관관계, 0.50~0.60이면 보통 정도의 양의 상관관계,0.40이하면 약한 양의 상관관계가 있다고 할 수 있다.

상관분석(Correlation Analysis) 스피어만 상관계수(Spearman correlation) 자료가 서열척도로 구성된 경우 자료의 원래 값 대신 순위를 이용하여 계산하는 상관계수로서, 비모수 통계학에서 연관도의 측도로 많이 쓰인다. 즉, 자료 값을 작은 것부터 차례로 순위를 매겨 서열 식으로 바꾼 뒤 순위를 이용해 상관계수를 구하는 것이다. 순위를 사용하는 까닭에 두 변수 간의 연관 관계가 선형이든 비선형이든 상관없이 연관 관계를 밝혀주며 자료에 이상점이 있거나 자료의 크기가 작을때 많이 사용된다. 스피어만 상관계수의 값 역시 -1과 1사이의 값을 갖게 되는데, 두 변수에 대한 데이터 값들의 순위가 완전히 일치하면 그 값은 1이고, 반대로 두 변수의 순위가 완전히 거꾸로 이면 -1이 된다.

공분산을 이용한 상관관계 두 변수 간의 공통된 분포를 나타내는 분상을 공분산이라 하며, 이러한 공분산은 관측치들이 평균으로부터 산포되어 있는 정도를 나타내는 값으로 두 변수 간의 선형적 연관성을 나타내는 대표적인 지표가 된다. 공분산이란 기본적으로 하나의 변수가 변함에 따라 다른 변수가 어떤 방향으로 얼마나 변화하는가를 보여주는 도구이다. 그런데 표본크기가 증가할수록∑(Xi – X바)(Yi – Y바)의 값도 커지므로 이 값을 표본의 크기 N으로 나누어서 표본의 크기에 영향을 받지 않는 두 변수의 동반변화폭을 알려주는 도구가 바로 공분산이다. 공분산(=COV xy)= ∑(Xi의 편차)(Yi의 편차)(표본크기 -1) = ∑(Xi – X바)(Yi – Y바) / (N-1)

공분산을 이용한 상관관계 일반적으로 분산은 하나의 변수에 대하여 측정한 관측치가 변수의 평균으로부터 떨어져 있는 정도를 나타내는 편차를 제곱한 값의 평균이다. 이와 대조적으로 공분산은 하나가 아닌 2개의 변수값을 동시에 갖는 관측치의 각 변수에 대한 평균과의 편차를 구한 다음 이들을 서로 곱한 편차곱의 평균이다. 공분산이 양수로서 매우 클 경우 두 변수는 양(+)의 선형관계가 있고, 반대로 음수로서 매우 작을 경우 두 변수는 음(-)의 선형관계가 있다. 피어슨 상관계수는 두 변수의 표준화된 편차곱의 평균으로 구한 상관계수를 뜻한다. 측정단위에 따라 변하지 않는 두 변수 간의 선형관계를 파악할 수 있는 표준화된 공분산을 도출 할 수 있는데, 이를 상관계수라고 한다. 공분산이 클수록 표준화된 공분산인 상관 계수도 커지고, 반대로 공분산이 작을수록 상관계수도 작아진다.

공분산을 이용한 상관관계 상관계수는 -1에서 +1 사이의 값을 가지며, 부호에 관계없이 상관계수의 절대값 크기가 변수들 간의 연관성 정도를 판단하는 기준이 된다. 상관계수의 절대값이 클수록 상관관계가 강하다고 해석된다. 일반적으로 사회과학분야에서 설문으로 수집된 자료의 경우에는 상관계수값이 0.3이상이 되어야만 변수들 간에 상관관계가 존재한다고 평가한다. 등간 혹은 비율척도로 측정된 현상들간의 상관관계분석에는 피어슨이 개발한 피어슨 상관계수가 사용되고 있는데, 일반적으로 상관계수라고 할 때는 피어슨 상관계수를 지칭한다. 즉, 표본의 크기가 30 이상인 경우에는 등간척도 이상으로 측정된 두 변수가 정규분포를 따르게 되므로 피어슨 상관계수를 구해서 두 변수간의 상관관계를 판단할 수 있게 된다.

공분산을 이용한 상관관계 분산과 공분산은 자료의 통계분석에 있어서 매우 중요한 도구이다. 이러한 이유는 크게 두 가지로 요약할 수 있다. 첫째, 분산과 공분산은 현상(변수)의 변화폭 혹은 현상(변수)들간의 관계를 요약해 준다. 사회과학연구의 대부분은 사실 현상들간의 공통변화여부 및 변화의 폭을 분석하는 것이다. 둘째, 분산과 공분산은 많은 통계분석기법의 척추와 같은 역할을 수행하고 있다. 이를테면 분산분석이란 기본적으로 분산의 원인을 분석하는 기법이고, 요인분석이란 변수간의 공분산을 분석하는 것이다.

서열척도에 의한 상관관계 서열척도로 측정된 변수 간의 상관관계는 스피어만의 서열상관계수나 켄달의 타우(Kendall’s Tau)기법으로 산출하는 서열상관계수를 이용하여 분석할 수 있다. 서열척도로 측정된 결과인 순위를 표시하는 수는 가감승제의 의미가 없는수이다. 스피어만의 서열상관계수는 관심대상이 되는 개별 구성원이나 개체들을 두개의 서로 다른 특성이나 관점에 대해 평가하여 순위를 매긴 순위변수들간의 선형관계를 나타내는 계수이며, 서열척도로 측정된 두 개의 변수들간의 상관관계를 구하는 방법이다. 스피어만 서열상관계수를 계산하기 위해 두 변수의 서열의 차를 구하는 것은 서열의 차이 자체를 이용하려는 목적에서 진행되는 것이 아니다. 서열척도는 가감승제가 의미가 없기 때문에 이러한 차이정보 자체는 실질적인 의미가 없다. 다만 이러한 차이정보를 가공해서 서열상관계수를 구하는 것이다.

서열척도에 의한 상관관계 스피어만 서열상관계수는 서열척도로 측정된 두 개의 변수들간에 존재하는 상관관계를 분석하는 기능을 수행하지만, 서열척도로 측정된 3개 이상의 변수들간의 상관관계를 파악하는 데에는 부적합하게 된다. 켄달의 일치계수는 서열변수로 측정된 3개 이상의 변수들, 즉n개의 변수들간의 존재하는 상관관계를 파악하는데 사용된다. 그런데 켄달의 일치계수를 계산하는 경우에는 스피어만 서열상관계수의 계산원리와 같이 변수간 서열의 차이를 이용하는 것이 아니라, 변수간의 서열의 합을 이용한다. 켄달의 일치계수는 부(-)의 값을 갖지 않는다. 물론 켄달은 두 개의 서열변수간의 상관관계를 계산해 내는 방법도 개발했는데 이를 켄달의 서열상관계수 혹은 켄달 타우라고 한다.

교차분석 범주형 자료 (명목 혹은 순서척도)인 두 개 혹은 그 이상의 변수에 대한 변수들의 관련성을 알아보기 위해, 결합분포를 나타내는 분할표를 작성함으로써 변수 상호 간의 독립성과 관련성 존재 여부를 분석하는 것을 교차분석이라고 한다. 또한 교차분석에 사용되는 변수는 변수값이 10미만이고 순서척도이어야 합니다. 비율척도인 경우는'코딩변경'을 해서 사용해야 한다. 예를들면 연령인 경우 20세 미만을 1, 30세 미만을 2등의 순서척도로 바꾸어야 한다.

교차분석 예컨대 성별(1. 남자, 2.여자), 학력(1. 10대 ,2. 20대 ,3. 30대, 4. 40대) 학력(1. 고졸, 2. 대졸, 3. 대학원졸), 직무만족도(1. 불만족, 2. 보통, 3. 만족). 이동 통신서비스사(1. SKT, 2. KTF, 3. LGT)와 같이 명목척도로 측정된 두 변수 간의 관계를 분석하기 위해서 교차분석을 실시한다. 연령수준에 따라 직무만족도가 다른가? 연령수준에 따라 사용하고 있는 이동통신 서비스가 다른가? 학력수준에 따라 직무만족도가 다른가?

요점 정리 연관성분석 은 2개의 변수가 독립적인가 아니면 이들 간에 어떤 연관성이 있는가를 분석하는 방법이다. 연관성분석은 척도의 변수에 따라서 상관분석과 교차분석으로 구분한다. 상관분석을 통해서 등간이나 비율철도로 측정된 변수의 연관성 정도를 파악한다. 공분산이란 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 지표이다. 상관계수의 종류는 등간척도 이상으로 측정된 두 변수들간의 상관관계를 측정하는 데 사용되는 피어슨 상관계수와 서열척도로 측정된 두 변수들간의 상관관계를 측정하는데 사용되는 스피어만 상관 계수로 나누어진다. 교차 분석은 명목척도나 서열척도로 측정된 범주형 변수간의 상호 연관성을 알아보기 위한 분석방법이다.