제 4 장 재 표 현 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다

Slides:



Advertisements
Similar presentations
온누리교회 일대일 사역팀. CONTENTS 1. 예수님의 공생애 사역 2. 죄의 기원과 죄의 결과 3. 죄 문제의 해결 I. 예수님의 부활은 그리스도의 죽음과 함께 기독교 II. 인간은 하나님 앞에 모두 죄인이다. III. 따라서 나도 죄인이라는 사실을 깨달아야 한다.
Advertisements

지하철택배보관함 서비스 제안서 서울시 중구 광희동 1 가 86-2 동대문운동장역 (5 호선 )B1 Tel : Fax : ㈜보스크.
서울혁신기획관 익명성과 인간소외 심화, 공동체 해체 … 시민의 행복지수와 삶의 질 하락 … 2 I. 왜 … 마을공동체인가 ! 1.
사회복지현장실습 2012 학년도 동계실습 실습기관잠실종합사회복지관실습기간 2012 년 1 월 3 일 ~ 2012 년 2 월 1 일 실습생추연일.
2009 년 행정안전부 공직설명회 년 행정안전부 공직설명회 2 목 차 I. 개 요 II. 기능직 개편원칙 III. 정보통신현업 개편방안 IV. 주요 이슈.
형제침례교회 필리아성가대 성탄절 칸타타 1. Opening : 영광을 하늘 높은 곳 에 성탄예배에 오신 성도님, 환영합니다. 오늘 성탄예배는 칸타타로 드리는데요 성가대가 부르는 찬양을 듣기만 하는 칸타타가 아니라 성도님들께서 모두 찬양하는 칸타타입니다. 화면을 보면서.
(목) 오후 2시~4시. 1 일 정 표 2:00 ~ 2:05 인사말씀 2:05 ~ 2:15 개요 2:15 ~ 2:30 약정서 체결식 및 사진촬영 1 부 2 부 2:30 ~ 3:00 사업집행지침 및 평가안내 OT 3:00 ~ 3:20 회계처리지침 OT.
2013 년 조사연구위원회 위촉식 및 활동 설명회 2013 년 조사연구위원회 위촉식 및 활동 설명회
강백준 ( 정자초 4 학년 ) “3D 프린터 ” 가 세상을 바꿀 것이라고 합니다. 무궁무진한 가능성 : 뭐든지 만들 수 있다 ! 원하는 물건을 돈주고 산다  내가 만든다 !! 미래산업을 바꿀 7 대 파괴적 혁신기술 !!! ( 삼성경제연구소 ) 21 세기 기술혁명 !!
신민규 심윤미. . 했으며, 했다. 알바니아 정부는 1949 년 12 월 9 일 선결적 항변을 제출하였다. 영국의 일방적 제소로는 국제사법재판소의 관할권이 없다는 것이었다. 그러나 알바니아 정부는 미숙한 대응으로 항변을 포기하는.
건강새마을 조성사업 주민 참여 모니터링 강 민 정.
클림트의 회화적인 요소를 이용한 치레거리 디자인 연구
(목) 심형석 영산대학교 부동산∙금융학과 교수 영산대학교 부동산연구소 소장
2009 개정 교육과정에 따른 예술(음악/미술)교과 교육과정 개정의 주요 내용
III. 민족 운동의 전개 1. 일제의 식민지 지배 정책 조선 총독부.
목 차 I 방위산업의 정의 II 방위산업의 특성 III 방위산업의 현황.
1월 월간업무보고 경 리 부.
서로를 위한 약속 학교규칙 제·개정에 대한 이해.
홍보출판 위원회 출판국 2010년 사역 계획서 발표자 : 출판국 국장 / 박수만권사 일시: 2010년 01월 17일(일) 1.
경주 3코스 양반문화와 전통 다크호스 백 지연 다크호스 백지연 4학년.
영호남 공동발전을 위한 학술문화 교류사업 보고
대학생 봉사단을 통한 경정사업 이미지 제고 ICARUS 조영호/염윤성.
서울특별시 중구 통일로 10 연세재단세브란스빌딩
2002년 낙동고 4기 동기회 모임 낙동고 4기 동기회.
예수의 제자들 담당교수 : 김동욱.
저출산 고령사회 대응 및 여성 농업인 권익 향상을 위한 정책토론회
역대 정부개편의 교훈과 새로운 정부조직개편의 방향
김종찬 김정석 이상미 임성규 담당 교수님 최병수 교수님
체위변경과 이동 요양보호 강사 : 이윤희.
제 11 장 단순한 형태의 패턴 검출.
2016학년도 2학기 수강바구니(수강신청) 안내 매뉴얼
2016학년도 1학기 수강바구니(수강신청) 안내 매뉴얼
지역맞춤형 일자리창출 사업 기관 평가
성탄절을 향한 길에서.
중화학 공업이 발달한 남동 임해 공업 지역 사회 1학년 1학기
Visual c++ 이용한 영상처리 5조 과정 : 시스템제어 조장 : 김 신 호 조원 : 주강수, 유성민, 남민호
2011년 하반기 VIP투자자문 인재채용 안내
쉬운 표준원가.
올바른 이메일 사용법
단 원 명 한 국 음 악 사.
구약의 맥 I (서론, 원역사) 2014 동안성결교회 수요신학강좌 정석규 LA 목회자 세미나.
대촌중 최영미.
물류단지 총량제 폐지 이후 물류시설 공급정책 방향 국 토 교 통 부.
신 윤 호 ㈜엘림에듀 초등사업본부장, 중앙대학교 체육학박사
 KAA 소비자단체장 초청 회원간담회 옥외광고 산업의 현황과 과제 서범석(세명대학교 광고홍보학과 교수)
// 과제명 기재 미래융합서비스 모델개발 아이디어 제안서 – // 기업명 기재
-순수관광 목적 방문지역별 여행실태(경기) -
지방공무원 임용시험 위탁 및 공동추진 충청북도교육청 (목) 총무과 교육행정 6급 안 병 대
대박콜 전국화물 퀵서비스 회사소개서 (기업 퀵서비스,택배,문서수발).
2019학년도 1학기 수강바구니(수강신청) 안내 매뉴얼
실버 요양 사업 소개서
지적재조사 홍보컨텐츠 개발현황 브랜드 네임 심볼마크 슬로건.
학습지도안 단원명 대단원 III유전과 진화 중단원:1.세포분열 소단원 (1)체세포분열 작성자 신동명.
1월 KB손해보험 설계사 시상 I. 설맞이 2017년 Good Start 상품시상 II. A군 FC 주차시상 5만원↑
원격교육활용론 11. 원격교육 컨텐츠 설계 : 실습 패키지 박소연 (광주대학교).
-순수관광 목적 방문지역별 여행실태(경북) -
교육기부 진로체험기관 인증제와 지역 센터 운영 방안 한국직업능력개발원 김승보.
존 듀이의 경험교육론에 기초한 초등학교 체험활동 특징에 관한 연구
제안 제도 운영방안.
제9주 예산 수립과 집행.
중등학생평가연수 (중학교) 일시 : (목) 10:00 장소 : 부산교육연구정보원 ㅣ중등교육과 ㅣ
김진승 한국물리학회 교육위원장, 전북대학교 물리학과
양초 한 자루의 과학 과학영재교육 전공 김 연 주 류 은 희 이 상 희.
교육행정 및 교육경영 제 5장. 교육행정 조직의 실제 체육교육 이학재.
사 장 학 / CEO 학 ( 제1부 : 사장의 3 대 능력 ) 대한경영평가원.
2019년 헤럴드경제 자본시장대상(안) 2019년 3월 헤럴드경제 IB금융섹션.
우울증 예방 관리 강사 :.
2013년 학교정보공시 학교 총괄담당자 연수
제3장 선교 구역.반장학교 제1단계.
신입사원 OJT교육.
Presentation transcript:

제 4 장 재 표 현 51 1. 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다 통계자료의 탐색적 분석(EDA) 51 제 4 장 재 표 현 1. 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다 어떤 값을 대표값으로 쓸 것인가? < 서울지역 I의 월 소득 자료> 줄기 그림 단위 = 10(만원) 6 0 566888 20 1 00111222333444 (9) 1 556788999 21 2 013344 15 2 5589 11 3 001114 5 3 57 3 4 3 4 568 문자값 전시 Depth Lower Upper Mid Spread N= 50 M 25.5 18.000 18.000 H 13.0 12.000 28.000 20.000 16.000 E 7.0 10.000 31.000 20.500 21.000 D 4.0 8.000 37.000 22.500 29.000 C 2.5 6.000 45.500 25.750 39.500 B 1.5 5.500 47.000 26.250 41.500 1 5.000 48.000 26.500 43.000 중위수 182만원, 아래 사분위수 123.7만원, 위 사분위수 283.8만원 비대칭

# 자료의 변환(transform) 즉, 재표현(re-expression) (1) 제곱근 변환 통계자료의 탐색적 분석(EDA) 52 # 자료의 변환(transform) 즉, 재표현(re-expression) (1) 제곱근 변환 비 대칭인 분포 줄기 그림 단위 = 0.1 3 2 244 6 2 888 14 3 11333444 22 3 66677788 (8) 4 01223334 20 4 57788 15 5 002344 9 5 55589 4 6 0 3 6 779 문자값 전시 Depth Lower Upper Mid Spread N= 50 M 25.5 4.243 4.243 H 13.0 3.464 5.292 4.378 1.827 E 7.0 3.162 5.568 4.365 2.405 D 4.0 2.828 6.083 4.456 3.254 C 2.5 2.449 6.745 4.597 4.296 B 1.5 2.343 6.855 4.599 4.512 1 2.236 6.928 4.582 4.692

(1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적 줄기 그림 1 6 9 통계자료의 탐색적 분석(EDA) 53 (2) 로그 변환 자료의 재표현(로그 변환후 대칭적인 모형) @ 자료의 재표현의 목적 (1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적 줄기 그림 단위 = 0.01 1 6 9 3 7 77 3 8 6 9 000 14 10 00444777 22 11 11144477 (7) 12 0355777 21 13 02668899 13 14 4677999 6 15 346 3 16 568 문자값 전시 Depth Lower Upper Mid Spread N= 50 M 25.5 1.255 1.255 H 13.0 1.079 1.447 1.263 0.368 E 7.0 1.000 1.491 1.246 0.491 D 4.0 0.903 1.568 1.236 0.665 C 2.5 0.778 1.658 1.218 0.880 B 1.5 0.739 1.672 1.205 0.933 1 0.699 1.681 1.190 0.982

## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료 통계자료의 탐색적 분석(EDA) 54 ## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료 --------------------- ---------I + I------------------------- ------+---------+---------+---------+---------+---------+C1 8.0 16.0 24.0 32.0 40.0 48.0 (2) 제곱변환 후 자료 ------------------- -------------I + I---------------- --+---------+---------+---------+---------+---------+----C2 2.0 3.0 4.0 5.0 6.0 7.0 (3) 로그변환 후 자료 -------------------I + I------------ +---------+---------+---------+---------+---------+------C3 0.60 0.80 1.00 1.20 1.40 1.60

박스-칵스 변환(Box-Cox transform) 통계자료의 탐색적 분석(EDA) 55 2. 재표현의 사다리 자료분석에서 가장 많이 사용되는 변환 방법 박스-칵스 변환(Box-Cox transform) 이면 무변환(no transform) 이면 제곱근 변환 이면 로그변환 이면 변환 단조함수(monoton function)이어야 함

<p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계> p=3 볼록 재 p=2 표 p=1 무변환 통계자료의 탐색적 분석(EDA) 56 <p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계> p=3 볼록 재 p=2 표 p=1 무변환 현 p=1/2 의 p=1/3 p=0 사 p=-1/3 오목 다 p=-1/2 리 p=-1 p=-2 p=-3 (1) 오른쪽으로 꼬리가 긴 모형 (p<1) 경향이 누그러진다 (2) 왼쪽으로 꼬리가 긴 모형 (p>1) 경향이 누그러진다 (3) 오른쪽으로 꼬리가 긴 모형 (p=1에서 p=0까지 변환) 계속 오른쪽으로 꼬리가 긴 모형 음의 역변환(p=-1) (4) 로그변환 후 오른쪽으로 꼬리가 긴 모형이 왼쪽으로 꼬리가 긴 모형으로 된다면 재표현의 사다리를 거슬러 올라가 제곱변환(p=1/2)

<표본으로 채취된 세 종류의 플랑크톤 수의 자료> (1) 자료 통계자료의 탐색적 분석(EDA) 57 3. 또 다른 사례 <표본으로 채취된 세 종류의 플랑크톤 수의 자료> (1) 자료 (2) 문자값 전시 Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 580.000 580.000 H 3.5 483.500 870.000 676.750 386.500 E 2.0 428.000 1020.000 724.000 592.000 1 387.000 1050.000 718.500 663.000 플랑크톤 IV N= 12 M 6.5 9075.000 9075.000 H 3.5 8080.000 10015.000 9047.500 1935.000 E 2.0 7600.000 11000.000 9300.000 3400.000 1 6060.000 15500.000 10780.000 9440.000 플랑크톤 III N= 12 M 6.5 30200.000 30200.000 H 3.5 27950.000 33700.000 30825.000 5750.000 E 2.0 22300.000 39500.000 30900.000 17200.000 1 18900.000 43300.000 31100.000 24400.000

<플랑크톤 자료의 제곱근 변환 결과> 통계자료의 탐색적 분석(EDA) 58 <플랑크톤 자료의 제곱근 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 24.069 24.069 H 3.5 21.986 29.493 25.740 7.506 E 2.0 20.688 31.937 26.313 11.249 1 19.672 32.404 26.038 12.731 플랑크톤 IV N= 12 M 6.5 95.258 95.258 H 3.5 89.883 100.071 94.977 10.187 E 2.0 87.178 104.881 96.029 17.703 1 77.846 124.499 101.172 46.653 플랑크톤 III N= 12 M 6.5 173.747 173.747 H 3.5 167.182 183.559 175.371 16.377 E 2.0 149.332 198.746 174.039 49.414 1 137.477 208.087 172.782 70.609 --- I I+I- ---- IV ----I+ I- * ----- III * -----I + I------- ------+---------+---------+---------+---------+---------+ 35 70 105 140 175 210

<플랑크톤 자료의 (상용)로그 변환 결과> 통계자료의 탐색적 분석(EDA) 59 <플랑크톤 자료의 (상용)로그 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 2.762 2.762 H 3.5 2.684 2.939 2.812 0.255 E 2.0 2.631 3.009 2.820 0.377 1 2.588 3.021 2.804 0.433 플랑크톤 IV N= 12 M 6.5 3.958 3.958 H 3.5 3.907 4.001 3.954 0.093 E 2.0 3.881 4.041 3.961 0.161 1 3.782 4.190 3.986 0.408 플랑크톤 III N= 12 M 6.5 4.480 4.480 H 3.5 4.446 4.527 4.487 0.081 E 2.0 4.348 4.597 4.472 0.248 1 4.276 4.636 4.456 0.360 ------- 플랑크톤 I --I + I--- --- 플랑크톤 IV ---I+I- * 플랑크톤 III * --I+I--- --------+---------+---------+---------+---------+--------C12 2.80 3.20 3.60 4.00 4.40

<플랑크톤 자료의 세제곱근 변환 결과> 통계자료의 탐색적 분석(EDA) 60 <플랑크톤 자료의 세제곱근 변환 결과> Depth Lower Upper Mid Spread 플랑크톤 I N= 12 M 6.5 8.335 8.335 H 3.5 7.848 9.546 8.697 1.697 E 2.0 7.536 10.066 8.801 2.530 1 7.287 10.164 8.726 2.877 플랑크톤 IV N= 12 M 6.5 20.858 20.858 H 3.5 20.065 21.554 20.810 1.489 E 2.0 19.661 22.240 20.950 2.579 1 18.232 24.933 21.582 6.702 플랑크톤 III N= 12 M 6.5 31.136 31.136 H 3.5 30.348 32.298 31.323 1.950 E 2.0 28.147 34.056 31.102 5.909 1 26.637 35.115 30.876 8.478 ---- 플랑크톤 I -I+ I- 플랑크톤 IV ---I +I- * 플랑크톤 III * ----I+ I----- --+---------+---------+---------+---------+---------+---- 6.0 12.0 18.0 24.0 30.0 36.0

자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현 통계자료의 탐색적 분석(EDA) 61 4. 자료의 재표현과 문자값의 재표현 자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현 원 자료의 문자 값들만 변환하여 재표현 자료의 문자 값을 얻을 수 있다(수작업 가능) [미니탭의 활용] File > Open Worksheet….

Stat > EDA > Letter Values… 원자료의 문자 값 √ 변환한 문자값 62 자료의 변환 Calc > Calulator… Stat > EDA > Letter Values… 원자료의 문자 값 √ 변환한 문자값

이용하여 (중위수)을 중심으로 2차 항까지 전개 통계자료의 탐색적 분석(EDA) 63 5. 분포의 대칭화에 관한 수리적 이론 분포의 대칭화 대칭화 변환을 수리적으로 규명 함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 2차 항까지 전개 에 의하여 변환된 자료의 위,아래 사분위수 과 은 변환에 의하여 대칭분포를 만족하려면 이어야 하므로 근사적으로 가 성립하여야 한다.

예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로 통계자료의 탐색적 분석(EDA) 64 즉, 가 유도된다. 즉, 변환의 차수 는 근사적으로 으로 주어진다. 예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로 이다. 0에 가까우므로 최종적으로 시도한 로그변환이 거의 근사적으로 최적값에 근접

산포를 균일하게 해주는 변환 수리적인 이론을 설명 함수 ( 일 때는 로 해석)을 테일러 정리를 통계자료의 탐색적 분석(EDA) 65 6. 산포의 균일화에 관한 수리적 이론 산포를 균일하게 해주는 변환 수리적인 이론을 설명 함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 1차 항까지 전개 에 의하여 변환된 자료의 위,아래 사분위수 과 은 으로 근사되므로 가 성립한다. 따라서 위 식의 양변에 로그를 취하면 이 되는데, 변환에 의하여 산포가 균일해 진다면 좌변은 상수이므로 가 유도된다.

위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때 기울기가 대략 인 직선 형태 통계자료의 탐색적 분석(EDA) 66 위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때 기울기가 대략 인 직선 형태 를 구하여 2차원 그래프(산점도)로 출력시켰을 때 기울기가 인 직선 형태의 그래프가 도출 된다. 변환이 대략적으로 자료간의 산포를 균일하게 하는 변환 예를들면 세 종류의 플랑크톤 자료에 의한 문자값 전시로 부터 문자 값 M과 4분위수 산포 spr(H) 를 찾아 (상용)로그 변환을 실시 M spr(H) log(M) log{spr(H)} 플랑크톤 I 580 386.5 2.76 2.59 플랑크톤 IV 9075 1935 3.96 3.29 플랑크톤 III 30200 5750 4.48 3.76 세 점 중에서 양끝에 있는 자료 I과 III의 점 (logM,log{spr(H)}을 연결하는 직선의 기울기

(1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 통계자료의 탐색적 분석(EDA) 67 8. 통계분석에서 자주 쓰이는 그 밖의 변환 통계분석에 자주 사용되는 변환 (1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 포아송(Poisson distribution)로 모형화, 평균 , 분산 이 같은 경우 분산 안정화 변환(Variance stabilizing transform)은 제곱근 변환 (2) 자료가 비율인 경우 : 통계분석에 자주 사용되는 비율 의 변환 ① 로짓(logit) 변환 : ② 프로빗(probit) 변환 : 여기서, 는 N(0,1) ③ 각 변환(arcsin 변환) : (3) 상관계수 : 모 상관계수 인 경우 표본상관계수 의 표본분포는 복잡 Fisher의 변환 을 통하여 근사적인 정규분포

(4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환 통계자료의 탐색적 분석(EDA) 68 (4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환 EDA에서의 표준점수 (5) 로그변환 : 분포의 대칭화 또는 산포의 균일화를 위한 재표현 방법 승법모형의 가법모형화가 가능 예를들면, 경제•경영 시계열 는 승법 모형 : 로 표현되는 경우 로그변환 : 추세, : 순환, : 계절성, : 불규칙변동

자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출 통계자료의 탐색적 분석(EDA) 69 9. 요약 자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출 박스-칵스 변환 : 재표현 사다리는 p=1(무변환)을 기점으로 하여 p>1이면 올라가는 방향, p<1이면 내려가는 방향 분포가 오른쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 내려감 분포가 왼쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 올라감 중위수가 커짐에 따라 산포가 늘어나는 자료의 경우 : 산포의 균일화를 위하여 재표현 사다리를 내려야 함 원 자료의 수치 요약은 동일한 변환으로 재 표현 분포의 대칭화를 위한 변환의 차수 는 다음과 같다

여러 묶음의 자료간 산포를 균일하게 하기 위한 방법 : 기울기 통계자료의 탐색적 분석(EDA) 70 여러 묶음의 자료간 산포를 균일하게 하기 위한 방법 : 기울기 통계분석에서는 다음의 여러 변환들이 자주 쓰인다 ① 자료가 돗수인 경우 : 제곱근 변환 자료가 비율인 경우 : 로짓 변환, 프로빗 변환, arsin변환 ② 상관계수에 관한 변환 : 피셔(Fisher)의 z 변환이 대표적 ③ 표준화 점수로써 난이도가 다르게 출제된 시험에서 취득한 점수를 비교 ④ 로그 변환 : 승법모형 가법모형