통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료

Slides:



Advertisements
Similar presentations
수학 7- 가 문자와 식 > 일차방정식의 풀이 > 교과서 p.111 일차방정식의 활용 수업계획수업활동.
Advertisements

산들초등학교 마녀샘의 교실 2 ♪딩동댕 ~ 산들초등학교의 중간고사가 끝났습니다. 아이들은 신났습니다. 와 ~!!! 시험끝났다 !
3 학년 문제가 남느냐, 내가 남느냐 1. ( 아씨방 일곱 동무 ) 아씨의 방에는 바느질을 위한 친구가 몇 명이 있었나요 ? 정답은 ? 일곱.
장애인 인권 강화 전남언어발달센터 사무국장 / 임준형. 인권교육 근거 전남 장애인 차별실태 조사 결과 보고서 나. 교육 및 진학 과정에서의 장애인 차별 교육 및 진학 과정에서의 장애인 차별에서는 “ 장애 를 이유로 주변 동료 학생들로부터.
겨울신앙학교 교리 골든벨을 울려라 !. 1 성경은 인간에 대한 구원과 사랑의 약속이 담긴 책이다. O X.
- 1 - 지능형 통신망을 활용한 문자 수신 서비스 주식회사 온디노 지능형 통신망을 이용한 MT & MO 서비스.
머리가 좋아지는 IQ퀴즈 (1탄).
2013년도 예산어린이집 오리엔테이션.
2. 문학의 활동 방법 [1] 문학의 수용 01 소설가 구보 씨의 일일 작가 소개 작품 정리 읽기 중 활동 학습 활동.
사미인곡 p79.
체벌은 바람직한 훈육방법일까요? 체벌에 대한 동향(국내/국제) 훈육은 어떻게 해야 할까요?
구약 파노라마 대구북부교회.
안전한 먹을 거리 문화를 위한 청소년 의식조사 빈도수 & 백분율 분석 – 아침 식사 횟수와 매점 이용횟수 교차분석 –
제 13 장 직교배열표에 의한 실험계획(Ⅱ).
최저가낙찰제의 입찰금액 적정성 심사 시 절감사유서 작성·평가 가이드라인 설명회 2008년 7월 22일 (화)
총괄생산계획 총괄생산계획 : 기업의 중기 또는 장기에 해당되는 생산계획으로 기업이 생산하는 제품의 포괄적인 범위에 대한 생산일정과 수량을 결정하는 과정. 시장수요를 충족시키기 위해 기업의 가용자원을 활용하고 관리하는 행위 총괄생산계획이 사용하는 자원의 대상 : 노동력,
제 12 장 감성적 품질을 창조하는 품질경영 [전사적 품질경영 : TQM].
상관분석(Correlation Analysis)
운영리스크 고급측정법 모형의 적합성 검증방안에 대한 연구
선형회귀분석.
XXXX SSO 구축 SSO (Single Sign-On) -사용자 인증 및 권한부여 통합 관리 시스템
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
패턴인식 개론 Ch.5 확률 변수와 확률 분포.
with 신 동 면 교수님 임지영 장영태 조재영 황선희 황예빈
6. 인구 변화와 인구 문제 01.인구 분포 02.인구 이동 03.인구 문제 세계와 우리나라 인구 분포의 특징
유니코드의 다양한 이해 Samsung Software Membership – 22기 백재현.
MINITAB for Six Sigma.
마케팅전략수립 컨설팅 제안서 수행계획서 작성 이전 제안서.
FD 팬 고진동 개선 사례 대상설비 대상설비 진단결과 증상 및 원인 진동 방지 대책 <설비진동 경향 Graph>
보육시설 유형과 운영.
학교생활기록부 기재요령 중요사항 변경사항 학교생활기록부 개선안.
4. 도표 다루기.
학문적 글쓰기 발표 스토리 텔링 마케팅 2조 : 김남훈 김소윤 김윤혁
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
개인사유에 의한 사고, 부상, 질병 발생 경위서 작성완료 후 스캔 하셔서 휴직원에 첨부해 주십시오.
경제통계학 개요 사공 용 서강대학교 경제학과.
Keller: Stats for Mgmt & Econ, 7th Ed
Progress Seminar 신희안.
Statistical inference I (통계적 추론)
연구책임자용 충남대학교 생명윤리위원회 홈페이지 연구 책임자&담당자 매뉴얼 Date version 1.0.
독립성금증(χ2)-교차표 분석 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계를 조사하는 통계기법으로 χ2독립성 검증(chi-square independence test)이 있다. 예를 들어, 특정 속성에 대하여 집단별로 어떤 차이가 있는지를 알아보기 위해서 사용하는.
24차시 효도 달서시니어클럽 전통예절사업단.
The normal distribution (정규분포)
연구개발비 종합관리시스템 이용안내 ( 연 구 비 카 드 제 )
2017 모바일게임 글로벌퍼블리싱 지원 신청서 게임명 회사명.
이론적 확률분포 앞서: 확률변수의 임의의 확률분포 수학의 이론으로부터 도출될 확률분포 이항분포, Poisson 분포, 정규분포
Ⅰ. 보안환경.
슬라이드 9~12의 파란글씨는 (페이지번호로는 6~9페이지)
GMCC(글로벌 진출 퍼블리싱 지원사업) 3차 참가 신청서
제목을 수정하시려면 제목을 지우시고 폰트로 삽입하세요^^
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
양궁게임 게임기획서 1차안 2011/01/17 최가운.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
호칭어와 지칭어 가족관계.
선천이상 (congenital anomalies)
해양생태학 2016년 1학기 안순모.
담배 없는 우리 마을 만들기 전남 무안군 만풍보건진료소 일 시 : 2006년 2월 28일 ~ 5월 8일.
(제작자: 임현수)모둠:임현수,유시연,유한민
문자코드, 문자 입출력 한국어 정보의 전산 처리
11. 결산.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
시작하기.
산점도 (Scatter Diagram) (1) 개요
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
토론의 기술 3 쟁점분석과 입론.
제 4 장 재 표 현 재표현의 활용 # 줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다
회계 교육자료 재경부.
Presentation transcript:

통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료 그룹 데이터나 계수형 데이터와 같이 빈도로 이루어진 데이터의 경우 어느 특정분포 (예를 들면, 정규분포 또는 포아송분포)와 비교되는지를 살펴보고, 특히 이 때 적합도에 관한 잔차(residual)의 활용에 대하여 논의 2. 도수 자료와 포아송 분포와의 비교 계수형 분포(예 : 포아송 분포) X : 어떤 특정한 사건의 도수를 나타내는 확률변수 분포 함수 : 특징 : 평균과 분산이 다 같은 모수 인 확률분포 단위시간당 발생하는 총 도수를 나타내는 분포

## 아래의 자료가 포아송 분포를 따르는지 검토 통계자료의 탐색적 분석(EDA) 85 ## 아래의 자료가 포아송 분포를 따르는지 검토 < 프러시아 200개 기병군단에서 각 군단별 말에 치여 사망한 병사의 수> 사망자수 관측빈도 기대빈도 2배 제곱근 잔차 0 109 10.4 108.6 0.062 1 65 8.1 66.2 -0.117 2 22 4.7 20.2 0.442 3 3 1.7 4.2 -0.477 4+ 1 1.0 0.8 0.400 합 계 200 200.0 X의 평균 = (0•109+1•65+2•22+3•3+4•1)/200 = 0.61 = 기대빈도 = 200 • 예) DRSS = 일 때, = 일 때 Histogram of C1 N = 200 Each * represents 5 observation(s) Midpoint Count 0 109 ********************** 1 65 ************* 2 22 ***** 3 3 * 4 1 *

히스토 그램 작성 (graph > Character Graphs > Histogram…) 통계자료의 탐색적 분석(EDA) 86 [미니탭 명령] 히스토 그램 작성 (graph > Character Graphs > Histogram…) 포아송 난수 생성 (Calc > Random Data > Poisson….)

< 세 임의생성 자료에 대한 히스토그램 > 통계자료의 탐색적 분석(EDA) 87 < 세 임의생성 자료에 대한 히스토그램 > DRSS(double root residuals) = 일 때, = 일 때 Histogram of C2 N = 200 Each * represents 5 observation(s) Midpoint Count 0 101 ********************* 1 69 ************** 2 25 ***** 3 3 * 4 2 * Histogram of C3 N = 200 Each * represents 5 observation(s) Midpoint Count 0 111 *********************** 1 69 ************** 2 18 **** 3 2 * Histogram of C4 N = 200 Each * represents 5 observation(s) Midpoint Count 0 104 ********************* 1 72 *************** 2 20 **** 3 3 * 4 1 * 제곱근 변환 루토그램(rootogram) @ DRSS의 값이 (-2, +2)구간의 범위를 벗어나면 주의 @ DRSS의 값이 (-3, +3)구간의 범위를 벗어나면 고려된 확률모형과 맞지 않음

원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우 통계자료의 탐색적 분석(EDA) 88 3. 그룹 데이터와 정규분포와의 비교 원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우 정규분포(Normal distribution / Gaussian distribution) 확률변수 X가 정규분포인 경우 확률밀도 함수 사이에 68%, 사이에 95.4%, 사이에 99.7% 통계적인 방법론에서의 모수 를 표본평균으로, 는 표본 표준편차로 적합 저항성을 전혀 갖고 있지 못하다 EDA에서의 추정치 예) 중위수 M을 의 추정치로 사용 연속형 자료 이면서 그룹화 되어 있는 자료의 예 스코틀랜드 군인 5738명의 가슴둘레 데이터(도수분포표 형태의 자료)

< 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) > 가슴둘레(x) 구간 중앙값 관측빈도(O) 통계자료의 탐색적 분석(EDA) 89 < 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) > 가슴둘레(x) 구간 중앙값 관측빈도(O) -33.5 33 3 33.5-34.5 34 18 34.5-35.5 35 81 35.5-36.5 36 185 36.5-37.5 37 420 37.5-38.5 38 749 38.5-39.5 39 1073 39.5-40.5 40 1079 40.5-41.5 41 934 41.5-42.5 42 658 42.5-43.5 43 370 43.5-44.5 44 92 44.5-45.5 45 50 45.5-46.5 46 21 46.5-47.5 47 4 47.5- 48 1

<그룹화 된 자료에서의 사분위수 구하는 방법> 통계자료의 탐색적 분석(EDA) 90 <그룹화 된 자료에서의 사분위수 구하는 방법> 아래 사분위수 HL을 구하기 위하여 우선 깊이 d(H)의 자료점이 속한 구간을 구한다. 그 구간을 이라고 하고 이 구간의 빈도를 이라고 하자 이 구간을 개의 동일 길이 의 소 구간으로 나누고 그 중간점을 구해보자 중간점 = 깊이 d(H)의 자료점은 같은 방법으로 위 사분위수 HU를 구할 수 있다.

37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명 통계자료의 탐색적 분석(EDA) 91 스코틀랜드 자료를 이용하여 예를 들면) 전체자료의 크기 n=5738이므로 d(H) = (1+[(5738+1)/2])/2 = 1435 37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명 (37.5, 38.5)에 749명이 있고, 이 구간 안에 아래 사분위수 HL이 속해 있다. HL = 37.5+(1/749){1435-707-0.5} = 38.471 41.5인치 이상의 사례수가 1196명, 40.5인치 이상인 사례가 2130명 (40.5, 41.5)에 934명이 있고, 이 구간 안에 위 사분위수 HU이 속해 있다. HU = 41.5-(1/934){1435-1196-0.5} = 41.245 위•아래 사분위수로부터 평균과 표준편차를 EDA를 이용한 저항성이 있는 추정치는 = 39.858 = 2.055

Stat > EDA > Rootgram… 92 Rootogram: C2 Bin Count RawRes DRRes Suspended Rootogram 1 3.0 -2.7 -1.13 . ------ . 2 18.0 -2.6 -0.52 . --- . 3 81.0 9.7 1.13 . ++++++ . 4 185.0 -11.2 -0.79 . ---- . 5 420.0 -7.7 -0.36 . -- . 6 749.0 10.2 0.38 . ++ . 7 1073.0 61.3 1.91 . ++++++++++. 8 1079.0 -21.4 -0.64 . ---- . 9 934.0 -13.3 -0.42 . --- . 10 658.0 10.2 0.41 . +++ . 11 370.0 19.0 1.01 . ++++++ . 12 92.0 -58.7 -5.34 *--------------- . 13 50.0 -1.3 -0.15 . - . 14 21.0 7.2 1.76 . +++++++++ . 15 4.0 1.0 0.66 . ++++ . 16 1.0 0.4 0.63 . ++++ . In display, value of one character is .2 OO [미니탭 활용] Stat > EDA > Rootgram…

어느 범주(또는 구간)의 관측도수를 라고 하자. 그 범주(또는 구간)가 확률 를 차지한다고 하자. 통계자료의 탐색적 분석(EDA) 93 4. 이론적 배경 어느 범주(또는 구간)의 관측도수를 라고 하자. 그 범주(또는 구간)가 확률 를 차지한다고 하자. 그 외의 다른 범주가 얻어질 확률은 인 시행이 되고 표본 크기가 인 경우 는 이항분포 를 따르게 된다. 가 작을 경우, 는 평균이 인 포아송 분포로 근사 평균이 인 포아송 확률변수 의 분산은 역시 이다. 분산이 평균에 비례하기 때문에 분산이 비교적 일정하게 되도록 확률변수 의 변환 을 고려해 보자. 를 어떤 매끄러운 변환이라고 하면 이므로 라는 새로운 확률변수의 기대값과 분산은 대략

즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로 통계자료의 탐색적 분석(EDA) 94 따라서, 의 분산이 에 관계없이 일정하려면 여야 한다. 즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로 이 된다. 한편, 확률변수 는 이 커짐에 따라 (즉, 가 커짐에 따라) 중심극한 정리(central limit theorem)에 의하여 따라서, 근사적으로 = 2배 관측빈도 – 2배 기대빈도 = 2배 제곱근 잔차임을 유의

95 각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를 크게 하기 위하여 범주의 통합이 필요 통계자료의 탐색적 분석(EDA) 95 여러 통계학자들은 라는 표현 대신 이와 비슷한 형태인 을 제안 이것이 정규근사 면에서 보다 약간 낫다는 것을 보였다. 이 재표현 된 변수의 평균과 분산이 대략 과 1이라는 것을 보였다. 그러므로, 또는 이와 거의 비슷한 는 대략 N(0, 1)을 따른다. 모형과 자료의 총체적인 적합도(goodness of fit)는 2배 제곱근 잔차의 제곱합인 여기서 는 각 범주(구간)를 나타내는 첨자 카이제곱 통계량의 자유도가 DF = (범주의 수)-1-(추정된 모수의 수) 적합도의 측도로 쓰이는 피어슨(K. Pearson)의 카이제곱 통계량 각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를 크게 하기 위하여 범주의 통합이 필요

크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정) 통계자료의 탐색적 분석(EDA) 96 5. 정규확률 플롯의 구성 크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정) 이 자료의 경험분포(empirical distribution function) EDF를 로 정의하기로 한다. 그러면, 가 표본 분위수(quantile)가 된다. 왜냐하면, EDA를 그냥 으로 정의하지 않은 이유는 과 같은 대칭성을 통상의 경험분포함수 이 만족시키지 못하기 때문( )

예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자. 이론적으로 분위수는 가 될 것이다. 통계자료의 탐색적 분석(EDA) 97 이 표본을 어떤 특정분포와 비교하려고 한다. 예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자. 이론적으로 분위수는 가 될 것이다. 여기서 는 정규분포 의 분포함수이고, 는 분포함수의 역함수 구체적으로 의 관계가 있으므로 정규분포 의 분위수 는 가 된다. 예를 들어, 인 경우 (=4.625/20.25=0.2284) 분위수는 이고 (=15.625/20.25=0.7716) 분위수는 이다. 만약, 관측자료 가 미리 정해진 와 의 정규분포를 잘 따른다면 정규분포 에서의 분위수와 자료에서의 분위수가 비슷 즉, 의 플롯은 기울기가 1인 직선 에 가까이 있게 될 것이다.

와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면 표준정규분포의 분위수와 자료에서의 분위수인 통계자료의 탐색적 분석(EDA) 98 와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면 표준정규분포의 분위수와 자료에서의 분위수인 를 플롯해 볼 수 있을 것이다. 만약 그렇다면 관계식 가 성립하므로 위의 플롯은 (절편이 이고 기울기가 인) 직선에 가까운 형태를 취하게 된다. [미니탭의 활용] 정규 점수를 구하기 위하여 Calc > Calculator…. 정규확률 풀롯 표준정규분포의 분위수인 를 번째 자료점의 정규점수(normal score)라고 하고 자료점의 정규점수와 그 자료점의 플롯을 말한다.

<정규 점수> <정규 점수와 D변수와의 플롯> 통계자료의 탐색적 분석(EDA) 99 <정규 점수> <정규 점수와 D변수와의 플롯> Graph > Character Graphs > Scatter Plot… <Scatter plot> D - x - - x x 50+ x - x - xx - xx x - x x x 0+ -50+ x - x +---------+---------+---------+---------+Nscore -2.0 -1.0 0.0 1.0 2.0

1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯 지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 통계자료의 탐색적 분석(EDA) 100 6. 정규확률 플롯의 여러 패턴 1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯 지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 모집단에서 40명의 표본을 추출 하여 지능지수 측정 모평균이 100, 모표준편차 15인 정규 확률변량 40개 모의 생성 정규확률 플롯 작성 [미니탭의 활용] 정규분포의 난수 생성 Calc > Random Data > Normal…

정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 통계자료의 탐색적 분석(EDA) 101 정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 정규확률 플롯 Graph > Character Graphs > Scatter Plot … C1(자료) - x - - x 125+ x - x x - x x - xxx - xxx 100+ xxxx2x - xx2xxxx - x xxxxxx - x x - x 75+ x - x --------+---------+---------+---------+---------+--------C2 (정규점수) -1.60 -0.80 0.00 0.80 1.60

2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 통계자료의 탐색적 분석(EDA) 102 2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 평균이 130이고 표준편차가 15인 분포로 부터 20명 [미니탭의 활용] Calc > Random Data > Normal… (평균 70, 표준편차 15 와 평균 130, 표준편차 15) Manip > Stack/Unstack > Stack Columns… Calc > Calculator… Normal Score 작성 Graph > Character Graphs > Scatter Plot… 이 자료들을 혼합시킨 표본자료의 정규확률 플롯 작성 - C3 - x x - x xx x x - xxx 120+ 2xxxx - xxx - 2 - x 80+ xxx - xxxxx - xxxx - x x xx - x 40+ - x --------+---------+---------+---------+---------+--------C4 -1.60 -0.80 0.00 0.80 1.60

3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯 통계자료의 탐색적 분석(EDA) 103 3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯 38개의 자료점은 평균이 100이고 표준편차가 15인 정규분포에서 모의생성 2개의 자료값은 25와 175로 입력 시켜 모두 40개의 자료 Calc > Random Data > Normal…. Manip > Stack > Stack Columns… Graph > Character Graphs > Scatter Plot… C3 - x - 150+ - x x x - xx xx - xxxx2xxxxxx 100+ xxxx2xxxx - x xxxx - x x - x x 50+ - x --------+---------+---------+---------+---------+--------C4 -1.60 -0.80 0.00 0.80 1.60 x x

4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 통계자료의 탐색적 분석(EDA) 104 4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 정규확률 플롯 작성 [미니탭의 활용] - 120+ x x x - x C1 - xx - x - 2xxxxxxx 105+ x - xx - 2 - xxxx - xx 90+ xxxx - x xxx - x x x - x x 75+ --------+---------+---------+---------+---------+--------C2 -1.60 -0.80 0.00 0.80 1.60

5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯 꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 통계자료의 탐색적 분석(EDA) 105 5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯 꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 정규확률 플롯 작성 단, 인 이중지수(라플라스)분포로 부터 40개의 자료 생성 [미니탭의 활용] - - x 210+ x - x C1 - 140+ - xx xx x - x2xxxxxx - xx2xxx2xx - xxx 70+ x xxx - x x x - x x --------+---------+---------+---------+---------+--------C2 -1.60 -0.80 0.00 0.80 1.60

6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 통계자료의 탐색적 분석(EDA) 106 6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 예인 로그 정규분포에서 자료생성 [미니탭의 활용] Calc > Random Data > Lognormal… - 2100+ x C1 - 1400+ - x x 700+ x - xx - xxxxx - xxxx - xxxxxxxx2xxx2xxxx 0+ x x x x xx --------+---------+---------+---------+---------+--------C2 -1.60 -0.80 0.00 0.80 1.60

7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 통계자료의 탐색적 분석(EDA) 107 7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우 작은 값 쪽으로 꼬리를 뻗은 기울어진 분포의 한 예를 만들기 위하여 로그 정규분포 로부터 임의 생성된 변량에 음수 배를 한 후 일정 수를 더하여 표본자료 생성 - xx xx x x x x - x2xxx2xxx2xxxxxx 700+ xx - x xxxxx C2 - x - x - 0+ x x -700+ - x --------+---------+---------+---------+---------+--------C3 -1.60 -0.80 0.00 0.80 1.60

공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 통계자료의 탐색적 분석(EDA) 108 7. 지수분포 및 와이블 분포에의 적합 공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 지수분포(exponential distribution)나 와이블 분포(Weibull distribution)을 고려 지수분포와 와이블 분포의 적합도 Q-Q 플롯(quantile-quantile plot) 작성 지수분포의 확률밀도 함수와 분포함수 따라서 분위수 는 로 주어진다 즉, 표본자료 가 지수분포를 따르는 경우 자료점 를 세로축에, 를 가로축에 플롯 직선의 경향선이 나타남 예를 들면, 백혈병 환자 21명의 생존시간에 관한 자료를 지수분포에 적합 1 1 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23 (단위 : 주) Q-Q플롯을 작성 미니탭을 이용

109 [미니탭의 활용] 경향선의 초기에 많은 자료점이 쏠리게 된다. Q-Q플롯의 세로축 과 가로축을 동시에 세제곱근 변환이 통계자료의 탐색적 분석(EDA) 109 [미니탭의 활용] - 24.0+ - x x C1 - - x 16.0+ - x - x x - x x 8.0+ xxx x - xxxx - x - xxxx 0.0+ +---------+---------+---------+---------+---------+------C4 0.00 0.70 1.40 2.10 2.80 3.50 경향선의 초기에 많은 자료점이 쏠리게 된다. Q-Q플롯의 세로축 과 가로축을 동시에 세제곱근 변환이 필요하다고 인식

와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려 경향선이 약간 오목한 통계자료의 탐색적 분석(EDA) 110 백혈병 자료의 세제곱근 변환 후 Q-Q플롯 와이블 분포의 분포함수 여기서 인 경우는 바로 지수분포가 된다. 와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려 - x C5 - x - - x x 2.40+ - x x x x - xx x x 1.80+ - xx - x x - x 1.20+ x x - x x --+---------+---------+---------+---------+---------+----C6 0.25 0.50 0.75 1.00 1.25 1.50 경향선이 약간 오목한 형태의 곡선성을 보이 므로 자료가 지수분포 에 적합하지 않은 것 을 알 수 있다

(2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서 통계자료의 탐색적 분석(EDA) 111 변수변환에 의하여 의 확률밀도함수는 가 되고 분포함수는 가 유도된다. 이 분포의 분위수를 라고 하면 와이블 분포의 Q-Q플롯을 그리는 순서 (1) 자료를 (자연)로그 변환 후 (2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서 경향선이 직선 형태인 경우 표본자료가 대체적으로 와이블 분포를 따르는 것으로 생각 ( 이 때 직선의 기울기는 의 추정치임)

Graph > Character Graphs > Scatter Plot… 통계자료의 탐색적 분석(EDA) 112 [미니탭의 활용] Calc > Calculator… Graph > Character Graphs > Scatter Plot… 도표의 기울기가 대략 0.8정도인 직선형태 와이블 분포에서의 모수 a에 대한 추정치 는1/0.8=1.25 (즉, a=1(지수분포) 과 약간의 차이를 두고 있다. - x 3.0+ x - xx C5 - - x xxx - 2.0+ xx xx - xx - x x 1.0+ x - x x 0.0+ x x +---------+---------+---------+---------+---------+------C4 -4.0 -3.0 -2.0 -1.0 0.0 1.0

⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 통계자료의 탐색적 분석(EDA) 113 8. 요약 ⊙ 자료와 확률모형과의 적합도 평가 ⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 절대값이 2이상인 DRSS 는 우선 주목 대상이 된다. ⊙ 미니탭에서 DRSS를 구하기 위해서는 Rootogram 명령어 사용 ⊙ Q-Q플롯은 모형의 적합도를 평가 정규확률 플롯 이용 ⊙ 혼합 정규분포로 부터의 표본자료는 정규확률 플롯에서 좌하와 우상부분의 형태가 ‘ ’ 형태를 보이며 중간 부분에서의 자료점 밀도가 양 옆에 비하여 낮다. ⊙ 특이값이 내재된 표본자료는 정규확률 플롯에서 점들이 양쪽 끝에 떨어져 나가 있다. 작은값 특이점은 주경향선 보다 아래쪽에 있고 큰 값 특이점은 주경향선 보다 위쪽

⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태 통계자료의 탐색적 분석(EDA) 114 ⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태 ⊙ 정규분포보다 긴 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 역 S자형태 ⊙ 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 J자 형태의 경향선을 갖는다. ⊙ 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 역 J자 형태의 경향선을 갖는다. ⊙ 수명자료에 대하여는 지수분포 Q-Q플롯이나 와이블 분포 Q-Q플롯을 그릴 수 있다. 직선형태의 경향선이 보이는 경우 표본 자료는 해당하는 확률모형과 적합성을 갖는 다.