Missing Value.

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원
3 학년 문제가 남느냐, 내가 남느냐 1. ( 아씨방 일곱 동무 ) 아씨의 방에는 바느질을 위한 친구가 몇 명이 있었나요 ? 정답은 ? 일곱.
주사위를 이용한 땅 따먹기 청솔초 영재학급 4 학년 장 택 민 목차 1. 제작 동기와 원리 2. 필요한 도구 3. 게임규칙 설명 4. 게임 분석 및 전략 1. 제작 동기와 원리 2. 필요한 도구 3. 게임규칙 설명 4. 게임 분석 및 전략.
지도교사 : 김은이 선생님 연현초등학교 5 학년 조인해 연현초등학교 5 학년 최지원 우리는 항상 먹기 싫은 쓴 약을 먹을 때 달콤한 주스 나 탄산음료와 함께 마시면 쓴 약을 쉽게 먹을 수 있 을 텐데, 사람들은 감기약, 두통약, 영양제등과 같은 알약을 먹을 때 너무나.
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
제13장 로지스틱회귀분석.
“할배들의 수다” 전통시장 최고의 집을 찾아라
금속의 종류와 액체의 성질에 따른 금속의 부식 창의적 산출물 연구 보고서 부명 초등 학교 임재윤 지도교사 노지은선생님
팀명 : 정효가현팀 팀원 : 김효진, 이가현, 이정민
MBC 손에 잡히는 경제 - 직장 내 성차별에 관한 조사 -
비뇨계통.
표본분포 Sampling Distribution
3일차 - 가설검정.
제12주 회귀분석 Regression Analysis
목차 백업과 복원.
후 공진향 피부 비책 마스크 3종 Beauty. 컨텐츠 개발팀.
인권의 이해.
Heesang kim PL/SQL 3 Heesang kim.
제 10장 주성분 분석(PCA) 주성분 분석(PCA)이란? 여러 개의 양적변수들 사이의 분산-공분산 관계를
근사값과 반올림 오차 절단 오차와 Taylor 급수 오차의 전파
상관분석 (p , p ).
영원한 복음.
제주닷컴 매뉴얼 (실시간 예약시스템) 2013년 10월.
국가대표 생애주기교육 프로그램 참여방법 안내
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
군집 분석.
Linear Mixed Model을 이용한 분석 결과
(신)비취가인천비방진연3종기획1 182,000 ▶ 91,000 (신)비취가인 천비방 진연수
(independent variable)
소금물과 물의 부력 차이 실험 작성자 - 백민준.
수업 첫 날 교육B 황유미 첫 수업 계획에 대해 알아보도록 하겠습니다..
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
연결링크 이미지를 마일리지샵 내에 기획전으로 제작하여 오픈/노출 사이즈 가로 1000/세로 상관x 배너사이즈 가로 400
단순회귀분석 (Simple Linear Regression Analysis)
Decision Tree & Ensemble methods
사과는 왜 갈변 할까? 조장: 31017유수빈 조원:31024이지은.
Multiple regression analysis
I-PIN 그리고 My-PIN 김가영 김경보 윤재호 이주헌
논문작성을 위한 연구모형 설정 양동훈.
Canary value 스택 가드(Stack Guard).
0801 Workshop.
추정의 이론.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승
식물의 성장조건 만 든 이 : 김지혁 지도교사 : 김경순선생님.
과학 1 학년 2 학기 생명> 04.태아의 발생 과정은 어떻게 진행될까?[ 4 / 6 ] 수정과 착상 수업계획 수업활동.
<2013 과학탐구 보고서> 우유와 발효유가 일정온도에서 만나면?
Excel 일차 강사 : 박영민.
자녀의 심리적 안정도에 미치는 부모요인 분석.
[알파코스] 네 번째 왜 그리고 어떻게 기도해야 하는가?.
Support Vector Machine
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
P 보일의 법칙 - 생각열기 – 기포가 수면으로 올라가면 크기는 어떻게 될까?
Ⅱ. 물질의 특성 물질의 끓는점.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
제 12장  원가추정 강사: 정재을 과목: 원가회계.
텍스트 분석 ㈜ 퀀트랩.
실습 : Sampling / Excel macro
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
NACST progress report 신수용.
걱정 고민 가득 할 때 - 어떻게 해결 하나요 - C Em Dm G 1. 걱정 고민 가득 2. 슬픈 마음 심술 3. 괜찮아요
Presentation transcript:

Missing Value

Missing value 가 있을 때 어떻게?

학술지 검색 결과 1993년-1997년 5년간 정치학 분야의 학술지 조사 : 50%의 결측치, 19%만 보고 (King et al., 2001) <상담관련학회지>

왜 Missing value 가 생겼는가?

Why? 성별에서 결측치 발생. Why? 부모 수입에서 결측치 발생. Why? 우울척도에서 특정 문항 결측치 발생. Why? Question! 성별에서 결측치 발생. Why? 부모 수입에서 결측치 발생. Why? 우울척도에서 특정 문항 결측치 발생. Why?

Missing value의 영향 출처: Hsieh et al.

유형 Missing Completely At Random (MCAR : 완전임의 결측) 가장 좋은 경우 unbiased 결과 결측 값이 영향을 주지 않음 연구에도 영향을 주지 않음 Missing At Random (MAR : 임의 결측) 상대적으로 MCAR에 비해 좋지 않은 경우 결측 값이 관측된 값과 관련이 있음. 결측 자료와는 상관없음 biased 결과일 수 있음

유형 Not Missing At Random (NMAR : 비임의 결측) 가장 안 좋은 경우 결측 값이 결측 값 그 자체와 관련이 있는 경우 biased 결과 그대로 사용하기에는 문제가 있음

Methods 좋지 못한 분석 방법 Listwise Deletion Single imputation 좋은 분석 방법 EM Algorithm Multiple imputation (MI) (Full information) maximum likelihood (ML)

Deletion Listwise (목록별 제거) 결측치가 있는 변수를 모두 제거 결측치가 많을 경우 유효 사례수 줄어들 수 있음 타당성 결여 가능

Simple imputation (1) mean or median imputation 사용이 용이 Biased 결과일 가능성 큼 예: 특정 사람들이 missing이 많을 경우 과대 또는 과소추정 가능

Simple imputation (1)

Simple imputation (2) 회귀대체방법 다중선형 또는 로짓회귀분석 이용 다른 독립변수를 통해 결측값 예측 오차를 과소평가할 수 있음

Simple imputation (2) y = β0 + β1X1 + β2X2 + β3X3 + β4X4 ID 나이 성별 완벽 주의 우울 불안 1 70 F 4 3.8 8.1 2 6 0.6 1.2 3 60 M 5 1.1 3.3 85 1.3 3.2 1.7 y = β0 + β1X1 + β2X2 + β3X3 + β4X4 y = 0.31+ 0.003X1+(-0.58)X2+(-0.25)X3+0.25X4 5번 : 70살, 남, 완벽주의 3, 불안 1.7, 우울? (0.31)+(0.003)*70+(-0.58)*1+(-0.25)*3+(0.25)*1.7 = -0.385

EM Algorithm MLEs 를 찾는 방법 - 최대 우도 추정 (Maximum Likelihood Estimation) E-step (Expectation step)과 M-step (Maximization step) E-step - 관찰된 데이터를 통해 잠재변수의 기대치를 계산 M-step 기대치가 부여된 잠재변수를 이용하여 모수들의 최대우도 추정치를 계산

EM Algorithm

EM Algorithm

Multiple imputation Multiple imputation은? single imputation Variance가 과수 추정될 수 있음 (10, 20, 30)  mean = 20, variance = 100 (10, 20, 30, 20, 20, 20)  mean = 20, variance = 40 biased 결과 야기 EM algorithm Randomly하게 추정하지 않음 Multiple imputation은? 다수의 후보 값을 구하여 그 중에서 무작위로 대체값을 선정 덜 biased 결과

Multiple imputation 출처 : 강민아, 김경아(2006)

Multiple imputation

Multiple imputation

Multiple imputation

Multiple imputation

Multiple imputation

FIML (완전정보최우도법)