Missing Value
Missing value 가 있을 때 어떻게?
학술지 검색 결과 1993년-1997년 5년간 정치학 분야의 학술지 조사 : 50%의 결측치, 19%만 보고 (King et al., 2001) <상담관련학회지>
왜 Missing value 가 생겼는가?
Why? 성별에서 결측치 발생. Why? 부모 수입에서 결측치 발생. Why? 우울척도에서 특정 문항 결측치 발생. Why? Question! 성별에서 결측치 발생. Why? 부모 수입에서 결측치 발생. Why? 우울척도에서 특정 문항 결측치 발생. Why?
Missing value의 영향 출처: Hsieh et al.
유형 Missing Completely At Random (MCAR : 완전임의 결측) 가장 좋은 경우 unbiased 결과 결측 값이 영향을 주지 않음 연구에도 영향을 주지 않음 Missing At Random (MAR : 임의 결측) 상대적으로 MCAR에 비해 좋지 않은 경우 결측 값이 관측된 값과 관련이 있음. 결측 자료와는 상관없음 biased 결과일 수 있음
유형 Not Missing At Random (NMAR : 비임의 결측) 가장 안 좋은 경우 결측 값이 결측 값 그 자체와 관련이 있는 경우 biased 결과 그대로 사용하기에는 문제가 있음
Methods 좋지 못한 분석 방법 Listwise Deletion Single imputation 좋은 분석 방법 EM Algorithm Multiple imputation (MI) (Full information) maximum likelihood (ML)
Deletion Listwise (목록별 제거) 결측치가 있는 변수를 모두 제거 결측치가 많을 경우 유효 사례수 줄어들 수 있음 타당성 결여 가능
Simple imputation (1) mean or median imputation 사용이 용이 Biased 결과일 가능성 큼 예: 특정 사람들이 missing이 많을 경우 과대 또는 과소추정 가능
Simple imputation (1)
Simple imputation (2) 회귀대체방법 다중선형 또는 로짓회귀분석 이용 다른 독립변수를 통해 결측값 예측 오차를 과소평가할 수 있음
Simple imputation (2) y = β0 + β1X1 + β2X2 + β3X3 + β4X4 ID 나이 성별 완벽 주의 우울 불안 1 70 F 4 3.8 8.1 2 6 0.6 1.2 3 60 M 5 1.1 3.3 85 1.3 3.2 1.7 y = β0 + β1X1 + β2X2 + β3X3 + β4X4 y = 0.31+ 0.003X1+(-0.58)X2+(-0.25)X3+0.25X4 5번 : 70살, 남, 완벽주의 3, 불안 1.7, 우울? (0.31)+(0.003)*70+(-0.58)*1+(-0.25)*3+(0.25)*1.7 = -0.385
EM Algorithm MLEs 를 찾는 방법 - 최대 우도 추정 (Maximum Likelihood Estimation) E-step (Expectation step)과 M-step (Maximization step) E-step - 관찰된 데이터를 통해 잠재변수의 기대치를 계산 M-step 기대치가 부여된 잠재변수를 이용하여 모수들의 최대우도 추정치를 계산
EM Algorithm
EM Algorithm
Multiple imputation Multiple imputation은? single imputation Variance가 과수 추정될 수 있음 (10, 20, 30) mean = 20, variance = 100 (10, 20, 30, 20, 20, 20) mean = 20, variance = 40 biased 결과 야기 EM algorithm Randomly하게 추정하지 않음 Multiple imputation은? 다수의 후보 값을 구하여 그 중에서 무작위로 대체값을 선정 덜 biased 결과
Multiple imputation 출처 : 강민아, 김경아(2006)
Multiple imputation
Multiple imputation
Multiple imputation
Multiple imputation
Multiple imputation
FIML (완전정보최우도법)