패널자료 분석 1 2016. 5. 21.
Instructor 박은자 (Email : dolhee71@hanmail.net) 학력 중앙대학교 약대졸업 서울대학교 보건대학원 보건학 석사(보건통계학) 보건학 박사(역학) 경력 서울대학교병원 인턴약사 한국보건사회연구원 (의약품정책연구)
주별 강의내용 과제물 등 제 1 주(5/21) 패널자료 분석방법의 개요 패널자료의 구조 (실습) 노트북 제 2 주(5/28) 패널자료의 데이터 관리 (실습) 패널자료의 기초 통계분석(실습) 노트북 제 3 주(6/11) - 고정효과 모형 (실습) - 확률효과 모형 (실습)
교재 교재 민익식, 최필선. STATA 패널데이터 분석. 한국 STATA학회. 2012
회귀분석
회귀분석: 회귀(Regression)의 개념 회귀는 독립변수와 종속변수의 관계를 설명하고 평가하는 통계도구이다. 회귀분석의 설명은 관계추정모형을 근거로 한다. 모형은 직선일수도 있고(선형모형), 어떤 함수형태의 곡선일 수도 있다. 회귀분석은 예측을 위해 사용되거나 탐색을 위해 사용된다.
결과변수에 따른 회귀모형 결과변수 회귀모형 예시 연속변수 Continuous 일반회귀분석 (Ordinary) regression 전립선-특정항원(PSA) 수준에 대한 BMI 예측 순위 Ranks 순서 회귀분석 Ordered regression 4가지 수면보조제의 효율성 등급에 영향을 미치는 요인에 대한 연구 2개 카테고리 Categorical : two categories 로지스틱 회귀분석 Logistic regression 방사선 치료 투약과 유방암 재발과의 관련성에 대한 연구 3개 이상 카테고리 : several categories 다중명목 회귀분석 Multinomial regression 화학선 각질 치료 후 완치, 재발 각질, 비늘모양세포종 진화에 영향을 미치는 요인에 대한 연구 발생횟수 Counts 포아송 회귀분석 Poisson regression 감염병 발생수와 식이요법, 항생제 요법의 관련성에 대한 연구 생존(독립변수: 시간) Survival 콕스 비례위험 회귀분석 Cox (proportional hazards) 시간에 따른 생존
회귀분석의 가정 오차항의 평균은 0이고, 오차항들은 동분산을 갖는다. (등분산성의 가정) 오차항들은 서로 독립이다. (독립성의 가정) 오차항들은 정규분포를 따른다. (정규성의 가정) 독립변수는 확률변수가 아니다.
상관된 관측치의 분석
상관된 관측치 같은 대상자를 여러 시점에서 측정하는 경우(패널자료) 같은 대상자에게 서로 다른 치료를 한 후 여러 번 측정하는 경우 (교차설계) 같은 대상자의 서로 다른 신체부위에서 여러 번 측정하는 경우 연관된 개인으로 구성되는 집단으로부터 개인을 무작위 추출하여 조사하는 경우 시군구 단위로 샘플링한 사람들을 대상으로 지역의 간접흡연규제가 금연에 영향을 미치는 지 조사 가족단위로 샘플링하여 가족의 경제수준이 학업성취에 영향을 미치는 지 조사 개별 짝짓기한 환자-대조군연구
상관된 관측치 군집내(within subject) 에서 관측치가 군집간(between subject) 관측치보다 더 비슷함. 건강에 대한 가치부여가 높은 사람들은 가치부여가 낮은 사람들보다 여러 질병상태의 삶의 질을 전반적으로 낮게 평가할 수 있음. 남편이 고혈압이 있는 경우 부인이 고혈압이 있을 경우가 커짐. 이러한 상관성을 무시할 경우 통계적 유의성을 overestimate할 수 있음.
상관된 관측치분석: 그룹내 상관을 무시하고 분석
상관된 관측치 분석: 다수준분석 Yijk = (j + aij) + (j + bij)k + eijk j and j are fixed effects for groups other effects are random → Multilevel analysis
상관된 관측치분석: 분산-공분산 구조를 사용하여 분석 → GEE
상관된 관측치의 분석 다수준분석 일반화추정방정식 반복 측정 분산분석(RM ANOVA) 조건부 로지스틱 회귀분석 패널분석
관찰방법에 따른 조사방법 횡단적 조사(cross-sectional research) 한 시점에서 각각 다른 연령집단을 관찰 개인의 시간에 따른 변화는 관찰할 수 없음 종단적 조사(longitudinal research) 일정한 시간 간격을 두고 반복 관찰, 조사 개인의 시간에 따른 변화를 관찰할 수 있음. 경향조사(trend analysis research) 일정한 연령집단을 각각 다른 시기에 조사 같은 연령군의 시대적 차이를 연구
관찰방법에 따른 조사방법
자료의 유형 횡단면자료(cross-sectional data) 시계열자료(time-series data) 특정 시점에 있어서 여러 개체의 현상이나 특성을 수집한 자료 시계열자료(time-series data) 특정 개체의 현상이나 특성을 시간순으로 기록해 놓은 자료 패널자료(panel data) 여러 개체에 대해 그 현상이나 특성을 일련의 관측시점별로 수집한 자료 시계열자료와 횡단면자료를 하나로 합쳐 놓은 자료 사회과학분야에서는 패널자료로 자연과학분야에서는 종단면자료(longuitudinal data)라고 불림.
패널자료
패널자료의 장점 횡단면자료는 변수들 간 정적(static) 관계만을 추정할 수 있는데 비해, 패널자료는 동적(dynamic) 관계를 추정할 수 있다. 개체들의 관찰되지 않은 이질성(unobserved heterogeneity) 요인을 모형에서 고려할 수 있다. 횡단면자료, 시계열자료에 비해 더 많은 정보와 변동성(variability)을 제공하며, 선형회귀모형에서 다중공선성(multi-collinearity) 문제를 완화시킬 수 있다.
패널자료의 단점 데이터 수집이 어려우며, 결측치가 발생할 가능성이 크다. 국가, 지역이 패널그룹일 경우 패널 그룹간 상관관계가 있을 수 있다. 개인이 패널그룹일 경우 시간변수의 길이가 짧다.
국내 주요 패널자료 조사명 조사대상 조사기관 시작연도 조사 간격 한국노동패널조사 15세 이상 한국노동연구원 1998 1년 한국복지패널 20세 이상 서울대학교, 한국보건사회연구원 2006 고령화연구패널조사 45세 이상 2년 여성가족패널조사 19-64세 한국여성정책연구원 2007 한국의료패널 한국보건사회연구원, 국민건강보험공단 2008 노인실태조사 및 복지욕구조사 65세 이상 한국보건사회연구원 2011 3년 건강보험공단 표본코호트 DB 2002년 자격 대상자 100만명 건강보험공단 2002-2013
패널자료 분석: Between Effects 모형 패널데이타의 시계열 특성을 고려하지 않고 개체간 변동만을 고려하는 모형이다. 각 개체의 시계열 관측치 그룹의 평균값을 이용하여 계수를 추정한다. yit = α + βxit + ui + eit i: 개인 t: 시간 ui: 시간에 따라 변하지 않는 패널 개체특성을 나타내는 오차항 eit : 시간과 패널 개체에 따라 변하는 순수 오차항 = α + β + ui +
패널자료분석: 고정효과(fixed effect) 모형 오차항 ui 를 확률변수(random variable)가 아닌 추정해야 할 모수(parameter)로 간주한다. 기울기 모수는 모든 패널 개체에 대해 동일하지만, 상수항 (α + ui) 는 개체별로 달라진다. yit = α + β xit + ui + eit (1) = (α + ui) + β xit + eit i: 개인 t: 시간 ui: 시간에 따라 변하지 않는 패널 개체특성을 나타내는 오차항 eit : 시간과 패널 개체에 따라 변하는 순수 오차항
패널자료분석: 고정효과(fixed effect) 모형 yit = α + β xit + ui + eit (1) = (α + ui) + β xit + eit = α + β + ui + (2) (1)-(2): within 변환을 적용한 추정모형 (yit - ) = β(xit - ) +( eit - ) → 고정효과모형 추정방법 1 패널개체별 더미변수 이용 yit = ∑αi + βxit + eit → 고정효과모형 추정방법 2 𝑦 𝑖 𝑥 𝑖 𝑒 𝑖 𝑦 𝑖 𝑥 𝑖 𝑒 𝑖
패널자료분석: 확률효과(random effect) 모형 𝜎 𝑢 2 ui를 확률변수로 가정한다. ui ~ N(0, ) Between effect 모형과 고정효과(fixed effect) 모형의 weighted average로 파라미터를 추정한다. 패널간 정보와 패널내 정보를 모두 활용하며, 시간에 따라 변하지 않는 변수의 효과를 추정할 수 있다는 장점이 있다. 설명변수의 외생성이 성립하지 않는다면 파라미터 추정이 정확하게 되지 못하는 단점이 있다.
성장곡선모형에 대한 접근 Growth curve model, 성장곡선모형, 변화모형 : 시간에 따른 변화를 모델링함.
성장곡선모형에 대한 접근: multilevel regression (MLR) model 중2 중3 고1 고2 고3 학생1 지역1 학생2 Level 1: individual change over time 초기 상태(intercept)와 성장(slope) Level 2: interindividual difference Level 3: area
성장곡선모형에 대한 접근: structural equational model (SEM)
STATA로 통계분석하기
Stata 프로그램의 파일 저장 주 실행 프로그램은 C:\Program Files\Stata10 폴더에 설치된다. 많은 명령어들이 C:\Program Files\Stata10\ado\base 폴더에 설치된 ado 파일로 정의된다. 업데이트 할 경우 새로운 ado 파일이나 수정된 파일이 C:\Program Files\Stata10\ado\update 폴더에 설치된다.
Stata 파일 종류 .dta 파일: Stata 데이터 .do 파일: 명령문 파일 .ado 파일: 프로그램 .sthlp 파일: 도움말 .gph 파일: 그래프 .txt 파일: 표준 ASCII 포맷 (일반 텍스트 파일) .scheme: 그래프 설정
명령어의 일반 구문 [접두어:] 명령어 [변수 목록] [if] [in] [가중값] [, 옵션] 명령어에 대한 온라인 도움말은 help 명령어를 사용하여 볼 수 있다. 데이터셋에 있는 모든 변수를 선택할 경우 _all을 사용한다. 명령문에 종속변수를 지정하는 경우, 변수 목록의 맨 앞에 위치시킨다. 숫자 목록은 줄여서 쓸 수 있는 숫자의 목록이다. 1(3)11은 1 4 7 10 을 의미한다. 1/5는 1 2 3 4 5를 의미한다. 예) 연령을 0-4, 5-14, 15-24, …, 75-84, 85+로 구분한 변수만들기 egen agegrp=cut(age), at(0 5(10)85 200) 연령을 0-24, 25-44, 45+로 구분한 변수 만들기 recode age (0/24=1)(25/44=2)(45/max=3), generate(agegr)
명령어의 일반 구문 if 한정어는 어떤 명령어가 적용될 관찰값을 선택하는 논리식에서 사용한다. keep if sex==1|age<=25 in 한정어는 명령어가 적용될 관찰값을 선택하기 위해 사용한다. list sex age weight in 23 23번째 관찰값 by 변수목록: 접두어를 이용하면 데이터를 여러 층으로 나누어 계산을 수행하고 결과를 출력한다. 반드시 데이터를 층을 이루는 변수로 미리 정렬시켜야 한다. sort sex by sex: summarize age height weight
명령어의 일반 구문 do-파일과 ado-파일에 다음 세가지로 주석(comment)를 적을 수 있다. *로 시작하는 행 /*과 */로 둘러싸인 텍스트 //로 시작하는 텍스트 do-파일과 ado-파일에 명령어가 한 줄에 끝나면 명령을 끝내기 위한 구분기호가 필요없다. ///을 입력하여 명령문이 다음 행에 계속됨을 지정할 수 없다. 결측값은 어떤 유효한 숫자보다 큰 값으로 취급된다.
변수명 변수 이름은 1-32 글자가 가능하다. (최대 10글자 이내로 붙이는 것이 바람직) 변수 이름은 1-32 글자가 가능하다. (최대 10글자 이내로 붙이는 것이 바람직) 알파벳, 숫자, _(밑줄)은 변수 이름으로 사용 가능하다. 비영어권 문자는 사용이 불가능할 수도 있다. 변수 이름은 반드시 문자로 시작되어야 한다.
오류와 오류 메시지 대소문자 구별: STATA는 명령어, 변수에서 대소문자를 구별한다. 관계식 등호: 지식 등호(=)와 관계식 등호 (==)를 구별한다. 쉼표와 옵션: 쉼표 다음에 나오는 모든 것을 옵션으로 해석한다. 옵션 이름과 설명 사이의 빈칸: 옵션 이름과 이어지는 괄호 사이에 빈칸이 있으면 안된다.
Stata로 데이터 가져오기와 내보내기 cd C:\docs\proj1 디렉토리를 변경한다. use example1.dta 현재 디렉터리에 example.dta를 불러온다. use c:\docs\proj1\example1.data sysuse auto Stata 설치시 함께 설치된 데이터셋 불러오기 webuse lwb.dta 인터넷에서 이용 가능한 데이터셋 불러오기 save example2.dta 현재 디렉터리에 example2.dta를 저장한다. clear 메모리에 있는 데이터를 지운다.
데이터 입력하기 작은 데이터셋인 경우 input 명령어로 변수를 정의하고 값을 입력한다. input case expose pop 0 0 100 0 1 30 1 1 21 end
엑셀데이타 가져오기 엑셀에서 데이터파일을 연다 엑셀 메뉴에서 [파일 > 다른 이름으로 저장]을 선택한 후 파일형식 텍스트(탭으로 분리)를 선택한 후 저장한다. STATA 프로그램 메뉴바 [File > Import > ASCII data created by a spreadsheet]를 선택한다.
엑셀데이타 가져오기
엑셀데이타 가져오기 명령문을 사용하여 텍스트 파일을 불러들일 수 있다. 명령문을 사용하여 엑셀 파일을 불러들일 수 있다. insheet using “c:\ejpark\stata\pharm.txt”, clear 명령문을 사용하여 엑셀 파일을 불러들일 수 있다. xmluse pharm.xml, doctype(excel) sheet(“sheet1”) firstrow firstrow 옵션은 스프레드시트의 첫째 줄을 변수 이름으로 가져온다.
엑셀로 데이터 변환하기 xmslave pharm.xml, doctype(excel)
패널자료의 구조 및 데이터 관리
패널자료의 구조 패널구조는 기본적으로 같은 응답자가 여러 해에 걸쳐서 반복적으로 응답을 한 것을 기록한 구조이다. 개인식별자(ID)를 중심으로 해서 연간 자료가 붙어있는 모습을 갖는다.
패널데이터의 정렬 패널분석을 하기전 tsset, xtset을 사용하여 데이터를 정렬한다. ☼ 문자변수 → 숫자변수: encode ☼ 숫자변수 → 문자변수: decode
use P_data1_1 tsset state_code year panel variable: state_code (strongly balanced) time variable: year, 1970 to 2000, but with gaps delta: 1 unit xtset state_code year encode state, gen(state_code1) label list state_code1: 1 CT 2 MA 3 ME 4 NH 5 RI 6 VT decode state_code1, gen(state1)
패널데이터의 유형 균형패널 vs. 불균형패널 균형패널: 각 개체의 데이터 포괄기간이 서로 동일한 경우 불균형패널: 각 개체의 데이터 포괄기간이 서로 동일하지 않은 경우 시간갭(time gap)이 있는 패널 vs. 시간갭이 없는 패널
시간갭이 없는 균형패널 use P_data1_2 tsset state_code year panel variable: state_code (strongly balanced) time variable: year, 1970 to 1973 delta: 1 year
시간갭이 있는 균형패널 use P_data1_1 tsset state_code year panel variable: state_code (strongly balanced) time variable: year, 1970 to 2000, but with gaps delta: 1 unit *시간갭이 없는 데이터로 인식 by state_code, sort: gen time=_n tsset state_code time time variable: time, 1 to 4
시간갭이 없는 불균형패널 use P_data1_3 tsset state_code year panel variable: state_code (unbalanced) time variable: year, 1970 to 1973 delta: 1 year
시간갭이 있는 불균형패널 use P_data1_4 tsset hhid year panel variable: hhid (unbalanced) time variable: year, 2000 to 2006, but with gaps delta: 1 unit