국민건강영양조사 한국보건의료연구원 이 자 연 2016.3.5
실시 목적 국민의 건강 및 영양 상태에 관한 현황 및 추이를 파악하여, 국가 대표통계 생산 국민건강증진종합계획 목표 지표 설정 및 평가 600여 개 보건지표 생산 건강행태: 흡연, 음주, 신체활동 등 질병유병: 비만, 고혈압, 당뇨병, 구강질환, 폐질환, 안질환 등 영양상태: 식품 및 영양소 섭취량, 식행태 등 국가간 비교(세계보건기구(WHO), 경제협력개발기구(OECD))를 위한 근거자료 제공 OECD Health data 제공 건강행태: 흡연, 주관적 건강인지 등 질병유병: 비만, 당뇨병, 고혈압 등 영양상태: 식품소비 등
추진 경과 ‘국민건강영양조사’는 ‘국민영양조사’(1969년 도입)와 ‘국민건강 및 보건의식행태조사’ (1971년 도입)를 통합하여 1998년부터 시작
조사연혁 제1~3기까지는 3년의 간격을 두고 당해 연도에 2~3개월 동안 실시된 단기조사로 운영 제4기 1차년도(2007)부터 질병관리본부에서 ‘전문조사수행팀’을 구성하여 계절적 편향 없이 매년 통계생산이 가능한 연중조사로 수행
조사절차
표본설계
조사대상 매년 192개 지역, 약 3,840가구의 만 1세이상 가구원 전체(약 10,000명)
조사방법
조사 내용 대상자의 생애주기별 특성에 따라 소아(1~11세), 청소년(12~18세), 성인(19세 이상)으로 나누어, 각기 특성에 맞는 조사항목을 적용
조사내용: 검진조사
조사내용: 검진조사 구분 조사항목 조사대상자 비고 * 제6기 2차년도(2014년) 조사 기준 신체계측 신장,체중,허리둘레 만1세 이상 혈압측정 수축기혈압, 이완기혈압,맥박 만10세 이상 3회 측정 근력검사 근력측정 악력 3회 측정 혈액검사 이상지혈증검사 총콜레스테롤,중성지방,고밀도저단백콜레스테롤,저밀도저단백콜레스테롤 신장기능 혈중요소질소,크레아티닌 당뇨병 공복시혈당,당화혈색소 간질환 B형간염표면항원,C형간염항체,C형간염핵산검사,지오티,지피티 C형간염항체 양성자에 한함 빈혈 헤모글로빈,헤마토크리트 일반검사 적혈구수,백혈구수,비타민D 갑상선질환 갑상선자극호르몬, 유리티톡신, 항갑상선 과산화효소항체 소변검사 요오드 미세알부민 뇨단백,뇨당,뇨잠혈,유로빌리노겐,케톤,빌리루빈,뇨비중,요산도,아질산염,요크레아티닌,코티닌,요나트륨 구강검사 치아 상태(치아우식증, 치아반점도, 의치 상태), 치주조직 상태(지역사회 치주 지수) 폐기능검사 만성폐쇄성폐질환 만40-79세 최소3회~최대8회 시행 안검사 시력 및 굴절검사, 색각이상 만19-49세 이비인후검사 만성비부비동염, 소음노출 등 만40세이상 * 제6기 2차년도(2014년) 조사 기준
조사내용: 검진조사
조사내용: 건강설문 구분 조사항목 조사대상자 조사방법 가구조사 성, 연령, 결혼상태, 가구원수, 세대유형, 가구소득, 건강보험 가입, 민간보험 가입, 출생시/현재 국적, 치매진단 여부 가구원 중 성인 1인 면접조사 성인용 이환, 의료이용, 예방접종 및 건강검진, 활동제한 및 삶의 질, 손상(사고 및 중독), 신체활동, 정신건강, 교육 및 경제활동, 여성건강 만19세이상 흡연, 음주, 비만 및 체중조절, 안전의식, 정신건강(수면시간, 스트레스인지), 구강건강 자기기입 청소년용 이환, 의료이용, 예방접종, 활동제한, 손상(사고 및 중독), 신체활동, 교육 및 경제활동, 여성건강 만12세~18세 흡연, 음주, 비만 및 체중조절, 안전의식, 정신건강, 구강건강 소아용 이환, 의료이용, 예방접종, 활동제한, 손상(사고 및 중독), 여성건강 만1세~11세 면접조사 (보호자 대리 응답) 비만 및 체중조절, 안전의식, 구강건강, 교육수준 자기기입 (자기기입식 대리응답) * 제6기 2차년도(2014년) 조사 기준
조사내용: 건강설문(건강면접조사)
조사내용: 건강설문(건강행태조사, 자가기입)
조사내용: 영양조사 구분 조사항목 조사대상자 식생활조사 - 끼니별 식사빈도 - 외식빈도 - 끼니별 동반식사 여부 및 동반대상 - 식이보충제 복용 경험 - 영양지원 프로그램 수혜 만1세이상 - 영양교육 및 상담 경험 - 영양표시 인지 및 이용 여부, 영양표시 관심영양소, 영양표시 영향 여부 초등학생이상 - 모유 수유 여부, 수유 기간 - 조제분유 수유 여부, 수유 기간 - 이유보충식, 시판우유 섭취 시작 시기 만1-3세 식품섭취조사 - 조사1일전 하루 동안 섭취한 음식의 종류 및 섭취량 - 조리방법 식품섭취빈도조사 - 112개 음식 항목의 섭취 빈도와 1회 섭취량 만19-64세 식품안정성조사 - 가구의 식품안정성 확보 식생활 관리자 * 제6기 2차년도(2014년) 조사 기준
결과활용 국제기구(OECD, WHO 등)가 요구하는 건강지표 통계 산출과 국가 간 비교 소아·청소년 표준성장도표 개발 영양섭취기준의 제정 건강 및 영양 취약계층 파악 프로그램 개발, 예방 및 관리 방안 수립
표본추출방식 제4기(2007~2009)부터 연중조사체계로 개편됨에 따라 3개년도가 각기 독립적인 3개의 순환표본으로 전국을 대표하는 확률표본이 될 수 있도록 순환표본조사(Rolling Sampling Survey)방식을 도입
원시 자료
원시자료 최초 수집된 자료에서 입력오류, 조사오류 및 논리적 오류, 이상치 등을 수정, 제거한 가공된 자료
원시자료 소개
원시자료 받기
동의서 및 조사표
DB 구성 조사부문별 DB 구성 조사별 DB 조사부문별 변수 개수를 고려하여 DB 분리 공통변수(ID, 성, 연령, 층화변수, 가중치 등)는 모든 DB에 포함 조사별 DB
제공자료 원시자료 이용 지침서 조사표 자료분석지침서 식품섭취조사 식품코드 및 음식코드 자료에 대한 개괄적 설명 변수설명서, 자료 이용 유의사항 자료 구조, 분석방법(SAS) 조사표 설문문항 검토 및 변수 구조 파악 가능 제5기부터 자료이용지침서에 포함 자료분석지침서 복합표본자료 분석방법 가중치 사용, 연령표준화 등 식품섭취조사 식품코드 및 음식코드 결과보고서, 표본설계 보고서, 조사 질관리 보고서 등
원시자료이용지침서
원시자료이용지침서 조사개요 자료구조 및 분석방법 원시자료 구성 자료이용, 해석 시 유의사항등을 간단히 정리 결과물 활용 시 자료원 표기법 기재 자료구조 및 분석방법 자료분석 전 DB 파악에 유용 원시자료의 구조 및 구성에 대한 내용 자료통합방법 및 통합자료 분석 관련 내용 주요 지표 산출 프로그램 수록 원시자료 구성 건강설문조사/검진조사/영양조사 조사항목
원시자료 이용지침서 변수 설명서 부록 문항번호, 변수명, 변수설명 변수유형(N: 숫자형/C: 문자형) 내용: 변수별 코딩값 제5기부터는 조사표와 함께 제시 해당변수가 포함된 DB 기재 부록 임상검사 분석기관 및 방법 영양조사 식품섭취 빈도 조사 관련 SAS 프로그램
자료분석 시 유의사항 – 분석 전 확인 자료 특성 파악 국민건강영양조사 환경변화 파악 연속형 자료: 분포(최댓값, 최솟값, 이상치 등) 범주형 자료: 분포, 빈도 무응답, 비해당 국민건강영양조사 환경변화 파악 조사환경 및 지침 임상검사기관 대사증후군 분석 분석 시약
자료분석 시 유의사항 – 무응답, 비해당 무응답 비해당 평균 산출 시 무응답, 비해당 값이 포함되어 과대추정되지 않도록 주의 9, 99, 999 등으로 표시 Missing, 모름, 무응답을 의미 비해당 8, 88, 888 등으로 표시 분기형 문항의 경우 비해당값이 다수 존재 ⇒ 결과산출 시 유의 (변수설명서 확인) 평균 산출 시 무응답, 비해당 값이 포함되어 과대추정되지 않도록 주의 검진결과 중 임상검사결과, 신체계측, 혈압 등 직접검사에 의한 결과는 무응답 및 비해당 값 missing(.)으로 처리 제2기(2001)의 경우, ‘88, 99’등이 존재하였으나, 209년 공개시점에서 수정 수정시점 이전에 자료를 받은 경우 분석시 88, 99 등을 제외하고 분석
자료분석 시 유의사항 – 연도별 자료 통합 설문문항이 동일해도 변수명이 다른 경우 ≫ 변수설명서 확인 동일한 변수이나 코딩내용, 방법이 다른 경우 ≫ 조사표 확인 변수의 통합 또는 분리 ≫ 변수설명서 확인
자료분석 시 유의사항 – 연도별 자료 통합 연도별, 조사별 대상 연령이 차이가 있으므로, 분석 시 이에 대한 고려가 필요
자료분석 시 유의사항 – 검진환경 변화 혈압 측정 환경 변화: ’08년 7월~’10년 남자 1~5cm, 여자 1~3cm 팔높이 오차 발견 혈압 보정값 산출(’08년 7월~’10년): 1cm당 0.7mmHg 가감 국민건강영양조사 임상검사기관 변경: HDL 콜레스테롤 수준차이 발생 HDL 콜레스테롤 보정값 산출(’08년~): 미국 CDC 지질표준화프로그램 참여로 전환식 도출 대사증후군 분석 시 유의사항 혈압, HDL-콜레스테롤, 공복혈당 등의 연도별 변동 → 대사증후군 및 대사증후군 항목별 추이분석 시 주의 추이분석 또는 자료를 통합할 경우, 2008년 이후 자료사용 권고 분석 시약 변경: 혈중 크레아티닌 수준차이 발생 분석 표준시약과 정도관리물질 변경 → 재분석 결과 추가 공개 상세내용: 원시자료 이용지침서 ‘부록’ 참고
조사표
조사표
조사표
국민건강영양조사
국민건강영양조사
국민건강영양조사
이차자료원 활용 연구 자가점검표
Sampling Design
표본조사 전수조사 vs. 표본조사: 항상 전수조사가 좋은 것은 아님! 표본조사 시간과 비용이 절약: 선거여론조사의 경우 신속한 조사 필요 전수조사가 불가능한 경우: 자동차 충돌 시 안전성 검사 전수조사보다 더 정확한 자료를 얻을 수 있음 오차의 종류 내용 표본오차 - 모집단을 대표할 수 있는 표본단위들이 추출되지 않아 발생하는 오류 - 표본수가 클수록, 표본의 분산이 작을수록 작음 - 전수조사에서는 일어나지 않음 비표본오차 - 조사대상자로부터 자료를 수집하는 과정에서 발생되는 오류 - 조사원에 의한 오차, 응답오차, 자료기입오차, 무응답오차 등 - 조사대상자가 증가할수록 증가하는 오차
표본추출과정 모집단 결정 표본추출틀(sampling frame) 결정 표본단위 (sampling unit) 결정 표본조사결과가 일반화되는 집단 인구통계학적 특성, 지역 및 시간개념을 이용하여 구체적으로 규정 예. 2011년 서울시장 선거 여론조사, 2011년 서울시 선거인 명부에 등록된 사람 모집단 결정 모집단에 포함된 조사대상자들의 명단이 수록된 목록 예. 2011년 서울시 선거인 명부 표본추출틀(sampling frame) 결정 최종 추출되는 조사 대상을 의미함 혼합 표본설계의 경우 최종 표본단위를 얻기 위해 여러 단계를 거침 표본단위 (sampling unit) 결정 확률 표본추출법 비확률 표본추출법 표본추출방법(sampling design) 결정 표본크기의 결정은 곧 precision의 결정과 동일 표본크기(sample size) 결정 및 표본 배분
표본추출방법(sampling design) 확률 표본추출법 비확률 표본추출법 표본으로 추출될 확률이 알려져 있을 때 표본으로 추출될 확률이 알려져 있지 않을 때 무작위 표본추출 인위적 표본추출 모수추정에 편의가 없음 모수추정에 편의가 존재 표본분석결과의 일반화가능 표본분석결과의 일반화제약 표본오차의 추정 가능 표본오차의 추정 불가능 시간과 비용이 많이 듬 시간과 비용이 적게 듬
표본추출 과정 표본추출방법 평가의 4가지 척도 Precision Complexity Efficiency Standard error ↓ ⇒ precision ↑ 표본수가 작고 디자인이 복잡하면 표준오차는 커짐 비확률 표본추출은 계산이 불가능함 Complexity 비확률 표본추출이 확률표본추출에 비해 complexity가 낮음 Efficiency 비용대비 accuracy와 precision을 고려 비확률 표본추출이 확률 표본추출에 비해 비용이 적게 듬
확률 표본추출방법 추출방법 방법 장점 단점 단순 임의추출 -모든 대상이 알려진 동일한 확률을 갖고 선정되도록 무작위 추출하는 방법 -모든 대상자 N명에 1부터 N까지 일련번호를 부여하고 필요한 표본수 n명을 무작위 추출 -모집단에 대한 자세한 지식 불필요 -표본추출자료 오차의 계산 용이 -동일한 크기의 표본인 경우 층화표본추출보다 일반적으로 오차가 큼 -모집단에 대한 지식을 활용할 수 없음 -efficient↓ 계통추출 -추출단위에 일련번호를 부여하고 이를 등간격 으로 나눈 훈 첫 구간에서 하나의 번호를 랜덤으로 선정한 다음 등간격으로 떨어져 있는 번호를 추출하는 방법 -표본추출이 용이 -단순임의추출에 비해 모집단을 대표할 가능성이 큼 - precision↑ -모집단의 배열이 일정한 주기성이나 특정 편향성을 보일 경우 바이어스 초래 층화추출 -특성에 따라 층화된 곳에서 각 층마다 표본을 랜덤하게 추출하는 방법 -각 층에 대해 상이한 추출틀을 사용하는 경우와 일정한 정확도에 대해 필요한 표본의 수를 되도록 적게 하고자 하는 경우에 사용 -층안에서는 동질적이고 층간에 이질적일 때 유용한 방법 -집단간의 이질성이 존재하는 경우 단순임의추출보다 모집단의 특성을 잘 반영 -단순임의표본추출법과 같이 표본의 무작위성이 확보되면서 분산을 줄임 -precision↑ -모집단의 각 층을 정확히 알고 있어야함 -비용이나 시간이 많이 들 수 있음 -분석과 표본오차 계산이 어려움 (complexity↑) 집락추출 -모집단을 소집단으로 나누고 일정수의 소집단을 무작위적으로 추출한다음 소집단내의 모든 대상자나 일부를 조사하는 방법 -집락내에는 서로 이질적이고 집락간에는 동질적일 때 유용 -집락을 잘 규정하면 비용이 절감 -집락이 동질적이면 오차가 커짐 (precision↓) -표본오차를 계산하기 어려움
비확률 표본추출방법 추출방법 방법 장점 단점 유의 표본추출 -특정집단(전문가집단)을 표본으로 선정하는 방법 -모집단의 특성에 대해 조사자가 정확히 알고 있는 경우에 제한적으로 사용 -연구의 초기단계에서 질문의 적용타당성과 조사도구의 유용성을 검증하기 위해 사용 -비용이 적게 들고 편리함 -모집단에 대한 지식이 있기 때문에 표본추출이 용이함 -전체 표본의 크기가 작을 경우에 유용 -대표성을 확인할 방법이 없음 -분산이나 편의에서 오는 오류를 측정하거나 통제가 어려움 -모집단에 대한 충분한 지식이 필요 할당추출 -미리 정해진 기준에 따라 전체대상을 여러 집단으로 구분하고 각 집단별로 대상을 추출하는 방법 -선거여론조사, 국민여론조사, 제품에 대한 조사에서 사용됨 -적은 비용으로 표본을 추출할 수 있음 -연구자의 편견 개입으로 인해 오차가 발생할 가능성이 높음 편의추출 -조사자 임의로 표본을 선정하는 방법 -특정장소를 지나가는 사람으로 대상을 선정 -비용이 거의 들지 않음 -절차가 간단 -추출된 모집단을 대표하지 못하므로 일반화하기 어려움 스노우볼 추출 -소수의 인원을 표본으로 추출하여 조사한 다음, 그 인원을 조사원으로 활용하여 주위 사람들을 조사하는 방식 -비밀을 확인하려는 목적으로 제한적으로 사용 -조사에 응하는 사람의 신분이 비교적 노출되지 않아 사생활을 보호한다는 점 -알고 있는 사람을 대상으로 조사하므로 비용절감효과와 시간을 절약 -처음 표본추출이 쉽지 않음 -피조사자를 조사원으로 활용한다는 점도 어려움
표본추출과정 표본크기 결정 Survey Experimental 목적 모수추정 가설검정 구조 표본분포기준 파워기준 단계 1. 주요연구변수 선정 2. 추정치의 유형 결정 (합계, 평균, 비율) 3. precision 결정 (표준편차, 유의수준) 4. 연구가설에 기초한 표본크기 계산 1. 주요연구가설 선정 2. 가설검정의 검정통계량 결정 3. effect size 결정 4. 유의수준 결정 5. power 결정 6. 연구가설에 기초한 표본크기 계산
표본크기 공식 표본설계에서의 추정치/분산/표본크기 공식
국민건강영양조사 제5기 모집단: 대한민국에 거주하는 모든 가구와 국민 표본추출틀: 일반가구와 아파트가구를 구분하여 서로 다른 추출틀 활용 일반가구: 2009년 6월 주민등록 통/반/리별 목록자료 아파트가구: 2008년 3월 KB 국민은행 아파트 시세조사용 목록자료 표본추출단위 1차 추출단위(primary sampling unit, psu): 조사구 2차 추출단위(secondary sampling unit, ssu): 조사구내 가구
국민건강영양조사 제5기 복합표본설계 4. 표본추출: 층화 2단 집락 계통 추출(층화+집락+계통) 4. 표본추출: 층화 2단 집락 계통 추출(층화+집락+계통) 16개시도 및 보조변수를 활용하여 내제적 층화 층별로 확률비례추출법을 이용하여 조사구 추출 조사구내의 가구들을 번지 순으로 정렬하여 20가구를 계통추출 가구 내 모든 가구원 ※ 확률비례추출법(probability proportional to size) : 모집단을 구성하는 집락의 규모가 크게 차이가 날 경우 추출단위들의 추출확률을 보조 정보를 이용하여 동일하지 않는 확률로 추출하는 방법 5. 표본크기 및 표본배분 조사인력, 예산, 여건들을 고려하여 576개 조사구 추출결정 한 조사구에서 20가구 추출 표본배분: 비례배분법을 적용하여 층별로 조사구수 배분
무한모집단(Infinite population, super-population) 유한모집단(Finite population) 분석흐름도 무한모집단(Infinite population, super-population) Random sampling 유한모집단(Finite population) Probability sampling 표본(Sample) Nonresponse 자료(Data)
국민건강영양조사: 복합표본설계 단순임의추출을 가정한 분석방법 사용 시 편향된 결과 산출 복합표본설계 요소 층화변수(kstrata) 집락변수(psu) 가중치, weight(wt_itv, wt_ex, wt_ntr) 복합표본설계 분석패키지 SAS, SUDANN, SPSS, Stata, R 등
가중치
표본조사 자료
가중치 표본대상자가 대표할 수 있는 모집단의 수 추출될 확률의 역수로 표현됨
가중치
가중치 해석
표본설계를 고려한 분석 가중치 산출 추출확률 및 무응답 보정을 통해 1차 가중치 산출 모집단의 성별 및 연령 인구구조를 맞추기 위해 사후층화를 통해 가중치를 보정하여 최종 가중치 산출
표본설계를 고려한 분석
표본설계를 고려한 분석
표본설계를 고려한 분석
가중치 종류: 부문별 및 연관성
가중치 종류: 부문별 및 연관성
통합 가중치
자료분석시 유의사항 조사연도와 가구대상/가구원대상 여부에 따라 가중치가 다르므로 가중치 선택 시 유의 단일 조사부문에 대한 결과를 산출할 경우 개별조사부분의 가중치를 사용하고, 여러 조사부분의 변수들을 연계하여 분석할 경우 적절한 연관성 분석 가중치 적용이 필요 순환표본자료의 결합분석 시 통합가중치는 원시자료 DB 에 포함되어 있지 않고, 기존 가중치를 연도별 조사구수비율로 조정하여 통합자료의 새로운 가중치 산출 순환표본이 아닌 자료간 통합(예. 제1기~제3기) 또는 순환표본자료와 순환표본이 아닌 자료간 통합(예. 제3기와 제4기 1,2차년도)이 필요한 경우 다른 분석방법을 적용(예. 조사연도를 더미변수로 추가 등)
자료분석시 유의사항 일부 대상자를 추출(제한)하여 분석하게 될 경우, 부여한 가중치 사용 타당성 : random sampling이 잘 되었다는 가정하에서 그 모집단을 잘 대표할 수 있다고 할 수 있으므로 기존 가중치의 적용은 문제가 되지 않음 세부집단 분석 시 SAS에서 by 또는 where 문을 사용하게 되면 바이어스가 발생하게 되므로 빈도분석의 경우 table에 세부집단변수를 추가지정하고, 모형적용 시 domain 문장을 이용(SAS 9.2부터 domain option 제공)
감사합니다. jylee@neca.re.kr