제2장 기술통계학Ⅰ: 표와 그래프적 방법
Contents 변수의 형태 측정척도의 형태 통계표와 그래프 질적 자료의 정리 양적 자료의 정리 : 이산적 자료 양적 자료의 정리 : 연속적 자료
변수의 형태 기본단위(elementary unit) : 관찰단위, 실험단위, 요소 변수(variable) 자료를 구성하는 관찰대상(항목)을 말한다. 예 : 사람, 회사, 상표, 주식, 펀드 등의 이름 기본단위의 어떤 특성을 대상으로 자료를 수집한다. 기본단위는 하나 이상의 특성을 갖는다. 예 : 홍길동(기본단위)의 특성인 연령, 가족 수, 키, 몸무게 등에 대해 자료를 수집한다. 변수(variable) 시간에 따라 변하는 모집단 또는 표본에서 관심의 대상이 되는 기본단위의 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. 예 : 선택되는 사람(기본단위)에 따라 키, 소득, 연령, 지능지수 등(변수)이 다르다.
변수의 형태 자료 질적 변수와 양적 변수 질적 변수(qualitative variable) 변수의 값을 부여하기 위하여 측정(measurement) 또는 관찰(observation)을 실시한다. 하나 이상의 기본단위에 속하는 각각의 변수의 측정 또는 관찰을 통해 얻는 측정치 또는 관찰치들의 집합을 말한다. 질적 변수와 양적 변수 질적 변수(qualitative variable) 수치로 나타내거나 수치로 나타낼 수 없는 변수를 말한다. 예 : 전공, 출신지, 성별, 국적, 종교, 학년(1,2,3,4) 질적 변수에 관한 자료 : 질적 자료, 정성적 자료, 범주적 자료 명목자료와 서열자료가 포함되며 이산적 자료의 형태를 취한다.
변수의 형태 질적 변수와 양적 변수 양적 변수(quantitative variable) 수치로 나타낼 수 있는 변수 예 : 예금잔액, 연령, 자녀 수, 체중, 불량품 수 양적 변수에 관한 자료 : 양적 자료, 정량적 자료 양적 변수는 이산적 변수(이산적 자료)와 연속적 변수(연속적 자료)로 나뉜다. 구간자료와 비율자료가 포함된다.
변수의 형태 단변수와 다변수 단변수(univariate) 양변수(bivariate variable) 관찰대상이 되는 각 기본단위가 하나의 변수를 갖는 경우 자료의 대표치, 기본단위들의 동질성, 이상치(outlier)의 유무 등 특성을 요약하는 통계분석 방법이 사용된다. 양변수(bivariate variable) 관찰대상이 되는 각 기본단위가 두 개의 변수를 갖는 경우 두 변수간의 (선형)관계, 밀접성, 한 변수의 값이 주어질 때 다른 변수의 값 예측 등을 밝힐 수 있다.
변수의 형태 기본단위, 변수, 자료의 예
측정척도의 형태 측정척도(measurement scale) 측정대상이나 사건에 숫자 또는 부호를 부여하는 규칙이며 자료형태의 구분기준이다. 네 가지 형태 명목척도(nominal scale) 서열척도(ordinal scale) 구간척도(interval scale) 비율척도(ratio scale)
측정척도의 형태 자료의 형태 명목자료 수치자료 이산적자료 질적자료 서열자료 비수치자료 자료 구간자료 이산적자료 양적자료 비율자료 연속적자료
측정척도의 형태 자료의 형태 명목자료(nominal data) 서열자료(ordinal data) 범주 또는 레이블 같은 값을 갖는다. 예 : 종교, 출생지, 국적, 혈액형, 박지성 선수의 등번호(7번) 서열자료(ordinal data) 명목자료와 같이 범주에 대해 측정하지만 그의 값은 상대적인 서열순서를 갖는다. 예 : 올림픽 순위, 군대의 계급 구간자료(interval data) : 등간자료 값들 사이의 차이(간격)가 일정한 크기를 갖는다. 예 : 온도, 지능지수, 학년 비율자료(ratio data) 두 측정치 사이의 비율을 구할 수 있다. 절대적 원점(0)을 갖는다.
측정척도의 형태 자료의 형태 포함하는 특성이 많을수록 정보의 수준이 높아진다.
측정척도의 형태 시계열자료와 횡단면자료 시계열자료(time series data) 시간 순서로 기록되는 양적 자료를 말한다. 예 : 매월 판매량 횡단면자료(cross–sectional data) 순서와 관련 없이 어느 특정 시점에서 특정하는 자료를 말한다. 예 : 각국의 ¼분기 경제성장률
통계표와 그래프 통계표(statistical table) : 도수분포표 정리되지 않은 수집된 자료의 전체적인 특성을 파악하기 위하여 자료를 정리하고 요약하는 데 사용되는 도구 자료의 시각적 목적을 위하여 그래프나 차트 작성에 이용된다. 도수분포표(frequency distribution table) 질적 자료와 양적 자료에 대해 작성 가능하다. 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수(빈도수)를 나타낸다. 자료의 분포모양, 도수가 제일 많은 계급 등 자료의 특성을 쉽게 발견할 수 있다.
통계표와 그래프 그래프 방법 막대그래프 (bar chart) 파이차트(pie chart) 질적 자료 히스토그램(histogram) 꺾은선 그래프(frequency polygon) 누적백분율곡선(cumulative frequency polygon : ogive) 양적 자료
질적 자료의 정리 도수분포표 9/22목 첫째 열에는 자료의 범주(계급)를 적고 둘째 열에는 각 범주에 해당하는 도수를 적는다. 예 : 스포츠 댄스부 도수분포표
질적 자료의 정리 상대도수(relative frequency) 각 범주에 속한 도수(관찰치의 수)가 총도수에서 차지하는 비율 스포츠 댄스부 각 학년 학생의 상대도수와 백분율
질적 자료의 정리 도수와 상대도수의 도수분포표 : 예 2-2 자료 풀이
질적 자료의 정리 그래프(graph) 막대그래프(bar chart) 도수분포표에 있는 도수 또는 상대도수를 막대의 형태로 나타낸 그래프
질적 자료의 정리 파이차트(pie chart) : 예 2-2 도수분포표에서 각 계급의 상대도수가 구해지면 이에 360°를 곱한 다음 각 범주가 차지하는 도로 원을 쪼갠다.
질적 자료의 정리 파이차트 예 2 - 2
양적 자료의 정리 : 이산적 자료 도수분포표 변수의 각 값이 하나의 계급을 나타낸다 : 질적 자료와 같다. 계급은 수치적 순서를 지켜야 한다 : 질적 자료와 다르다. 각 계급의 상대도수를 구할 수 있다 : 질적 자료와 같다. 각 계급의 누적도수와 누적상대도수를 구할 수 있다 : 질적 자료는 불가능하다. 질적 자료의 경우에는 각 계급이 어떤 크기를 나타내지 못하므로 누적개념이 없다.
양적 자료의 정리 : 이산적 자료 도수분포표 예 2 - 4
양적 자료의 정리 : 이산적 자료 그래프 막대그래프 그리는 요령은 질적 자료의 경우와 같다. 도수, 상대도수, 누적도수, 누적상대도수의 막대그래프를 그릴 수 있다.
양적 자료의 정리 : 연속적 자료 도수분포표 계급의 수와 계급 폭을 어떻게 정하는가? 예 : 키 자료(표 2-3)
양적 자료의 정리 : 연속적 자료 도수분포표 계급의 수 결정 계급구간 결정 = = = 계급(class) : 크기 순서로 정렬된 자료에서 인접한 몇 개의 측정치들을 하나의 그룹으로 묶은 구간이다. 계급의 수는 보통 5~15개 정도이다. 계급의 수가 너무 적으면 자료분포의 특성을 파악하기 어렵고 너무 많으면 자료를 요약하는 기능을 상실한다. 키의 자료에서 계급의 수는 6개로 한다. 계급구간 결정 자료의 범위 자료의 최대치 - 자료의 최소치 계급의 수 계급의 수 158 – 121 6 = = = = 6.167 ≒ 7
양적 자료의 정리 : 연속적 자료 도수분포표 계급한계 설정 모든 각 자료는 하나의 계급에만 속해야 하므로 계급한계가 중복되지 않도록 한다. 계급한계(class limit)는 하한과 상한을 갖는다. 이는 계급의 경계값 또는 끝점이라고도 한다. “~이상 ~이하”로 설정한다. 첫 계급의 하한은 119 이상으로 정한다. 첫 계급의 상한은 125 이하가 된다. 계급 중간점(class midpoint) : 계급점(class mark)
양적 자료의 정리 : 연속적 자료 도수분포표 계급한계 설정 계급 도수 = = = 122 (계급하한+계급상한) (119 + 125) 2 2 계급 도수 각 계급한계에 포함되는 도수는 자료에서 수를 세어 구한다. 예 : 키 자료 (표 2-3) = = = 122
양적 자료의 정리 : 연속적 자료 그래프 히스토그램 히스토그램(histogram) 꺾은선 그래프(frequency polygon) 누적백분율곡선(cumulative frequency polygon : ogive) 히스토그램 질적 자료 또는 이산적 자료의 막대그래프와 같이 각 계급의 도수를 막대의 높이로 나타낸다. 다만 막대 사이의 공간은 없다. 각 계급의 중간점에서 막대의 높이를 표시한다. 이산적 자료와 같이 도수, 상대도수, 누적도수, 누적상대도수를 나타내는 히스토그램을 그릴 수 있다.
양적 자료의 정리 : 연속적 자료 그래프 예 : 키 자료의 도수 히스토그램
양적 자료의 정리 : 연속적 자료 그래프 꺾은선 그래프 : 도수다각형 연속적 자료에 대해서만 그릴 수 있다. 각 계급의 중간점에서 그 계급의 도수에 해당하는 점을 찍고 이들을 연결한다.
양적 자료의 정리 : 연속적 자료 그래프 누적백분율곡선 각 계급에 대한 누적도수 또는 누적백분율을 그래프로 나타낸다. 각 계급의 상한에 해당하는 누적도수를 점으로 찍고 이들을 연결한다.
감사합니다.