Keller: Stats for Mgmt & Econ, 7th Ed 그래프와 표를 이용한 기술통계학 기법 February 25, 2019 제2장 그래프와 표를 이용한 기술통계학 기법 Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
서 론 -기술통계학(Descriptive statistics)은 유용한 정보가 생산되는 방식으로 데이터를 정리하고 요약한다. -기술통계학은 데이터를 요약하고 나타내기 위해 그래프 기법들과 수치적 기술척도들(예를 들면 평균)을 사용한다. Statistics Data Information
모집단과 표본 Population Sample -그래프와 표를 이용한 기술통계학 방법들은 모집단과 표본모두에 대하여 적용된다. 부분집합 -그래프와 표를 이용한 기술통계학 방법들은 모집단과 표본모두에 대하여 적용된다.
정 의 -변수(variable) 는 모집단 또는 표본의 어떤 특성을 나타낸다. 예. 학생 학점. 일반적으로 대문자 X, Y, Z…로 나타낸다. -변수의 값(value)은 변수가 가질 수 있는 범위이다. 예. 학생 경영통계학 점수(0..100) -데이터(Data)는 변수의 관측값이다. 예. 학생 경영통계학 점수: {67, 74, 71, 83, 93, 55, 48}
데이터의 형태와 정보 -데이터는 (통계학의 관점에서 적어도) 3가지의 형태를 가진다: 구간데이터(Interval Data) 범주데이터(Nominal Data) 서열데이터(Ordinal Data)
구간데이터(Interval Data…) -구간데이터 • 실수, 예:높이, 무게, 가격 등. • 정량데이터(quantitative data) 또는 수치데이터( numerical data)라고도 한다. -산술적 계산이 수행될 수 있음. 따라서 2 x 높이 또는 가격+\2,000 등이 의미를 가진다.
범주데이터(Nominal Data…) -범주데이터 • 범주데이터의 값은 특정한 범주(category )를 나타낸다. 예. 결혼상태에 대한 질문응답은 다음과 같은 코드로 나타낼 수 있다: 독신= 1, 기혼= 2, 이혼= 3, 과부= 4 -범주데이터는 카테고리 특성을 가진다. 따라서 산술적 계산은 의미를 가지지 않는다. (예 과부÷ 2 = 기혼?!) -범주데이터는 정성데이터(qualitative data) 또는 카테고리 데이터(categorical data)라고도 부른다.
서열데이터(Ordinal Data…) -서열데이터 범주의 성격을 가지나 서열데이터의 값들은 순서 또는 순위를 나타낸다. 예. 대학과목의 학점평가시스템: 부실=1, 보통=2, 양호=3, 매우 양호=4, 우수=5 -서열데이터에 대한 산술적 계산은 의미가 없지만(예. 2X보통=매우 양호?!), 단지 서열데이터 간의 순위만이 의미를 가진다 (예. 우수>부실 또는 보통<매우 양호). -순위는 각 범주에 부여되는 수치 값에 관계없이 유지된다.
데이터의 형태와 계산 • 모든 계산은 구간데이터에 대하여 가능하다. • 서열데이터의 경우 순위를 나타내는 계산만이 허용된다. • 명목데이터에 대한 어떠한 계산도 허용되지 않는다. 각 범주에 속한 수를 세는 것만이 의미를 가진다. ->이에 따라 다음과 같은 데이터의 순위구조(“hierarchy of data”)가 주어진다.
데이터의 순위구조… -구간데이터 - 값들은 실수이다. - 모든 계산이 가능하다. - 데이터는 서열데이터 또는 범주데이터로 전환될 수 있다. -서열데이터 - 값들은 데이터의 순위를 나타내야 한다. - 순위를 유지하는 계산만이 가능하다. - 데이터는 범주데이터로 전환될 수 있으나 구간데이터로 전환될 수 없다. -범주데이터 -값들은 범주들을 나타내는 임의로 부과된 수치들이다. -발생도수에 기초한 계산만이 가능하다. -데이터는 서열데이터 또는 구간데이터로 전환될 수 없다.
범주데이터를 그래프와 표로 나타내는 기법… -명목데이터의 경우에 허용되는 유일한 계산은 변수의 각 값에 속한 도수를 세는 것이다. -범주와 범주에 속한 도수를 나타내는 표, 즉 도수분포(frequency distribution)로 데이터를 요약할 수 있다. -상대도수분포(relative frequency distribution )는 범주와 범주의 발생비율을 정리한 것이다.
구간데이터를 위한 그래프 기법 -데이터가 구간데이터일 때 사용되는 그래프 기법들이 존재한다 (막대그래프(bar chart),파이차트(pie chart)) -이와 같은 그래프 기법들 중에서 가장 중요한 기법이 히스토그램(histogram)이다. -히스토그램은 구간데이터를 요약하기 위해 사용되는 그래프기법일뿐만 아니라 확률을 설명하는데도 사용된다.
히스토그램의 모습… 대칭성(Symmetry) -히스토그램의 중심에 수직선을 그리고 수직선의 양측이 모습에서 동일하면 히스토그램은 대칭이라고 말한다. Frequency Frequency Frequency Variable Variable Variable
히스토그램의 모습… 왜도(비대칭성의 정도:Skewness) -비대칭 히스토그램은 왼쪽 또는 오른쪽으로 긴 꼬리를 가진다. Frequency Frequency Variable Variable 양의 비대칭 음의 비대칭
최빈계급(modal class)은 관측치의 수가 최대인 계급이다 히스토그램의 모습… 봉우리 계급구간의 수(Modality) -단봉(unimodal )히스토그램은 하나의 봉우리 를 가진 히스토그램이고, 양봉(bimodal )히스토그램은 두 개의 봉우리 를 가진 히스토그램이다 Bimodal Unimodal Frequency Frequency Variable Variable 최빈계급(modal class)은 관측치의 수가 최대인 계급이다
히스토그램의 모습… 종모양(Bell Shape) -대칭 단봉 히스토그램(symmetric unimodal histogram)의 한 가지 특별한 형태가 종모양의 히스토그램이다. -많은 통계 기법은 모집단이 종모양이어야 한다는 조건을 요구한다. -히스토그램을 그려보는 것은 모집단의 모습이 가져야 하는 조건이충족되는지를 살펴보는데 도움이 된다. Frequency Variable 종모양 히스토그램
누적백분율곡선(Ogive)… -Ogive(pronounced “Oh-jive”)는 누적도수분포 (cumulative frequency distribution )의 그래프이다. -Ogive는 3단계로 그린다… (1) 도수분포로부터 상대도수(relative frequencies)를 계산한다. (2) 누적상대도수를 계산한다. (3) 누적상대도수를 그래프로 그린다.
시계열 데이터 설명하기 -동일한 시점에 측정되는 관측치들은 횡단면 데이터(cross- sectional data)라고 부른다. -연속적인 시점들에서 측정되는 관측치들은 시계열 데이터(time-series data)라고 부른다. -시계열 데이터는 선 그래프(line chart )에 의해 그래프로 그려진다. 선 그래프에서 수직축은 변수의 값을 나타내고 수평축은 시간을 나타낸다.
요약… 구간데이터 명목데이터 일 변수 데이터 히스토그램, 누적백분율곡선, 줄기-잎 그림 빈도/상대빈도분포막대그래프, 파이차트 두 변수의 관계 산포도 교차분류표, 막대그래프