Keller: Stats for Mgmt & Econ, 7th Ed April 12, 2019 켈러의 경영경제통계학 제2장 그래프와 표를 이용한 기술통계학 기법 Graphical and Tabular Descriptive Techniques Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
기술통계학 Statistics Data Information -기술통계학(Descriptive statistics)은 유용한 정보가 생산되는 방식으로 데이터를 정리하고 요약한다. -기술통계학은 데이터를 요약하고 나타내기 위해 그래프 기법들과 수치적 기술척도들(예를 들면 평균)을 사용한다. Statistics Data Information
-그래프와 표를 이용한 기술통계학 방법들은 모집단과 표본 모두에 대하여 적용된다. Population Sample 부분집합 -그래프와 표를 이용한 기술통계학 방법들은 모집단과 표본 모두에 대하여 적용된다.
정의 -변수(variable) 는 모집단 또는 표본의 어떤 특성을 나타낸다. 예. 학생 학점. 일반적으로 대문자 X, Y, Z…로 나타낸다. -변수의 값(value)은 변수가 가질 수 있는 범위이다. 예. 학생 경영통계학 점수(0..100) -데이터(Data)는 변수의 관측값이다. 예. 학생 경영통계학 점수: {67, 74, 71, 83, 93, 55, 48}
데이터의 형태와 정보 -데이터는 (통계학의 관점에서 적어도) 3가지의 형태를 가진다: 구간데이터(Interval Data) 범주데이터(Nominal Data) 서열데이터(Ordinal Data)
구간데이터 -구간데이터(실수데이터) • 실수, 예:높이, 무게, 가격 등. • 정량데이터(quantitative data) 또는 수치데이터( numerical data)라고도 한다. -산술적 계산이 수행될 수 있음. 따라서 2 x 높이 또는 가격 +\2,000 등이 의미를 가진다.
범주데이터 예. 결혼상태에 대한 질문응답은 다음과 같은 코드로 나타낼 수 있다: -범주데이터 • 범주데이터의 값은 특정한 범주(category )를 나타낸다. 예. 결혼상태에 대한 질문응답은 다음과 같은 코드로 나타낼 수 있다: 독신= 1, 기혼= 2, 이혼= 3, 과부= 4 -범주데이터는 카테고리 특성을 가진다. 따라서 산술적 계산은 의미를 가지지 않는다. (예 과부÷ 2 = 기혼?!) -범주데이터는 정성데이터(qualitative data) 또는 카테고리 데이터 (categorical data)라고도 부른다.
서열데이터 -서열데이터는 범주의 성격을 가지나 서열데이터의 값들은 순서 또는 순위를 나타낸다. 예. 대학과목의 학점평가시스템: 부실=1, 보통=2, 양호=3, 매우 양호=4, 우수=5 -서열데이터에 대한 산술적 계산은 의미가 없지만(예. 2X보통=매우 양호?!), 단지 서열데이터 간의 순위만이 의미를 가진다 (예. 우수>부실 또는 보통<매우 양호). -순위는 각 범주에 부여되는 수치 값에 관계없이 유지된다.
데이터의 형태와 계산 • 모든 계산은 구간데이터에 대하여 가능하다. • 서열데이터의 경우 순위를 나타내는 계산만이 허용된다. • 명목데이터에 대한 어떠한 계산도 허용되지 않는다. 각 범주에 속한 수를 세는 것만이 의미를 가진다. ->이에 따라 다음과 같은 데이터의 순위구조(“hierarchy of data”)가 주어진다.
데이터의 순위구조 -구간데이터 값들은 실수이다. - 모든 계산이 가능하다.- 데이터는 서열데이터 또는 범주데이터로 전환될 수 있다. -서열데이터 -값들은 데이터의 순위를 나타내야 한다. -순위를 유지하는 계산만이 가능하다. -데이터는 범주데이터로 전환될 수 있으나 구간데이터로 전환될 수 없다. -범주데이터 -값들은 범주들을 나타내는 임의로 부과된 수치들이다. -발생도수에 기초한 계산만이 가능하다. -데이터는 서열데이터 또는 구간데이터로 전환될 수 없다.
범주데이터를 표와 그래프로 작성 -명목데이터의 경우에 허용되는 유일한 계산은 변수의 각 값에 속한 도수를 세는 것이다. -범주와 범주에 속한 도수를 나타내는 표, 즉 도수분포(frequency distribution)로 데이터를 요약할 수 있다. -상대도수분포(relative frequency distribution )는 범주와 범주의 발생비율을 정리한 것이다.
자료의 그래프적 표현 통계학에 대한 전문적인 지식이 없는 경우에도 쉽게 자료의 특성을 파악할 수 있도록 하는 기초적인 자료 요약방법이다. 대표적으로 도수분포표, 막대그림표, 기둥그림표, 원그림표, 상자그림(box plot), 줄기와 잎 그림(stem-and-leaf plot) 등이 있다. 기둥그림표와 원그림표 그림을 이용한 질적자료의표현방법은 기둥그림표(bar chart)와 원그림표(pie chart)가 있다. ▶ 기둥그림표란 질적 자료에서 각 범주에 속한 관측도수를 기둥형태로 표현하는 방법으로 기둥의 크기에 의하여 상대적인 도수의 크기를 비교할 수 있다. ▶ 원그림표는 각 범주의 관측도수의 상대적인 크기를 원을 분할한 형태로 표현하는 방법으로 파이(pie)를 분할하는 형태와 비슷하다고 하여 파이그림(pie chart)이라고 부르기도 한다.
원그래프 (pie chart) 적절한 수의 범주를 선택한다. 너무 많은 수의 범주를 선택하면 원그림표의 이해가 어렵게 된다. 각 부분의 크기는 실제 관측도수의 비율과 같도록 그리고 크기 순서로 정리한다.
원그래프(pie chart) 파이챠트는 상대도수를 나타낸다…
도수분포표 한 변수의 빈도수를 나타낸 표 예) 출신지별 도수 - 자료의 특성을 쉽게 이해할 수 있도록 수집된 자료를 적절한 범주로 나누고, 각 범주에 해당되는 빈도수를 기입하여 정리한 표 - 자료를 체계적으로 정리하는데 가장 간단하면서도 많이 사용 출신지 도수 서울 광역시 시군 21 16 13 합계 50 예) 출신지별 도수
- 되도록 정수, 짝수, 5의 배수를 사용하는 것이 좋다. 도수분포표의 작성방법 자료를 크기 순으로 배열 구간수 결정 구간 폭의 결정 -자료의 개수나 분포에 따라 달라져야 한다. -각 구간에 5개 이상의 숫자가 들어가도록 해야 한다. -구간의 개수가 20개를 넘지않도록 한다.(일반적으로 5-15구간) 구간폭 = (최대값-최소값)/구간수 - 되도록 정수, 짝수, 5의 배수를 사용하는 것이 좋다. - 구간 수와 폭이 결정되면, 각 구간의 하한값과 상한값을 표시하고, 모든 자료가 한 구간에 한번씩 들어가도록 작성함.
막대그래프는 종종 도수를 나타내기 위해 사용된다…. 도수분포표(막대그래프) 막대그래프는 종종 도수를 나타내기 위해 사용된다….
구간데이터를 위한 그래프 기법 -데이터가 구간데이터일 때 사용되는 그래프 기법들이 존재한다. -이와 같은 그래프 기법들 중에서 가장 중요한 기법이히스토그램 (histogram)이다. -히스토그램은 구간데이터를 요약하기 위해 사용되는 그래프기법일뿐만 아니라 확률을 설명하는데도 사용된다.
예2.4의 히스토그램
예2.4의 히스토그램 (18+28+14=60)÷200 = 30% 즉 장거리 전화비용의 거의 1/3은 $90이상이다. 월간 장거리 비용의 약 ½ (71+37=108) 은 $30 미만으로 “적다l” 월간 장거리 비용이 중간범위 에 존재하는 신규계약자 수는 적다
히스토그램 그리기 데이터의 수집 데이터의 도수분포 구하기… How? a) 계급의 수 결정… How? 표2.6 참조 관측치 수가 200인 경우, 계급 수는 7~10개이다… 또는 스터지 공식(Sturges’ formula), 즉 계급의 수 = 1 + 3.3 log (n), n=관측치 수 를 사용한다.
히스토그램 그리기 데이터의 수집 데이터의 도수분포 구하기… How? a) 계급의 수 결정. [8] b) 계급구간의 크기 결정… How? 데이터의 범위(range)를 구한다. 범위 = 최대값-최소값 = $119.63 – $0 = $119.63따라서 계급구간의 크기는 범위 ÷ (계급의 수) = 119.63 ÷ 8 ≈ 15
히스토그램 모습 대칭성(Symmetry) -히스토그램의 중심에 수직선을 그리고 수직선의 양측이 모습에서 동일하면 히스토그램은 대칭이라고 말한다. Frequency Frequency Frequency Variable Variable Variable
히스토그램 모습 왜도(비대칭성의 정도:Skewness) -비대칭 히스토그램은 왼쪽 또는 오른쪽으로 긴 꼬리를 가진다. Frequency Frequency Variable Variable 양의 비대칭 음의 비대칭
최빈계급(modal class)은 관측치의 수가 최대인 계급이다 히스토그램 모습 봉우리 계급구간의 수(Modality) -단봉(unimodal )히스토그램은 하나의 봉우리 를 가진 히스토그램이고, 양봉(bimodal )히스토그램은 두 개의 봉우리 를 가진 히스토그램이다 Bimodal Unimodal Frequency Frequency Variable Variable 최빈계급(modal class)은 관측치의 수가 최대인 계급이다
히스토그램 모습 종모양(Bell Shape) -대칭 단봉 히스토그램(symmetric unimodal histogram)의 한 가지 특별한 형태가 종모양의 히스토그램이다. -많은 통계 기법은 모집단이 종모양이어야 한다는 조건을 요구한다. -히스토그램을 그려보는 것은 모집단의 모습이 가져야 하는 조건이 충족되는지를 살펴보는데 도움이 된다. Frequency Variable 종모양 히스토그램
히스토그램의 비교 -예제2.6의 히스토그램과 예제 2.7의 히스토그램을 비교하라. 단봉 vs. 양봉l 경영통계학 점수의 히스토그램과 수리통계학 점수의 히스토그램은 매우 다르다. 단봉 vs. 양봉l 점수의 분포(좁다 /넓다)
누적백분율곡선 (Ogive) -Ogive(pronounced “Oh-jive”)는 누적도수분포 (cumulative frequency distribution )의 그래프이다. -Ogive는 3단계로 그린다… (1) 도수분포로부터 상대도수(relative frequencies)를 계산한다. (2) 누적상대도수를 계산한다. (3) 누적상대도수를 그래프로 그린다.
누적백분율곡선 (Ogive)
50번째 퍼센타일(50th percentile)에 해당되는 장거리 전화비용은 얼마인가? 누적백분율곡선 (Ogive) 50번째 퍼센타일(50th percentile)에 해당되는 장거리 전화비용은 얼마인가? “약 $35”
시계열 데이터 설명 -동일한 시점에 측정되는 관측치들은 횡단면 데이터(cross- sectional data)라고 부른다. -연속적인 시점들에서 측정되는 관측치들은 시계열 데이터(time-series data)라고 부른다. -시계열 데이터는 선 그래프(line chart )에 의해 그래프로 그려진다. 선 그래프에서 수직축은 변수의 값을 나타내고 수평축은 시간을 나타낸다.
예 2.8가솔린 가격선 그래프
1982-84 불변가격으로 나타낸 가솔린 가격
2.6 두 구간변수의 관계 설명하기… ->두 구간변수간의 관계를 그래프로 나타내기 2.6 두 구간변수의 관계 설명하기… ->두 구간변수간의 관계를 그래프로 나타내기 -두 구간변수간의 관계를 나타내기 위해 산포도(scatter diagram )가 사용된다. -독립변수(independent variable)는 X로 표시하고 일반적으로 수평축에 나타내는 반면 종속변수 (dependent variable)는 Y로 표시하고 수직축에 나타낸다.
예제 2.12 주택가격과 주택크기의 관계분석 -한 부동산 중개인은 주택의 판매가격이 주택크기와 어느 정도 관계가 있는지를 알고자 하였다. -이와 같은 정보를 얻기 위해 그는 최근에 판매된 12개의 주택 표본을 선택하고 주택판매가격(1000달러기준)과 주택크기(100 제곱피트 기준)를 기록하였다. 이와 같은 데이터가 아래와 같이 정리되어 있고 Xm02-12에 저장되어 있다. Size 23 18 26 20 22 14 33 28 23 20 27 18 Price 315 229 355 261 234 216 308 306 289 204 265 195 -주택가격과 주택크기 간의 관계를 나타내기 위해 그래프기법을 사용
예제 2.12 주택가격과 주택크기의 관계분석 -산포도에 의하면 주택크기가 더 클수록 주택가격은 더 높다는 관계가 존재하는 것으로 보인다.…
산포도의 모습 -선형관계의 강도와 선형관계의 방향이 산포도에서 중요한 두 가지 개념이다. 양의 선형관계 음의 선형관계 -선형관계의 강도와 선형관계의 방향이 산포도에서 중요한 두 가지 개념이다. 양의 선형관계 음의 선형관계 비선형 관계
요약… 구간데이터 명목데이터 일 변수 데이터 히스토그램, 누적백분율곡선, 줄기-잎 그림 빈도/상대빈도분포막대그래프, 파이차트 두 변수의 관계 산포도 교차분류표, 막대그래프