Keller: Stats for Mgmt & Econ, 7th Ed December 9, 2018 켈러의 경영경제통계학 제2장 그래프와 표를 이용한 기술통계학 기법 Graphical and Tabular Descriptive Techniques Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
서론 -기술통계학(Descriptive statistics)은 유용한 정보가 생산되는 방식으로 데이터를 정리하고 요약한다. -기술통계학은 데이터를 요약하고 나타내기 위해 그래프 기법들과 수치적 기술척도들(예를 들면 평균)을 사용한다. Statistics Data Information
-그래프와 표를 이용한 기술통계학 방법들은 모집단과 표본 모두에 대하여 적용된다. Population Sample 부분집합 -그래프와 표를 이용한 기술통계학 방법들은 모집단과 표본 모두에 대하여 적용된다.
정의… -변수(variable) 는 모집단 또는 표본의 어떤 특성을 나타낸다. 예. 학생 학점. 일반적으로 대문자 X, Y, Z…로 나타낸다. -변수의 값(value)은 변수가 가질 수 있는 범위이다. 예. 학생 경영통계학 점수(0..100) -데이터(Data)는 변수의 관측값이다. 예. 학생 경영통계학 점수: {67, 74, 71, 83, 93, 55, 48}
2.1 데이터의 형태와 정보 -데이터는 (통계학의 관점에서 적어도) 3가지의 형태를 가진다: 구간데이터(Interval Data) 범주데이터(Nominal Data) 서열데이터(Ordinal Data)
구간데이터(Interval Data…) -구간데이터 • 실수, 예:높이, 무게, 가격 등. • 정량데이터(quantitative data) 또는 수치데이터( numerical data)라고도 한다. -산술적 계산이 수행될 수 있음. 따라서 2 x 높이 또는 가격+\2,000 등이 의미를 가진다.
범주데이터(Nominal Data…) -범주데이터 • 범주데이터의 값은 특정한 범주(category )를 나타낸다. 예. 결혼상태에 대한 질문응답은 다음과 같은 코드로 나타낼 수 있다: 독신= 1, 기혼= 2, 이혼= 3, 과부= 4 -범주데이터는 카테고리 특성을 가진다. 따라서 산술적 계산은 의미를 가지지 않는다. (예 과부÷ 2 = 기혼?!) -범주데이터는 정성데이터(qualitative data) 또는 카테고리 데이터(categorical data)라고도 부른다.
서열데이터(Ordinal Data…) -서열데이터는 범주의 성격을 가지나 서열데이터의 값들은 순서 또는 순위를 나타낸다. 예. 대학과목의 학점평가시스템: 부실=1, 보통=2, 양호=3, 매우 양호=4, 우수=5 -서열데이터에 대한 산술적 계산은 의미가 없지만(예. 2X보통=매우 양호?!), 단지 서열데이터 간의 순위만이 의미를 가진다 (예. 우수>부실 또는 보통<매우 양호). -순위는 각 범주에 부여되는 수치 값에 관계없이 유지된다.
데이터의 형태와 계산 ->이에 따라 다음과 같은 데이터의 순위구조(“hierarchy of data”)가 주어진다. • 모든 계산은 구간데이터에 대하여 가능하다. • 서열데이터의 경우 순위를 나타내는 계산만이 허용된다. • 명목데이터에 대한 어떠한 계산도 허용되지 않는다. 각 범주에 속한 수를 세는 것만이 의미를 가진다. ->이에 따라 다음과 같은 데이터의 순위구조(“hierarchy of data”)가 주어진다.
데이터의 순위구조… -구간데이터 - 값들은 실수이다. - 모든 계산이 가능하다. - 데이터는 서열데이터 또는 범주데이터로 전환될 수 있다. -서열데이터 -값들은 데이터의 순위를 나타내야 한다. -순위를 유지하는 계산만이 가능하다. -데이터는 범주데이터로 전환될 수 있으나 구간데이터로 전환될 수 없다. -범주데이터 -값들은 범주들을 나타내는 임의로 부과된 수치들이다. -발생도수에 기초한 계산만이 가능하다. -데이터는 서열데이터 또는 구간데이터로 전환될 수 없다.
2.2 범주데이터를 그래프와 표로 나타내는 기법… -명목데이터의 경우에 허용되는 유일한 계산은 변수의 각 값에 속한 도수를 세는 것이다. -범주와 범주에 속한 도수를 나타내는 표, 즉 도수분포(frequency distribution)로 데이터를 요약할 수 있다. -상대도수분포(relative frequency distribution )는 범주와 범주의 발생비율을 정리한 것이다.
예제 2.1 Light Beer 선호도 서베이 -2006년에 미국의 총 라이트 비어 판매량은 약 300만 갤런이었다. -맥주회사들은 이와 같은 대규모 시장에서 누가 자신의 제품을 사는 지를 알아야 할 필요가 있다. -한 주요 맥주회사의 마케팅 담당자는 라이트 비어를 마시는 전문대학과 대학 학생들에 대한 라이트 비어 판매량을 분석하기 원하였다. -임의로 추출된 285명의 졸업생에게 다음 중에 어느 맥주가 자신이 선호하는 라이트 비어인지를 물었다.
예제 2.1 1. Budweiser Light 2. Busch Light 3. Coors Light 4. Michelob Light 5. Miller Lite 6. Natural Light 7. Other brand -응답이 부여된 코드를 사용하면서 정리되었다. 이 데이터의 도수분포와 상대도수분포를 구하고 막대그래프와 파이챠트를 사용하여 데이터을 요약하는 그래프를 그려라.
예제 2.1 Xm02-01*
도수분포와 상대도수분포
막대그래프는 종종 도수를 나타내기 위해 사용된다…. 도수분포(막대그래프) 막대그래프는 종종 도수를 나타내기 위해 사용된다….
상대도수분포(파이챠트) 파이챠트는 상대도수를 나타낸다…
표, 막대그래프, 챠이파트는 다른 형태로 제시되지만 모두 동일한 정보를 제공한다. 예제 2.1 표, 막대그래프, 챠이파트는 다른 형태로 제시되지만 모두 동일한 정보를 제공한다.
2.3 구간데이터를 위한 그래프 기법 -데이터가 구간데이터일 때 사용되는 그래프 기법들이 존재한다. -이와 같은 그래프 기법들 중에서 가장 중요한 기법이 히스토그램(histogram)이다. -히스토그램은 구간데이터를 요약하기 위해 사용되는 그래프기법일뿐만 아니라 확률을 설명하는데도 사용된다.
예제 2.4 장거리 전화비용의 분석 -전화서비스산업에 대한 규제완화가 이루어지면서 장거리 전화서비스 산업에서 경쟁하기 위해 다수의 새로운 회사들이 생겨났다.거의 모든 경우에 이들 회사들은 장거리 전화서비스를 제공한다. -대부분의 경우 이들 회사들은 유사한 서비스를 제공하기 때문에 가격에 대하여 경쟁한다. 치열한 경쟁에 직면하여 서비스 또는 제품에 대한 가격을 결정하는 일은 매우 어렵다. 여기에는 공급, 수요, 가격, 가격탄력성, 경쟁기업들의 행동이 고려되어야 한다. -장거리 전화서비스 패키지는 분당 가격, 월간 고정요율 또는 두 가지의 결합 형태를 사용할 수 있다.적정한 장거리 전화요율구조를 결정하기 위해서는 고객의 행태와 특히 월간 장거리 전화비용에 관한 정보가 필요하다.
예제 2.4 장거리 전화비용의 분석 -한 장거리 전화회사는 신규계약자의 첫 달 장거리 전화비용에 관한 정보를 확보하기 원하였다. -이 회사의 마케팅 담당자는 200명의 신규계약자에 대한 서베이를 시행하고 첫 달의 장거리 전화비용을 기록하였다. 이와 같은 데이터가 Xm02-04.에 저장되어 있다. -마케팅 담당자는 회사 임원들에게 그의 서베이 결과를 보고할 예정이다. 이 데이터로부터 어떠한 정보가 추출될 수 있는가?
예제 2.4 장거리 전화비용의 분석 -먼저 예제 2.4에 해당되는 도수분포를 만들고 이어서 히스토그램을 그린다.
예제 2.4 장거리 전화비용의 분석 -도수분포를 구하고 히스토그램을 그리기 위해 각 관측치가 하나의 계급(class)에만 속하게 하는 방식으로 정의되는 8개의 계급을 다음과 같이 선택한다. (계급/ 달러기준) 15 이하 15 초과 ~ 30 이하 30 초과 ~ 45 이하 45 초과 ~ 60 이하 60 초과 ~ 75 이하 75 초과 ~ 90 이하 90 초과 ~ 105이하 105 초과 ~ 120이하 도수분포 (<표 2.5> ) /히스토그램 (그림2.5)
예제 2.4의 히스토그램
예제 2.4의 히스토그램 해석… (18+28+14=60)÷200 = 30% 즉 장거리 전화비용의 거의 1/3은 $90이상이다. 월간 장거리 비용의 약 ½ (71+37=108) 은 $30 미만으로 “적다l” 월간 장거리 비용이 중간범위 에 존재하는 신규계약자 수는 적다
히스토그램 그리기… 데이터의 수집 데이터의 도수분포 구하기… How? a) 계급의 수 결정… How? 표2.6 참조 관측치 수가 200인 경우, 계급 수는 7~10개이다… 또는 스터지 공식(Sturges’ formula), 즉 계급의 수 = 1 + 3.3 log (n), n=관측치 수 를 사용한다.
히스토그램 그리기… 데이터의 수집 데이터의 도수분포 구하기… How? a) 계급의 수 결정. [8] b) 계급구간의 크기 결정… 데이터의 범위(range)를 구한다. 범위 = 최대값-최소값 = $119.63 – $0 = $119.63 따라서 계급구간의 크기는 범위 ÷ (계급의 수) = 119.63 ÷ 8 ≈ 15
예제 2.4의 히스토그램 그리기…
예제 2.4의 히스토그램 그리기…
히스토그램의 모습… 대칭성(Symmetry) -히스토그램의 중심에 수직선을 그리고 수직선의 양측이 모습에서 동일하면 히스토그램은 대칭이라고 말한다. Frequency Frequency Frequency Variable Variable Variable
히스토그램의 모습… 왜도(비대칭성의 정도:Skewness) -비대칭 히스토그램은 왼쪽 또는 오른쪽으로 긴 꼬리를 가진다. Frequency Frequency Variable Variable 양의 비대칭 음의 비대칭
최빈계급(modal class)은 관측치의 수가 최대인 계급이다 히스토그램의 모습… 봉우리 계급구간의 수(Modality) -단봉(unimodal )히스토그램은 하나의 봉우리 를 가진 히스토그램이고, 양봉(bimodal )히스토그램은 두 개의 봉우리 를 가진 히스토그램이다 Bimodal Unimodal Frequency Frequency Variable Variable 최빈계급(modal class)은 관측치의 수가 최대인 계급이다
히스토그램의 모습… 종모양(Bell Shape) -대칭 단봉 히스토그램(symmetric unimodal histogram)의 한 가지 특별한 형태가 종모양의 히스토그램이다. -많은 통계 기법은 모집단이 종모양이어야 한다는 조건을 요구한다. -히스토그램을 그려보는 것은 모집단의 모습이 가져야 하는 조건이 충족되는지를 살펴보는데 도움이 된다. Frequency Variable 종모양 히스토그램
히스토그램의 비교… -예제2.6의 히스토그램과 예제 2.7의 히스토그램을 비교하라. 단봉 vs. 양봉l 경영통계학 점수의 히스토그램과 수리통계학 점수의 히스토그램은 매우 다르다. 단봉 vs. 양봉l 점수의 분포(좁다 /넓다)
줄기-잎 그림(Stem-and-Leaf Display)… -줄기-잎 그림은 히스토그램을 그릴 때 일반적으로 상실되는 개별 관측치들에 관한 정보를 유지시켜준다. -(히스토그램은 계급의 도수에만 초점을 맞추기 때문에 계급에 속한 개별관측치들에 관한 정보가 상실된다) -각 관측치를 두 부분, 즉 줄기(stem)과 잎(leaf)로 분리한다. 예. 관측값이 42.19인 경우 ->관측값을 분리하는 몇 가지의 방법들이 존재한다. ->소수점에서 줄기와 잎으로 분해할 수 있다 ->소수점이하부분을 제외시키고 10자리수와 1자리수를 줄기와 잎으로 분해할 수 있다. Stem Leaf 42 19 4 2
줄기-잎 그림(Stem-and-Leaf Display)… -이와 같은 분해과정을 모든 관측치들에 대하여 적용한다. ->10자리수와 1자리수를 각각 줄기와 잎으로 정의하고 예제 2.4의 데이터에 해당되는 줄기-잎 그림을 그리면 다음과 같다.… Stem Leaf 0 0000000000111112222223333345555556666666778888999999 1 000001111233333334455555667889999 2 0000111112344666778999 3 001335589 4 124445589 5 33566 6 3458 7 022224556789 8 334457889999 9 00112222233344555999 10 001344446699 11 124557889
히스토그램의 모습과 줄기-잎그림의 모습을 비교하라… 히스토그램과 줄기-잎 그림… 히스토그램의 모습과 줄기-잎그림의 모습을 비교하라…
누적백분율곡선(Ogive)… -Ogive(pronounced “Oh-jive”)는 누적도수분포 (cumulative frequency distribution )의 그래프이다. -Ogive는 3단계로 그린다… (1) 도수분포로부터 상대도수(relative frequencies)를 계산한다. (2) 누적상대도수를 계산한다. (3) 누적상대도수를 그래프로 그린다.
예제 2.4의 상대도수… 상대도수(Relative Frequency) = 한 계급에 속한 관측치 수/ 총 관측치 수
누적상대도수… : first class… next class: .355+.185=.540 last class: .930+.070=1.00
누적백분율곡선(Ogive)…
50번째 퍼센타일(50th percentile)에 해당되는 장거리 전화비용은 얼마인가? 누적백분율곡선(Ogive)… 50번째 퍼센타일(50th percentile)에 해당되는 장거리 전화비용은 얼마인가? “약 $35”
2.4 시계열 데이터 설명하기 -동일한 시점에 측정되는 관측치들은 횡단면 데이터(cross-sectional data)라고 부른다. -연속적인 시점들에서 측정되는 관측치들은 시계열 데이터(time-series data)라고 부른다. -시계열 데이터는 선 그래프(line chart )에 의해 그래프로 그려진다. 선 그래프에서 수직축은 변수의 값을 나타내고 수평축은 시간을 나타낸다.
예제 2.8 가솔린 가격 -1978년 이후 월간 평균 가솔린 가격이 Xm02-08 에 기록되어있다. 이와 같은 시계열 데이터를 선 그래프로 그리고 그 결과를 간략하게 설명하라.
예제 2.8 가솔린 가격의 선 그래프
예제 2.9 1982-84 불변가격으로 나타낸 가솔린 가격 Xm02-09 예제 2.9 1982-84 불변가격으로 나타낸 가솔린 가격 Xm02-09 -인플레이션 효과를 제거한 후 가솔린 가격이 과거보다 더 높은지를 결정하라.
예제 2.9 1982-84 불변가격으로 나타낸 가솔린 가격
2.5 두 범주변수의 관계 설명하기… -지금까지 일 변수 (명목데이터 또는 구간데이터)를 위한 표와 그래프 기법을 살펴보았다. -교차분류표(cross-classification table )(또는 교차제표(cross-tabulation table))가 두 명목변수 간의 관계를 나타내기 위해 사용된다. -교차분류표는 두 변수의 각 조합의 도수를 나타낸다.
예제 2.10 신문 독자 서베이 -북미의 한 도시에는 경쟁상태에 있는 4개의 신문, 즉 the Post, Globe and Mail, Sun, Star 가 존재한다. -광고유치활동을 계획하는데 도움을 얻기 위해 신문사의 광고담당자들은 신문시장의 어느 부분이 자신의 신문을 구독하는지를 알아야 할 필요가 있다 -구독신문과 직업간의 관계를 분석하기 위한 서베이가 실시되었다.
예제 2.10 신문 독자 서베이 표본의 추출된 신문독자에게 어떤 신문을 구독하는지 (Globe and Mail (1) Post (2), Star (3), Sun (4))와 그의 직업이 무엇인지(blue-collar worker (1), white-collar worker (2), 전문직 종사자(3))를 물었다. 서베이의 응답은 Xm02-10에 저장되어 있다.
예제 2.10 신문 독자 서베이 -구독신문과 직업의 12개 조합 각각에 속하는 수를 나타내는 표 2.9로 정리한다. Occupation Newspaper Blue Collar White Collar Professional Total G&M 27 29 33 89 Post 18 43 51 112 Star 38 21 22 81 Sun 37 15 20 72 Total 120 108 126 354
예제 2.10 신문 독자 서베이 -만일 직업과 구독신문이 관련되어 있다면, 직업별로 구독하는 신문에 차이가 존재할 것이다. 직업과 구독신문간의 관계를 살펴보는 하나의 쉬운 방법은 각 열의 빈도를 각 열의 상대빈도로 전환시키는 것이다. Occupation Newspaper Blue Collar White Collar Professional G&M 27/120 =.23 29/108 = .27 33/126 = .26 Post 18/120 = .15 43/108 = .40 51/126 = .40 Star 38/120 = .32 21/108 = .19 22/126 = .17 Sun 37/120 = .31 15/108 = .14 20/126 = .16 합계 1.00 1.00 1.00
예제 2.10 신문독자 서베이 -해석: 열2와 열3의 상대빈도는 유사하나 열1과 열2간 및 열1과 열3간에는 상당한 차이가 존재한다. -이것은 블루컬러 근로자들은 화이트컬러 근로자와 전문직 종사자와는 다른 신문을 구독하는 경향이 있고 화이트컬러 근로자와 전문직 종사자는 유사한 신문을 구독하는 경향이 있다는 것을 말해준다. 유사 차이
->두 명목변수 간의 관계를 그래프로 나타내기… -막대그래프를 그리기 위해 교차분류표의 데이처를 사용한다. 전문직 종사자는 Star 또는 Sun보다 Globe & Mail을 두배 더 구독하는 경향…
2.6 두 구간변수의 관계 설명하기… ->두 구간변수간의 관계를 그래프로 나타내기… 2.6 두 구간변수의 관계 설명하기… ->두 구간변수간의 관계를 그래프로 나타내기… -두 구간변수간의 관계를 나타내기 위해 산포도(scatter diagram )가 사용된다. -독립변수(independent variable)는 X로 표시하고 일반적으로 수평축에 나타내는 반면 종속변수 (dependent variable)는 Y로 표시하고 수직축에 나타낸다.
예제 2.12 주택가격과 주택크기의 관계분석 -한 부동산 중개인은 주택의 판매가격이 주택크기와 어느 정도 관계가 있는지를 알고자 하였다. -이와 같은 정보를 얻기 위해 그는 최근에 판매된 12개의 주택 표본을 선택하고 주택판매가격(1000달러기준)과 주택크기(100 제곱피트 기준)를 기록하였다. 이와 같은 데이터가 아래와 같이 정리되어 있고 Xm02-12에 저장되어 있다. Size 23 18 26 20 22 14 33 28 23 20 27 18 Price 315 229 355 261 234 216 308 306 289 204 265 195 -주택가격과 주택크기 간의 관계를 나타내기 위해 그래프 기법을 사용하라.
예제 2.12 주택가격과 주택크기의 관계분석 -산포도에 의하면 주택크기가 더 클수록 주택가격은 더 높다는 관계가 존재하는 것으로 보인다.…
산포도의 모습… -선형관계의 강도와 선형관계의 방향이 산포도에서 중요한 두 가지 개념이다. 양의 선형관계 음의 선형관계 비선형 관계
요약… 구간데이터 명목데이터 일 변수 데이터 히스토그램, 누적백분율곡선, 줄기-잎 그림 빈도/상대빈도분포막대그래프, 파이차트 두 변수의 관계 산포도 교차분류표, 막대그래프