제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약
기술 통계(descriptive statistics) ▣ 기술 통계 : – 경영의사결정을 내릴 때 요구되는 정보에 대한 성질을 기술하고 요약하는 통계학 ▣ 기술통계의 필요성 :
1. 통계적 데이터의 유형 ▣ 데이터 : – 일반적인 정보를 통계학으로 이용하려면 먼저 이를 계량화하는 것이 필요한 데, 이를 소위 ‘데이터(data)’라 함. 즉 계량화된 정보 또는 정보가 있는 숫자임. ▣ 정보의 데이터화 이유 : (1) 상호간의 정확한 의사전달 목적 : 정성적 정보의 왜곡현상 방지 (2) 의사결정에 필요한 컴퓨터 사용 목적 ▣ 통계적 데이터는 연구대상을 관찰(또는 측정)하여 얻은 관찰치(또는 측정치)의 집합임. 따라서, 통계분석에 필요한 데이터를 획득하기 위해서는 측정척도(scale)이 필요함.
1.1 명목척도와 명목데이터 ▣ 명목척도 : – 측정대상이 속한 범주나 종류에 따라 분류될 수 있도록 측정 대상에 수치나 부호를 부여하는 방법 – 명목척도를 측정하여 획득한 데이터를 명목데이터라 함. ▣ 명목데이터에서 나타난 수치는 단지 분류의 목적으로 사용된 것이기 때문에 이러한 수치에는 크기의 개념이 없음. (예) 관찰대상인 ABC 대학의 학생에 대해 남자에게는 1, 여자에게는 2를 부여한다면, 남녀라는 두 개의 범주를 가진 명목척도가 됨. 따라서, 명목데이터에 있어 비교(>, <) 혹은 사칙연산이 적용되지 않으며, 산술적 의미를 가지지 못함.
1.2 서열척도와 서열데이터 ▣ 서열척도 : – 변수의 상대적 크기(서열)를 나타내는 척도를 서열척도라 하며, 서열척도로 측정하여 얻은 데이터를 서열데이터라 함. – 서열데이터에는 데이터 간의 상대적 비교가 가능하지만, 서열화된 각 수치들의 간격의 차이는 일정하지 않음. ▣ 서열데이터의 수치는 상대적인 크기를 나타내기는 하지만, 수치들 간의 간격이 동일하지 않기 때문에 명목척도와 마찬가지로 사칙연산은 의미가 없으며, 단지 비교만 가능함. 따라서, =,≠,≤,≥ 만이 가능함. ▣ 평균값은 의미가 없고, 이 경우 중앙값(median)이 주로 사용되며, 산포도를 측정하기 위해서는 백분위수 혹은 사분위수가 이용됨.
1.3 구간척도와 구간데이터 ▣ 구간척도 : – 서열척도와 명목척도의 의미를 포함하며 숫자간의 간격이 의미를 지님. 구간척도로 측정하여 얻은 데이터를 구간데이터라 하며 온도, IQ등이 그 예가 됨. ▣ 구간데이터는 척도의 기준이 되는 절대 0점이 없다는 점에서 비율이 의미가 없으며, 따라서 구간데이터에 대한 수학적 연산은 비율을 나타내는 연산(곱셈, 나눗셈)을 제외하고 나머지 연산(=,≠,≤,≥,+,-) 만이 가능함. ▣ 예를 들어, 기온 10도와 40도에서 40도는 10도 보다 4배 더운 것은 아니다. 즉, 40도는 찌는 더위이지만 10도는 더위와 상관없이 서늘한 것을 의미함.
1.4 비율척도와 비율데이터 ▣ 비율척도 : – 앞의 세척도가 가지는 특성을 모두 가지고 있으며 절대적 원점을 갖기 때문에 숫자간의 비율이 산술적 의미를 가짐. 이러한 비율척도로 측정하여 획득한 데이터를 비율데이터라 함. ▣ 비율척도에 의한 데이터는 모두 산술적인 연산이 가능함. ▣ 키, 무게, 압력, 매출액 등 숫자로 관측되는 대부분의 데이터가 비율척도임. 예를 들어, 매출액 0이면, 매출이 전혀 없음을 의미함.
2. 도수분포와 확률분포 ▣ 분포 : – 수집된 데이터를 특정 발생 결과별로 정리한 것이며, 여기서 발생한 결과를 이벤트(event)라 함. – 데이터를 이벤트별로 정리하여 놓은 것으로 주로 표나 그래프가 분포를 나타내는 수단임. ※ 도수분표 : 이벤트별로 그 발생빈도를 정리하여 놓은 표나 그래프 ※ 확률분포 : 이벤트별로 그 발생확률을 정리하여 놓은 표나 그래프
2.1 도수분포표와 확률분포표의 작성 ▣ 도수분포표에서는 데이터가 가지고 있는 특성을 기준으로 몇 개의 구간으로 나누고, 각 구간별로 관측값의 수를 세어 정리하는 것. ▣ 도수분포표 작성방법 1. 구간의 수 결정 : 일반적으로 데이터의 크기의 제곱근 값에 근접하도록 하며 5보다는 크고 20보다는 작게 설정한다. 2. 구간의 크기 결정 : 데이터의 최대값과 최소값의 차이를 계급구간의 수로 나눈 값이 된다. ※구간의 크기 = (자료의 최대값-자료의 최소값) / 구간의 수 3. 경계값 설정 : 계산된 구간 폭은 정수가 아닌 경우가 많고, 사람들이 소수점을 포함하지 않은 정수에 익숙해져 있으므로 계급구간 폭을 결정할 때 정수를 사용하는 것이 바람직하다. 또한 구간이 중복되지 않도록 경계값을 설정한다. 4. 각 구간에 속하는 관측 데이터의 빈도수를 계산한다.
2.2 도수분포표의 그래프 작성 ▣ 주어진 도수분포표를 히스토그램으로 작성하며, 데이터의 형태를 보다 쉽게 나타낼 수 있음.
3. 범주형(비계량) 데이터의 정리 ▣ 범주형 데이터는 성별과 같이 자연스럽게 범주로 나뉘거나, 데이터를 단순화하기 위해 데이터를 비수치적(비계량적) 특성으로 분류하여 정리한 데이터를 의미. 즉, 이벤트가 비수치화되어 있는 것을 의미하며 막대그래프, 파이그래프를 이용하여 표현. ▣ 막대 그래프는 히스토그램과 달리 각 계급을 구분하기 쉽게 표현하며, 막대의 길이는 각 계급의 수를 의미함. 따라서 막대그래프와 히스토그램의 차이는 막대그래프가 양적인 계급 구간이 아닌 범주에 해당하는 데이터를 나타냄. ▣ 파이그래프는 각 범주가 전체에서 차지하는 비율을 나타낸 것으로 분할된 조각의 넓이는 그 범주에 속하는 관측데이터의 상대빈도를 의미함.
▣ 막대 그래프의 예 ▣ 파이 그래프의 예