Excel과 통계학.

Excel과 통계학

제1장 자료의 정리 및 요약 도수분포표(frequency distribution table)
많은 수의 관측값들을 몇 개의 묶음으로 나누어 각 묶음에 속한 관측값의 수를 요약∙정리한 표 누적도수분포표(cumulative frequency distribution table) : 각 묶음에 속한 관측값을 순차적으로 누적하여 기입한 표 상대도수분포표(relative frequency distribution table) : 각 묶음에 속한 관측값을 백분율로 계산하여 기입한 표 상대누적도수분포표(relative cumulative frequency distribution table) : 각 묶음에 속한 관측값을 순차적으로 누적하고 백분율로 계산하여 기입한 표

제1장 자료의 정리 및 요약 도수분포표와 상대도수분포표 예제 : 어느 지역 15세대에 대한 각 세대당 자녀수 자료
0, 1, 3, 1, 2, 0, 4, 6, 3, 2, 2, 1, 0, 1, 2 도수분포표를 작성하기 위해서는 자료를 몇 개의 그룹(계급)으로 나눔. 자녀수를 계급(class)으로, 각 계급에 속한 빈도수(frequency)를 정리 자녀수에 대한 도수분포표 및 상대도수분포표 계급(자녀수) 도수 상대도수 1 2 3 4 5 6 3/15=0.20 4/15=0.27 2/15=0.13 1/15=0.07 0/15=0.00 합계 15 1.00

제1장 자료의 정리 및 요약 도수분포표의 작성방법 도수분포표의 작성순서
도수분포표의 계급(class)은 자료의 성질에 따라 좌우됨. 질적 자료 : 범주로 표시=범주형자료(예 : 성별, 학점 등) 양적 자료 : 구간으로 표시(예 : 앞의 도수분포표 참조) 도수분포표의 작성순서 자료의 범위(range) 결정 : 최대값(max)-최소값(min) 계급(또는 계급구간)의 수(K) : 최소 5개~최대 20개 정도 Sturges’ formula : K=1+3.3log10n 계급의 크기(=계급의 폭) : 범위(range)/계급의 수(K) 중복되지 않도록 계급의 폭 조정 각 계급의 빈도수 작성

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표 자료들은 계급구간별로 나눠 도수분포표를 작성해야 함.
계급구간별 도수분포는 함수마법사를 이용하여 계산이 가능함. 함수마법사 → 함수마법사 클릭 범주 선택 : 통계 함수 선택

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표
우선, 계급구간의 범위를 설정하기 위하여 최대값(MAX)과 최소값(MIN)을 구해야 함. 함수마법사에서 최대값은 MAX, 최소값은 MIN이라는 함수명을 사용함.

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표 최대값-최소값

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표 스터지스 공식 K=1+3.3log10(40)

이제 계급의 수와 계급의 폭이 정해지면, Excel에 계급구간을 설정함. 여기서 유의할 점은 아래의 Excel에서 처럼 계급구간에는 (계급)상한값만 설정함.

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표 계급구간이 정해지면 도수영역의 셀(cell)을 모두 지정함.
이제 함수마법사의 함수선택에서 ‘FREQUENCY’를 선택하고 확인 버튼을 누름.

함수인수에서 Data_array는 전체 자료의 영역을 지정하고, Bins_array는 계급구간의 영역을 지정함. 여기서 확인을 클릭하면 절대 안됨.

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표 마우스를 수식입력줄의 맨 끝부분으로 이동시켜 커서를 깜박이게 함.
그리고 나서 Ctrl+ Shift+Enter 키를 누름(확인을 클릭하면 절대 안됨).

그 결과 아래의 도수분포표와 같이 각 계급구간에 대한 도수들이 구해짐. 도수의 합계 셀을 지정한 후, Excel 창에서 홈→자동합계를 클릭하고 Enter 키를 누르면 도수의 합계가 구해짐.

제1장 자료의 정리 및 요약 계급구간을 사용한 도수분포표 이제는 상대도수를 구해보기로 함.
우선 상대도수의 첫번째 셀에 마우스를 클릭함. Excel의 수식입력줄에서 계산할 때는 항상 등식(=)을 먼저 입력해야 함. 상대도수는 전체 도수에 대한 각 계급구간의 도수, 즉 전체 도수에서 각 계급구간들이 차지하는 비중을 나타내므로 첫번째 셀은 2/40으로 구할 수 있음. 그러나 상대도수는 각 셀에서 하나하나씩 구할 수도 있지만 Excel에서는 편리한 기능이 있음. 첫번째 셀에서 상대도수를 구할 때 분모(전체 도수)를 고정하고 계산하면 나머지 계급구간의 상대도수를 한꺼번에 계산할 수 있음. 분모를 고정시키기 위해서는 행과 열(셀 주소)을 고정해야 함. 셀 주소를 고정시키기 위하여 행과 열 앞에 $표시를 넣어주면 됨.

첫번째 계급구간에 대한 상대도수가 구해지면 다시 첫번째 셀을 지정하고 오른쪽으로 마우스를 이동하면 가는 십자가 형태가 나타남. 마우스를 합계 셀까지 드래그(drag)하면 자동으로 상대도수가 구해짐.

도수분포표가 정리되면 다시 도형화한 도수분포와 상대도수분포에 대한 히스토그램(histogram)으로 나타낼 수 있음. 히스토그램은 자료의 특징이나 분포구조를 시각적으로 파악할 수 있음.

제1장 자료의 정리 및 요약 줄기-잎 그림(stem-and-leaf display)
통계학자 John Tukey가 정보의 손실을 어느 정도 극복하는 방법으로 제시 양적 변수를 압축된 형태로 표현하며, 도수분포표와 히스토그램의 특징을 동시에 보여주는 방법 Step 1. 각 관측값을 줄기(stem)와 잎(leaf)으로 구분함. Step 2. 줄기에 해당하는 값을 크기 순으로 세로로 나열한 후, 그 옆에 수직선을 그음. Step 3. 각 줄기에 해당하는 자료의 잎 부분을 그 줄기의 오른쪽에 크기 순서대로 가로로 배열

제1장 자료의 정리 및 요약 줄기-잎 그림(stem-and-leaf display) 관측값을 두 개의 단위로 분할 기입
예 : 배터리 수명 2.2년 줄기(stem) : 2년 잎(leaf) : 0.2년 1 2 2 3 4

예 : 자동차용 배터리 수명 자료(단위 : 년, 자료수 : 40개) 줄기의 수가 적당한지 여부?

예 : 자동차용 배터리 수명 자료(단위 : 년, 자료수 : 40개) 1 6 9 2 2 2 3 3 4 4 위에서  : 04,  : 59임.

장점 : 분포형태뿐만 아니라 각 관측값들도 나타나는 정리 방법 적절한 줄기수의 결정 : 줄기 수L=10log10n

제2장 자료의 측정 중심경향치(measure of central tendency)
자료의 특성을 하나의 숫자로 대표할 수 있는 특성값 대표값이란 용어 이외에 자료의 중심값 또는 중심위치의 척도(measure of central location)라고도 함. 예 : 평균(mean=산술평균; arithmetic mean), 절사평균(trimmed mean), 가중평균(weighted mean), 기하평균(geometric mean), 조화평균(harmonic mean), 중앙값(중위수; median), 최빈값(최빈수; mode) 등 산포도(measure of dispersion) 자료에서 관측값들이 얼마만큼 퍼져있는가를 측정하는 척도 변동성의 척도(measure of variability)라고도 함. 예 : 범위(range), 분산(variance), 표준편차(standard deviation), 변동계수(coefficient of variation), 사분위편차(interquartile range) 등

(산술)평균(mean; arithmetic mean; average) 균형점(자료의 중심) 모든 관측값의 크기(정보)를 반영 이상값(outlier)의 영향을 받음. 예: 79, 82, 86, 80, 84, 75, 78, 100, 77 : 82.3 0, 82, 86, 80, 84, 75, 78, 100, 77 : 73.6

(산술)평균(mean; arithmetic mean; average) Excel에서 산술평균을 구하고자 할 경우, 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정하고 함수명 ‘AVERAGE’를 선택하고 확인 버튼을 누름.

(산술)평균(mean; arithmetic mean; average) 함수인수 AVERAGE 창에서 ‘Number1’에 평균을 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

(%)절사평균(trimmed mean : trimmean) 자료 중에서 큰 관측값이나 작은 관측값을 각각 %만큼 버린 나머지 관측값들로부터 구한 평균 일정비율만큼 이상값을 포함시키지 않고 구한 평균 예: 0, 75, 77, 78, 80, 82, 84, 85, 86, 100 : 74.7 75, 77, 78, 80, 82, 84, 85, 86 : (→ 10%절사평균)

(%)절사평균(trimmed mean : trimmean) Excel에서 절사평균을 구하고자 할 경우, 우선 절사평균값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정하고 함수명 ‘TRIMMEAN’를 선택하고 확인 버튼을 누름.

(%)절사평균(trimmed mean : trimmean) 함수인수 TRIMMEAN 창에서 ‘Array’에는 전체 자료의 영역에서 %를 제외하고 평균을 구하고자 하는 영역을 지정하고 ‘Percent’에는 자료의 양끝에서 제외시킬 비율, 예를 들어 10%인 경우 0.1을 기재한 후, 확인 버튼을 누름.

제2장 자료의 측정 중심경향치(measure of central tendency) 가중평균(weighted mean)
관측값 하나하나의 중요도가 모두 같지 않은 경우에 사용되는 평균 가중평균을 사용할 때 상대적 중요도를 반영하는 값을 가중치(weight)라고 함. 자료의 관측값 X1, X2, ∙∙∙, Xn의 가중치를 각각 w1, w2, ∙∙∙, wn이라 할 때 가중평균은 다음과 같음.

기하평균(geometric mean : geomean) 물가지수 등과 같이 증가 또는 감소의 평균 변화값을 구하는 경우에 사용 일반적으로 변동률, 상승률, 증가율 등의 평균을 구하는 경우에 사용

기하평균(geometric mean : geomean) Excel에서 기하평균을 구하고자 할 경우, 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정하고 함수명 ‘GEOMEAN’을 선택하고 확인 버튼을 누름.

기하평균(geometric mean : geomean) 함수인수 GEOMEAN 창에서 ‘Number1’에 평균을 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

조화평균(harmonic mean : harmean) 측정치에 대한 단위당 대표값을 구하는 경우에 사용 예를 들어 동일거리를 반복 주행할 때의 평균속도 계산 조화평균의 역수는 각 측정값의 역수들의 산술평균과 같음.

조화평균(harmonic mean : harmean) Excel에서 조화평균을 구하고자 할 경우, 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정하고 함수명 ‘HARMEAN’을 선택하고 확인 버튼을 누름.

조화평균(harmonic mean : harmean) 함수인수 HARMEAN 창에서 ‘Number1’에 평균을 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

도수분포표를 이용한 평균(average)의 계산 도수분포표는 자료가 계급구간으로 나누어져 있으므로 계급구간의 자료값들을 하나하나 파악하지 못함. 이러한 경우 다음과 같이 평균을 구해야 함. 계급구간별 (계급)중앙값을 구함. (계급)중앙값과 도수를 곱한 후 그 값을 모두 합함. 이렇게 구해진 값을 전체 도수로 나누면 평균을 구할 수 있음.

도수분포표를 이용한 평균(average)의 계산 Excel을 통하여 도수분포표의 평균을 구하는 경우, 서로 다른 두 값을 대응하여 곱한 후 합할 수 있는 ‘SUMPRODUCT’라는 함수가 있음(함수마법사→범주선택 : 모두→SUMPRODUCT).

도수분포표를 이용한 평균(average)의 계산 함수인수 SUMPRODUCT 창에서 ‘Array1’에는 계급중앙값 영역을, 그리고 ‘Array2’에는 도수 영역을 지정하고 확인 버튼을 누름.

도수분포표를 이용한 평균(average)의 계산 이제 SUMPRODUCT에 의하여 구한 총합계를 자료수인 총도수로 나누어주면 평균값을 구할 수 있음.

제2장 자료의 측정 중심경향치(measure of central tendency) 중앙값(=중위수; median)
Excel에서 중앙값을 구하고자 할 경우, 우선 중앙값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정하고 함수명 ‘MEDIAN’을 선택하고 확인 버튼을 누름.

제2장 자료의 측정 중심경향치(measure of central tendency) 중앙값(=중위수; median)
함수인수 MEDIAN 창에서 ‘Number1’에 중앙값을 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

제2장 자료의 측정 중심경향치(measure of central tendency) 최빈값(=최빈수; mode)
자료 중에서 가장 많이 출현하는 관측값 존재하지 않을 수도 있으며, 1개 이상 존재할 수도 있음. 예 : 2, 0, 3, 1, 2, 4, 2, 5, 4, 0, 1, 4 : 2, 4

Excel에서 최빈값을 구하고자 할 경우, 우선 최빈값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정하고 함수명 ‘MODE’를 선택하고 확인 버튼을 누름.

함수인수 MODE 창에서 ‘Number1’에 최빈값을 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

제2장 자료의 측정 산포도(measure of dispersion) 다음 A, B, C 자료들의 평균과 중앙값은 모두 같음.
이와 같이 자료를 숫자로 요약∙정리하는 자료의 대표값만으로 충분하지 않음. 따라서 자료에서 관측값들이 얼마만큼 퍼져있는가를 측정하는 척도인 산포도를 고려해야 함. 산포도는 자료에서 관측값들이 변화하는 크기인 변동량을 나타내는 계수임.

제2장 자료의 측정 산포도(measure of dispersion) 범위(range)
자료의 관측값 중 가장 큰 값인 최대값(max)과 가장 작은 값인 최소값(min)과의 차이 범위(range)=최대값(max)-최소값(min) 오직 자료들 중 두 관측값만 이용함. 관측값 하나하나의 크기가 반영되지 못함. 이상값에 의해 크게 영향 받음. 자료 A : 3, 4, 5, 6, 8, 9, 10, 12, 15 (range=15-3=12) 자료 B : 3, 7, 7, 7, 8, 8, 8, 9, 15 (range=15-3=12)

제2장 자료의 측정 산포도(measure of dispersion) 범위(range)
범위(range)=최대값(max)-최소값(min)

제2장 자료의 측정 산포도(measure of dispersion) 사분위수(quartile)
자료를 크기순으로 나열할 경우 자료가 4등분되는 위치의 관측값을 말함. 제1사분위수(Q1) 자료의 25%에 해당하는 수, 하위 50%의 중앙값 제2사분위수(Q2) 자료의 50%에 해당하는 수, 중앙값 제3사분위수(Q3) 자료의 75%에 해당하는 수, 상위 50%의 중앙값 0% 25% 50% 75% 100% Q1 Q3 Q2

Excel에서 사분위수를 구하고자 할 경우, 함수마법사에서 범주는 통계로 설정하고 함수명 ‘QUARTILE’을 클릭하고 확인 버튼을 누름.

함수인수 QUARTILE 창에서 ‘Array’는 전체 자료를 지정하고, ‘Quart ’에는 구하고자 하는 사분위수를 적어 넣고 확인 버튼을 누름.

제2장 자료의 측정 산포도(measure of dispersion)
사분위편차(=사분위수범위; interquartile range : IQR) 사분위편차(IQR)=제3사분위수(Q3)-제1사분위수(Q1) 상위 25%와 하위 25%를 뺀 나머지의 범위

제2장 자료의 측정 산포도(measure of dispersion) 분산(variance)
산포도를 정확하게 측정하기 위해서는 하나하나의 관측값들의 크기가 반영되어야 바람직함. 여기서 N개의 원소로 구성된 모집단으로부터 자료의 관측값 X1, X2, ∙∙∙, XN에서 각 관측값 Xi들이 평균 μ에서 떨어진 크기(=편차; deviation)인 Xi-μ를 직접 더하면 항상 0이 됨. 따라서 편차인 Xi-μ를 직접 더하지 않고 제곱을 하고 더한 후 평균을 구한 값을 산포도로 사용하는 것이 적당함. 이 값을 분산(variance)이라 함.

모분산(population variance) X1, X2, ∙∙∙, XN이 모집단으로부터 전수조사를 하여 얻은 관측값인 경우 모집단의 분산 σ2은 다음과 같이 정의됨. 표본분산(sample variance) X1, X2, ∙∙∙, Xn이 표본으로부터 얻은 관측값인 경우 표본의 분산 S2은 다음과 같이 정의됨.

앞에서 살펴본 바와 같이 모분산과 표본분산은 공식에서 서로 차이가 있음. 즉, 모분산은 N으로 나누는 반면, 표본분산은 n-1로 나누어 줌. 따라서 Excel에서도 분산과 표준편차를 구하는 경우, 다음과 같은Excel 함수를 사용함. 모집단(population) 표본(sample) 분산(variance) VARP VAR 표준편차(S.D.) STDEVP STDEV

Excel에서 분산을 구하고자 할 경우, 함수마법사에서 범주는 통계로 설정하고 함수명 ‘VARP’(모분산)를 클릭하고 확인 버튼을 누름.

함수인수 VARP 창에서 ‘Number1’에 분산을 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

제2장 자료의 측정 산포도(measure of dispersion) 표준편차(standard deviation)
모분산이나 표본분산은 관측값들의 편차를 제곱하여 계산하므로 모분산이나 표본분산의 측정단위는 관측값들의 측정단위와 일치하지 않음. 따라서 관측값의 측정단위와 일치시키기 위하여 분산의 양의 제곱근(square root)을 사용하는데, 이를 표준편차(standard deviation : S.D.)라고 함. 모집단의 모표준편차 : 표본의 표본표준편차 : 관측값들이 자료의 중심인 평균으로부터 얼마나 밀집되어 있는가의 척도, 즉 평균과 관측값 차이들의 평균 이상값에 민감함.

표준편차는 Excel의 함수마법사에서 ‘STDEVP’(모분산)를 이용하거나 분산의 제곱근(square root)을 이용, 즉 ‘SQRT(분산)’

함수인수 STDEVP 창에서 ‘Number1’에 표준편차를 구하고자 하는 전체 자료의 영역을 지정한 후, 확인 버튼을 누름.

제2장 자료의 측정 산포도(measure of dispersion) 분산과 표준편차
통계학 시험성적에 대한 두 반의 분산과 표준편차

변동계수(coefficient of variation : CV) 자료 측정단위의 변화와 무관한 산포도 모변동계수 : , 표본변동계수 : 측정단위가 서로 다른 자료들의 산포도를 비교하는데 사용함. 예 : 기업 A 주식 평균 50,000원, 표준편차 10,000원 기업 B 주식 평균 12,000원, 표준편차 4,000원 기업 A 주식의 변동계수=(10,000/50,000)100=20.0% 기업 B 주식의 변동계수=(4,000/12,000)100=33.3%

변동계수(coefficient of variation : CV)

제2장 자료의 측정 비대칭도(=왜도; skewness) 자료의 분포가 중앙으로부터 좌우로 치우친 정도를 나타내는 척도
Sk가 0이면 좌우 대칭분포(정규분포), Sk가 양수(+)이면 오른쪽 긴 꼬리분포(right-skewed), Sk가 음수(-)이면 왼쪽 긴 꼬리분포(left-skewed)

제2장 자료의 측정 첨도(kurtosis) 대칭인 분포에서 꼬리가 두터운 정도를 나타내는 척도
분포의 뾰족함 정도를 측정하는 척도 첨도가 3이면 정규분포, 3보다 크면 첨예분포, 3보다 작으면 평탄분포

제2장 자료의 측정 데이터분석법을 이용한 방법

Excel과 통계학.

Similar presentations

Presentation on theme: "Excel과 통계학."— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

Excel과 통계학.

Similar presentations

Presentation on theme: "Excel과 통계학."— Presentation transcript:

Similar presentations

About project

지원