기술 통계학 (Descriptive Statistics) 수집된 자료를 명료하고 유용하게 정리하는 문제를 다루는 통계학 2 Descriptive Statistics
예 : 서강대학교 군 제대 학생 vs. 군 입대 전 남학생의 성적 비교 이슈 이를 입증하기 위해 자료를 수집하여 분석 예 : 서강대학교 군 제대 학생 vs. 군 입대 전 남학생의 성적 비교 군 제대 학생 의 성적 군 입대 전 남학생 성적 성적 자료 수집 2 Descriptive Statistics
자료의 형태 양적 자료 vs. 질적 자료 양적 자료 : 어떤 것을 세거나 측정하거나 혹은 수학적 계산에 의해 얻어진 자료 예 : 3월 중 자동차 사고 발생 건수(예 X = 5,421건) 질적 자료 : 숫자 대신에 단어로 설명된다. 예 : 자동차 스타일(Y = 대형, 중형, 소형, 경차) 질적 자료도 숫자를 부여하여 나타낸다(coding이라 함) 예 : 대형 = 1, 중형 = 2, 소형 = 3, 경차 = 4 2 Descriptive Statistics
질적 자료와 양적 자료의 예 (1) 통계학 수강생들의 부모의 학력 자료 ? (2) 통계학 수강생들의 정치성향에 대한 자료 ? (1) 통계학 수강생들의 부모의 학력 자료 ? (2) 통계학 수강생들의 정치성향에 대한 자료 ? (3) 통계학 수강생들의 키 자료 ? (4) 통계학 수강생들의 전공 자료 ? (5) 통계학 수강생들의 성적 누계 자료 ? (6) 통계학 수강생들의 성별 자료 ? 2 Descriptive Statistics
횡단면(cross sectional ) 자료 vs. 시계열(time series) 자료 횡단면 자료 (cross sectional data) : 동일 시점의 자료 예 : ’09년도 가구별 소득과 소비지출 자료 시계열 자료 (time series data): 다른 시점에서 측정된 자료 예 : ’60년부터 ’09년까지 가구별 소득과 소비지출 자료 2 Descriptive Statistics
(5) 길동이의 1학년 1학기부터 최근까지의 성적 자료? 횡단면 자료와 시계열 자료의 예 (1) ‘12년 3월 10일 각 기업의 주식 종가 ? (2) 서강대학교 7,000명 학생의 ’08년 2학기 성적 자료 ? (3) ’12년도 S 은행 지점별 예금실적 ? (4) S 은행 신촌지점의 연도별 예금실적 ? (5) 길동이의 1학년 1학기부터 최근까지의 성적 자료? (6) ’90년 1월 3일부터 ’12년 3월 10일까지 종합주가지수 자료 ? (7) 각 도별 연말 기준 실업률 자료 ? 2 Descriptive Statistics
이산(discrete ) 자료 vs. 연속(continous) 자료 측정 단위가 불연속적인 경우, 그 변수를 이산 변수(discrete variable), 연속적인 경우 연속변수(continuous variable)라고 부른다. - 가족 수, 결혼 여부 등 : 이산변수 - 키, 몸무게 등 : 연속변수 2 Descriptive Statistics
명목(nominal ) 자료 vs. 실질(real) 자료 명목자료 : 물가상승을 고려하지 않은 가격과 소득 자료 예 : ’60년부터 최근까지의 임금 자료 실질자료 : 물가상승을 고려한 가격과 소득 자료 예 : ’60년부터 최근까지의 실질임금 자료 명목자료 실질자료 = X 100 물가 지표 2 Descriptive Statistics
소비자 물가지수 : 2000 년 = 100 기준 2000년 가치로 환산한 실질 소득 : 가구당 소득(월) 지수 비율 소득 1965 3.509 31.26배 7,320 467.81배 2008 109.7 3,490,259 소비자 물가지수 : 2000 년 = 100 기준 2000년 가치로 환산한 실질 소득 : ’65년 실질 소득 (x) : 3.509 : 7,320 = 100 : x x = (7,320/3.509)X100 = 208,606원 ’08년 실질 소득 = (3,490,259/109.7)X100 = 3,181,640원 2 Descriptive Statistics
자료의 수집 쉽게 구할 수 있는 자료 조사(survey)를 통하여 구해야 하는 자료 http://kosis.kr (통계청 website) - 거의 대부분의 거시경제 자료포함 조사(survey)를 통하여 구해야 하는 자료 예를 들어, 대통령 선거 조사, 어느 특정 제품에 대한 선호도 등 2 Descriptive Statistics
조사를 통한 자료수집 모집단을 가장 잘 대변할 수 있도록 표본을 수집 최종보고서에 들어가야 하는 내용 모집단 규명, 표본추출방법, 표본 수, 조사방법, 설문지(보통 부록) 등 2 Descriptive Statistics
단순무작위 추출법 (simple random sampling) 모집단 예를 들어, 서강대학교 학생 혹은 경제학과 학생 혹은 경제 통계학을 수강하는 학생 등 2. 표본 추출법 단순무작위 추출법 (simple random sampling) 층화 표본 추출법 (stratified sampling) 군집 표본 추출법 (clustered sampling) 등 앞으로 표본 추출은 단순무작위 추출법에 의해 추출 ; 모든 사건이 표본으로 뽑힐 확률이 같고, 서로 독립이다. 2 Descriptive Statistics
표본의 크기를 크게 하면 => 신뢰성이 높아지나 비용이 많이 소요 3. 표본의 크기(수) 표본의 크기를 크게 하면 => 신뢰성이 높아지나 비용이 많이 소요 4. 조사 방법 전화조사, 우편조사, 면접조사, 인터넷 조사 등 조사하고자 하는 내용에 따라 선택된다 예를 들어, 여론 조사는 대부분 전화조사 (짧은 기간 실시) 주의: 조사방법에 따라 표본이 모집단을 잘 대변할 수 없을 수도 있다. 2 Descriptive Statistics
5. 설문지 작성시 특히 주의할 점 - 설문지에 조사의 목적, 조사기관, 자료의 이용제한을 명시 - 쉽고 명확한 단어를 이용 - 다항문항인 경우 전체 집합이 되어야 하고, 중복이 되어서는 안됨 - 유도하는 질문이 되어서는 안됨 - 개인적인 프라이버시를 질문할 경우 가능한 설문지 마지막에 삽입 2 Descriptive Statistics
자료의 입력 자료를 수집한 다음에는 수집한 자료를 입력 대부분의 경우 EXCEL 프로그램을 이용하여 입력 EXCEL 프로그램 자료 입력 후에는 자료를 정리, 요약하여 자료의 특성을 보기 쉽게 표현한다. 그림, 표, 평균, 분산 등 2 Descriptive Statistics
1. 도수분포표와 누적도수표 자료의 구조를 이해하기 위해, 관찰한 값들을 알기 쉽게 표로 정리한 것이다. 최초에 얻은 정보의 일부는 분실되지만 관찰대상이 전체적으로 어떠한 양적 구조를 갖고 있는지 한 눈으로 볼 수 있다. 2 Descriptive Statistics
1. 도수분포표 lotto 당첨숫자(총 70개) 계급 : 각 구간 계급의 수 : 계급의 숫자 계급구간(계급간격) : 계급의 폭 1- 5 6- 10 11- 15 16- 20 21- 25 26- 30 31- 35 36- 40 41- 45 빈도수 6 7 8 계급 : 각 구간 계급의 수 : 계급의 숫자 계급구간(계급간격) : 계급의 폭 계급 값 : 계급의 중앙값 계급도수 : 각 계급에 속하는 관찰단위의 수 2 Descriptive Statistics
계급간격과 계급개수 계급간격 = range/n 보통 계급의 개수는 6개에서 20사이가 적당. 제일 큰 값(M)과 제일 작은 값(m)을 결정한 후, 그 차이인 범위(range)를 먼저 구한다. 범위를 n 으로 나누어 계급간격을 결정한다. 계급간격 = range/n 앞의 예 : range = 45-1=44, 70 = 약 8 => 계급간격 = 44/8 =약 5 => 계급개수 = 9개 2 Descriptive Statistics
2. 누적도수표 도수분포표 누적도수표 계급구간 빈도수 1- 5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 6 7 8 10 5 이하 10 이하 15 이하 20 이하 25 이하 30 이하 35 이하 40 이하 45 이하 13 19 27 35 45 52 62 70 2 Descriptive Statistics
2. 기술 통계량 많은 경우 주어진 자료의 특성을 하나의 숫자로 표시하여 그 구조를 파악한다. 중심(center) 혹은 대표값을 표시하기 위해 산술평균, 기하평균, 중앙값(median), 최빈값(mode) 등을 사용한다. 퍼짐정도(dispersion)를 파악하기 위하여 범위(range), 분산(variance), 표준편차(standard deviation) 등을 이용한다. 2 Descriptive Statistics
대표값 : 평균(mean) 키 인원 도수분포표를 이용하는 경우 이 경우 평균은 155-159 160-164 165-169 170-174 175-179 180-185 인원 3 8 9 14 11 10 실제 키 평균은 171.67. 이건 특별한 이름이 없기 때문에 평균으로 불리는 것 같다. 2 Descriptive Statistics
; 원 자료 혹은 ; 도수분포표 여기서 Y는 계급값 2 Descriptive Statistics
히스토그램은 평균을 중심으로 균형이 잡혀있다. 평균의 의미 히스토그램은 평균을 중심으로 균형이 잡혀있다. 평균 2 Descriptive Statistics
예 : 남자의 평균 점수 = 72점(200명) 여자의 평균 점수 = 84점(100명) 남녀 모두의 평균점수 = 2 Descriptive Statistics
표본평균 : 모집단 N 표본 n 모평균 : 2 Descriptive Statistics
대표값 :기하평균( geometric mean) 혹은 거치식 펀드의 첫 해 수익률이 200%, 둘째 해 수익률이 800%인 경우 연 평균 투자 수익률은? 2 Descriptive Statistics
기하평균 : ‘율’로 나타낸 변수의 대표값으로 주로 이용 최초의 값과 마지막 값을 각각 ; (n+1)개 자료 각 값들을 대표할 수 있는 값을 찾고자 하는 것임 , . . . , 들의 기하평균을 구하는 것임 2 Descriptive Statistics
대표값 : 메디안(중앙값) 변수의 크기 순으로 놓았을 때 두 집단으로 이등분하는 중앙값 n 이 홀수 : (n+1)/2번째의 수 n 이 짝수 : n/2번째와 n/2+1번째의 산술평균 2 Descriptive Statistics
대표값 : mode(최빈값) 변수 중에 가장 많이 나타나는 값 1, 1, 2, 2, 2, 3, 3, 5, 7, 8 2 Descriptive Statistics
퍼짐 dispersion 대표값은 관찰값의 “퍼진(dispersed)” 정도에 대한 정보를 가지고 있지 않다. x 빈도수 y -1 1 -1,000,000 1,000,000 평균 = 0 으로 같지만 같은 성질의 자료라고 할 수 없다 2 Descriptive Statistics
분산도: 제곱평균 제곱평균은 각각의 표본을 제곱하여 평균한 값으로 이차적률(second moment)이라고도 부르며, 표본의 퍼진 정도를 측정하는 기본적인 통계량 중의 하나이다. X 최소자승법과의 관계…최소자승법은 분산을 최소화 시키는 “평균”값을 찾는 방법이다. 하지만 수준만이 변하였지만 제곱평균 값이 서로 다르다. 이를 보완하기 위해 ‘편차’이용 2 Descriptive Statistics
절대편차의 평균(absolute deviation) 중앙에서 퍼짐 정도 편차(deivation) = Note : 편차의 합은 항상 영의 값을 갖는다. 절대편차의 평균(absolute deviation) 2 Descriptive Statistics
분산도: 분산 variance 분산(variance) ; 모분산 ; 표본분산 2 Descriptive Statistics
2 Descriptive Statistics
표준편차(standard deviation) 분산의 단위는 단위의 제곱이 되어 해석에 문제가 생긴다. 제곱근을 취하여 단위를 조정하여 준다. 혹은 표준편차도 측정되는 단위의 영향을 받는다. 이를 극복하기 위해 변동계수(coefficient of variation, CV ) 2 Descriptive Statistics
기타 분포에 대한 정보 집중 정도와 퍼짐 정도 이외에도 대칭 정도를 측정하기 위해 왜도(skewness), 평균값을 중심으로 표본이 얼마나 집중되어 있는지를 보여주는 첨도(kurtosis) 등이 자주 사용된다. 2 Descriptive Statistics
두 개의 자료 하나의 자료만을 다룰 경우, 평균과 표준편차는 해당 자료의 기본적인 성질을 잘 설명해 준다. 2개 이상의 자료를 비교할 경우, 자료간의 상관관계까지도 염두에 두어야 한다. 다음 슬라이드는 키와 몸무게의 관계를 표시한 그래프(scatter diagram)이다. 2 Descriptive Statistics
2 Descriptive Statistics
추세선 2 Descriptive Statistics
공분산(Covariance) 이러한 자료간의 상관관계를 측정하기 위하여 공분산을 이용한다. 공분산은, 중앙을 기준으로, 한 변수의 크기가 증가(감소)함에 따라 다른 변수의 크기가 증가하는 경향이 있는지 감소하는 경향이 있는지를 보여준다. 2 Descriptive Statistics
Y Y의 편차 II I 점 관계 I, III 양 Y II, IV 음 III IV X X X의 편차 2 Descriptive Statistics
점들이 주로 I, III 사분면 : 점들이 주로 II, IV 사분면 : 공분산(covariance) ; 모집단의 공분산 ; 표본의 공분산 2 Descriptive Statistics
주의 : 공분산=0은 두 변수간에 아무런 관계가 없다는 것이 아니라 양의 관계나 음의 관계가 없는 것을 의미 공분산 > 0 두 변수가 양의 관계 공분산 < 0 두 변수가 음의 관계 주의 : 공분산=0은 두 변수간에 아무런 관계가 없다는 것이 아니라 양의 관계나 음의 관계가 없는 것을 의미 X Y 공분산 = 0 2 Descriptive Statistics
마찬가지로 2 Descriptive Statistics
모집단 공분산 표본 공분산 2 Descriptive Statistics
공분산의 단위 키를 mm단위로 측정할 경우, 공분산의 값은 10배로 늘어나게 된다. 이러한 이유로 공분산은 두 변수의 관계에 대한 경향성만을 보여준다. 2 Descriptive Statistics
상관계수 correlation coefficient 공분산의 부호는 두 변수가 어떤 관계에 있는지를 보여준다. 상관관계의 정도를 알기 위해서는 단위를 통일시켜 비교해야 한다. 이를 위해 정규화된 변수들을 비교한다. 2 Descriptive Statistics
상관계수 표본의 상관계수 모집단의 상관계수 상관계수는 항상 -1과 1사이의 값을 가지며, 두 변수가 선형관계일 때만 -1이나 1이 된다. 2 Descriptive Statistics
양의 상관계수 상관계수가 1에 가까운 경우 상관계수가 0에 가까운 경우 2 Descriptive Statistics
음의 상관계수 상관계수가 0에 가까운 경우 상관계수가 -1에 가까운 경우 2 Descriptive Statistics
Y Y X X 상관계수=1 0 < 상관계수 < 1 주의 : 상관계수는 직선의 관계를 나타내는 것이기 때문에 직선의 기울기와는 관계가 없다 Y Y X X 상관계수=1 0 < 상관계수 < 1 2 Descriptive Statistics