Chapter 2: 데이터의 요약 및 표현 Pilsung Kang

Chapter 2: 데이터의 요약 및 표현 Pilsung Kang
Industrial & Information Systems Engineering Seoul National University of Science & Technology

2011 Data Analysis Tool, IISE, SNUT
Descriptive vs. Inferential (1/2) 기술 통계학 (Descriptive Statistics) 방대한 자료를 그래프나 표 또는 몇 개의 수치로 요약하여 주어진 자료의 전반적인 내용을 쉽고 빠르게 파악할 수 있도록 하는 기법을 다루는 분야. 추리 통계학 (Inferential Statistics) 모집단의 크기가 커 모집단의 개체 전부를 조사 분석 하는 것이 불가능할 경우, 표본을 선택해서 표본의 성격인 통계량을 계산한 다음 이를 기초로 하여 모집단의 성격인 모수(parameter)를 구하는 기법을 다루는 분야. 통계적 추정(statistical estimation): 표본 집단의 통계량을 기초로 하여 모수를 추정. 가설 검증(hypothesis testing): 모수의 유의성 검증 및 신뢰 구간 추정.

Descriptive vs. Inferential (2/2) 기술 통계학 자료의 수집 자료의 정리 및 요약 자료의 해석 추리 통계학 모집단인가? N 통계적 추론 Y 모집단 특성에 대한 결론

Data Characteristics (1/2) 질적 자료 (Qualitative Data) 특정한 속성을 가진 자료 (성별: 남/여, 혈액형: A/B/O/AB 등). 일반적으로 사칙 연산 적용 불가능. 명목형 (Nominal) 자료값의 크기나 순서에 의미가 없음. 각 속성에 대하여 편의상 숫자를 대응시켜 사용하기도 함. 혈액형, 종교, 운동선수 등번호, 인종 등. 순서형 (Ordinal) 기준에 따라 자료값들의 순서에 의미를 부여. 각 숫자는 순서의 의미만을 가지며, 차이/비율의 의미는 없음. 에너지 효율 등급, 학점, 올림픽 메달 등.

Data Characteristics (2/2) 양적 자료 (Quantitative Data) 많고 적음을 나타내는 수치로 된 자료. 사칙 연산 가능. 계수형/이산형 (Count/Discrete) 셀 수 있는 정수의 형태 형제 수, 보험 가입 건 수 등 연속형 (Continuous) 셀 수 없는 소수점을 포함. 키, 무게, 길이 등. 구간형 (Interval) 차이만 의미가 있음. 온도: 20도는 10도보다 2배 뜨겁다(X). 비율형 (Ratio) 차이와 비율이 모두 의미가 있음. 20kg은 10kg보다 2배 무겁다 (O).

Population and Statistics 모집단 (Population) 표본 (Sample) (표본 추출) (표본 크기) (모집단 크기) (통계적 추론) (표본 통계량) (모수)

Descriptive Statistics (1/6) Example 1: 10개의 자연수 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

Descriptive Statistics (2/6) 대표값 (중심경향, Measures of Centrality) 평균 (Mean): 자료값들의 합(sum)을 표본 크기(관측치의 개수) n으로 나눈 것, 일반적으로 가장 널리 쓰이는 대표값. 중간값(Median): 자료값들을 크기 순으로 정렬하였을 때 중앙에 위치하는 값, 평균에 비해 아주 작거나 큰 극단값(extreme value)에 덜 민감. n이 홀수: (n+1)/2 번째 값 n이 짝수: (n/2번째 값 + (n/2+1)번째 값)/2 앞의 예시에서의 중간값 = (5+6)/2 = 5.5 최빈값(Mode): 자료값들 중 가장 빈도가 많은 자료값. 앞의 예시에서는 모든 값이 최빈값

Descriptive Statistics (3/6) 산포도/변이측도 (Measures of Dispersion/Variability) 분산 (Variance): 자료값들이 그의 평균으로부터 얼마만큼 떨어져 있는지를 측정. 변동계수 (Coefficient of Variation): 측정단위나 상대크기가 서로 다른 자료들의 산포도를 비교할 때 유용. 수정 제곱합 (Corrected SS) 비수정 제곱합 (Uncorrected SS)

Descriptive Statistics (4/6) 산포도/변이측도 (Measures of Dispersion/Variability) 분위수 (Quartile): 자료값들을 크기 순으로 정렬하였을 때, 자료를 q등분하는 값. 제 1사분위수(Q1) = 제 25백분위수 = 2.5. 제 2사분위수(Q2) = 제 50백분위수 = 중간값(Median) = 5.5. 제 3사분위수(Q3) = 제 75백분위수 = 7.5. 범위(Range): 최대값(Maximum value)과 최소값(Minimum)의 차이 = 9. 사분위범위 (Interquartile range): 제 3사분위수(Q3) – 제 1사분위수(Q1) = 5.

Descriptive Statistics (5/6) 왜도 (Skewness) 자료의 분포에 대한 비대칭의 정도 (표준정규분포의 왜도 = 0) Relationship among mean, median, mode, skewness. Positively skewed (Skewness > 0) Negatively skewed (Skewness < 0) 최빈값<중간값<평균 평균<중간값<최빈값

Descriptive Statistics (6/6) 첨도 (Kurtosis) 자료분포의 뾰족한 정도 (표준정규분포의 첨도 = 0) Relationship among mean, median, mode, skewness.

Descriptive Illustrations (1/5) Example 2: 성별과 나이에 따른 콜레스테롤 과포화율

Descriptive Illustrations (2/5) 히스토그램 (Histogram) 양적(수치형) 자료에 대해서 적절한 구간으로 나누어 빈도(비율)를 계산하여 막대그래프로 표현한 것.

Descriptive Illustrations (3/5) 줄기-잎 그림 (Stem-and-leaf plot) 줄기(Stem): 자료의 일부 정보 제시 (숫자의 첫 단위 등) 잎(leaf): 나머지 정보 제시 (숫자의 나머지 단위 등)

Descriptive Illustrations (4/5) 상자 그림 (Box plot) 최대값, 최소값, 제 1사분위수, 제 3사분위수, 중간값, 평균 등을 하나의 상자 형식의 도표로 도시. Skeletal box plot Schematic box plot 최대값 이상치 위인접값 (Q3*1.5) 제 3사분위수 + 평균 + 중앙값 제 1사분위수 최소값 (아래인접값)

Descriptive Illustrations (5/5) 정규 확률도 (Normal probability plot) X축에 정규화된 값(x-mu/sigma)과 Y축에는 실제 값을 도시하여 실제 정규 분포와의 유사도를 표현. (+: 정규 분포를 따를 때의 산점도, *: 실제 데이터의 산점도)

SAS Overview 로그 창: 프로그램 실행 로그 확인 탐색기 창: 라이브러리 탐색 확장 편집기 창: 실제 프로그램 작성 영역

SAS Overview 출력 창: 프로그램 실행 결과 확인 결과 창: 프로그램 결과 히스토리 탐색

SAS Overview SAS 프로그램 작성시 유의 사항 SAS는 대문자와 소문자를 구별하지 않는다. SAS는 8자 이상의 라이브러리 명을 할당할 수 없다. SAS 변수 및 라이브러리의 첫 글자는 숫자가 될 수 없다. SAS 프로그래밍 Tip 모르는 명령어 및 프로시저가 있을 경우 도움말에 Keyword를 입력하여 검색한다.

SAS Overview SAS 프로그래밍 Tip (con’t)

SAS Library 할당 1. 탐색기 우클릭 2. 새로 만들기 3. 라이브러리

SAS Library 할당 SAS 실행 시 자동으로 Library 할당

SAS Library 할당

SAS Data 가져오기

SAS Procedures: Univariate 1 UNIVARIATE Procedure Syntax PROC UNIVARIATE DATA = SAS-data-set options; BY variables; CLASS variables / KEYLEVEL = ‘value1’|(‘value1’ ‘value2’); FREQ variables; HISTOGRAM variables / options; ID variables; INSET keywords / options; OUTPUT OUT = SAS-data-set statistic-keywords = names; PROBPLOT variables / options; QQPLOT variables / options; VAR variables; WEIGHT variables; RUN;

SAS Procedures: Univariate 1 Data Creation data dat.cholest; input gender $ age super cards; M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ; run;

SAS Procedures: Univariate 1 Basic Syntax 1. Syntax의 첫 줄과 마지막 줄만으로도 실행 가능 proc sort data = dat.cholest; run;

SAS Procedures: Univariate 숫자형 변수(age, super)에 대해서만 기초 통계량 산출

SAS Procedures: Univariate BY 명령문 2. BY 뒤에 나타나는 변수별로 기초 통계량 산출 proc univariate data = dat.cholest; by gender; run; 2

SAS Procedures: Univariate Gender = F/M에 대해 각각 기초 통계량 산출

SAS Procedures: Univariate VAR 명령문 3. VAR를 사용하여 원하는 변수에 대해서만 기초 통계량 산출 proc univariate data = dat.cholest; by gender; var age; run; var super age; label super = '콜레스테롤 과포화율' age = '나이'; 3

SAS Procedures: Univariate Gender = F/M의 Age 변수에 대해서만 기초 통계량 산출

SAS Procedures: Univariate

SAS Procedures: Univariate CLASS 명령문 4. CLASS: VAR 뒤의 변수에 대해 CLASS 변수별로 기초통계량 계산 proc univariate data = dat.cholest; class gender; var age super; run; 4

SAS Procedures: Univariate HITOGRAM 명령문 5. HISTOGRAM: 양적(수치형) 자료에 대해서 적절한 구간으로 나누어 빈도와 퍼센트를 계산하고 이를 막대그래프로 표현. proc univariate data = dat.cholest; class gender; histogram age; run; 5

SAS Procedures: Univariate HITOGRAM 명령문 5 Age에 대해서만 Histogram이 작성됨

SAS Procedures: Univariate HITOGRAM 명령문 5

SAS Procedures: Univariate HITOGRAM 명령문 5. HISTOGRAM의 다양한 옵션을 사용하여 User-specified histogram 작성 proc univariate data = dat.cholest; class gender; histogram age/ outhistogram = dat.outhisto cfill = orange vaxis = 0 to 40 by 5 midpoints = 10 to 80 by 10 nrow = 1 ncol = 2; run; proc print data = dat.outhisto LABEL; 5

SAS Procedures: Univariate UNIVARIATE Procedure 5

SAS Procedures: Univariate HITOGRAM 명령문 5

SAS Procedures: Univariate PLOT 옵션 6. PLOT: univariate 프로시저에서 줄기-잎 그림, 상자 그림, 정규 확률도 등을 도시 가능. proc univariate data = dat.cholest plot; by gender; var age; run; 6

SAS Procedures: Univariate PLOT 옵션 6

SAS Procedures: Univariate OUTPUT 명령문 7. OUTPUT: univariate 프로시저에서 산출된 통계 지표 중 원하는 지표를 저 장하여 새로운 데이터 셋으로 생성. proc univariate data = dat.cholest; by gender; var super age; output out = dat.univ_out mean = s_mean a_mean std = s_std a_std pctlpts = pctlpre = s_p a_p; run; proc print data = dat.univ_out; 7

SAS Procedures: Univariate OUTPUT 명령문 7. OUTPUT: univariate 프로시저에서 산출된 통계 지표 중 원하는 지표를 저 장하여 새로운 데이터 셋으로 생성. CSS Corrected sum of squares SUM Sum of the observations CV Coefficient of variation SUMWGT Sum of the weights KURTOSIS Kurtosis USS Uncorrected sum of squares MAX Largest value VAR Variance MEAN Sample mean P1 1st percentile MIN Smallest value P5 5th percentile MODE Most frequent value P10 10th percentile N Sample size Q1 Lower quartile (25th percentile) NMISS Number of missing values MEDIAN Median (50th percentile) NOBS Number of observations Q3 Upper quartile (75th percentile) RANGE Range P90 90th percentile SKEWNESS Skewness P95 95th percentile STD Standard deviation P99 99th percentile STDMEAN Standard error of the mean QRANGE Interquartile range (Q3 - Q1) 7

SAS Procedures: RANK & SORT 1 RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 1. RANK: 특정 변수에 대한 순위 계산 proc rank data = dat.cholest out=dat.rankout ties = low; where gender = 'F'; var super; ranks r_super; run;

SAS Procedures: RANK & SORT 1 RANK & SORT Procedure: 데이터의 순위 계산 및 정렬

SAS Procedures: RANK & SORT RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 2. SORT: 특정 변수에 대해서 정렬, 기본 정렬 옵션은 오름차순. proc sort data = dat.rankout; by (descending) r_super; run; proc print data = dat.rankout; 2

SAS Procedures: RANK & SORT RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 2

SAS Procedures: BOXPLOT 1 BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 BOXPLOT Procedure Syntax PROC BOXPLOT DATA = SAS-data-set options; BY variables; ID variables; PLOT analysis-variables*group-variables / options; RUN;

SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 1. SKELETAL Box plot: 제 1 사분위수, 중간값, 제3사분위수로 상자를 나타내고 최대값 및 최소값을 상자와 선으로 연결. proc boxplot data = dat.cholest; plot age*gender / boxstyle = skeletal boxwidth = 20 hoffset = 15; run; 2

SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 2

SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 2. SCHEMATIC Box plot: 제 1 사분위수, 중간값, 제3사분위수로 상자를 나타내고 아래쪽 인접값 및 위쪽인접값을 상자와 선으로 연결. 아래쪽 인접값 = 제 1사분위수로부터 아래쪽으로 1.5배 사분위 범위 이내 위쪽 인접값 = 제 3사분위수로부터 위쪽으로 1.5배 사분위 범위 이내 proc boxplot data = dat.cholest; plot age*gender / boxstyle = schematic boxwidth = 20 hoffset = 15; run; 3

SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 3

SAS Procedures: MEANS & SUMMARY 1 MEANS/SUMMARY Procedure: Summary 통계량 출력 BOXPLOT Procedure Syntax PROC MEANS(SUMMARY) DATA = SAS-data-set options; BY variables; CLASS variables / options; FREQ variables; ID variables; OUTPUT OUT = SAS-data-set statistic-specifications / options; TYPES requests; VAR variables / WEIGHT = weight-variable; WAYS lists; WEIGHT variable; RUN;

SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 MEANS Procedure: data dat.score; input dept $ gender $ age score datalines; Stat M Stat F Stat M Stat M 15 86 Stat F Stat M Math M Math F 20 66 Math M Math F Math F Math F 20 78 ; run; proc means data = dat.score; class dept gender; var age score; 2

SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 2

SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 MEANS Procedure: proc means data = dat.score maxdec = 2 max min mean; class dept gender; var age score; output out = dat.scoreout mean(age score) = m_age m_score std(age score) = s_age s_score; run; proc print data = dat.scoreout; title '>>>>> Data-Set: dat.scoreout <<<<<'; 2

SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 2. SUMMARY Procedure: MEANS Procedure와 거의 동일, default로 output window에 결과를 출력하지 않음. proc summary data = dat.score; class dept gender; var age score; output out = dat.n_score mean(age score) = ; run; 3

SAS Procedures: FREQ 1 FREQ Procedure 하나의 질적 변수가 가지는 분포상의 특징이나 두 질적 변수 간의 연관관계를 살펴보기 위해 사용 일차원 또는 다차원 빈도표와 변수들 간의 상호연관성을 재는 측도들을 제공함으로써 각 변수값들의 분포와 연관도에 관한 정보를 요약 1. Basic Syntax proc freq data = dat.score; run;

SAS Procedures: FREQ 1 FREQ Procedure

SAS Procedures: FREQ FREQ Procedure 2. TABLES 명령문 다양한 형식의 빈도표를 정의 하나의 FREQ Procedure 안에서 여러 개의 TABLES 명령문 사용 가능 NOROW(행 퍼센트 출력 X), NOCOL(열 퍼센트 출력 X) 등의 출력 제어 옵션 사용 가능. proc freq data = dat.score; tables dept gender; tables dept*gender; tables dept*gender / norow nopercent; run; 2

SAS Procedures: FREQ FREQ Procedure 2

SAS Procedures: FREQ FREQ Procedure 3. WEIGHT 명령문 빈도표의 대상이 되는 Data Set에 각 칸별 빈도가 미리 요약되어 있는 경우 사용. data dat.drink; input age drink $ count cards; 18 A A A 12 18 B B B 4 18 C C C 6 18 D D D 10 ; run; proc freq data = dat.drink; weight count; tables age age*drink / nocol nopercent; 3

SAS Procedures: FREQ FREQ Procedure 3

Chapter 2: 데이터의 요약 및 표현 Pilsung Kang

Similar presentations

Presentation on theme: "Chapter 2: 데이터의 요약 및 표현 Pilsung Kang"— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

Chapter 2: 데이터의 요약 및 표현 Pilsung Kang

Similar presentations

Presentation on theme: "Chapter 2: 데이터의 요약 및 표현 Pilsung Kang"— Presentation transcript:

Similar presentations

About project

지원