Chapter 2: 데이터의 요약 및 표현 Pilsung Kang

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

SAS 기초 1. SAS 프로그램 형식 2. SAS 자료 입력 저장 3. 데이터세트 명령어 4. 기초적인 프로시저.
경영통계 제 1 장 통계란 무엇인가 도수분포표. 도수분포 도수분포 상대도수분포 상대도수분포 누적 도수 누적 도수 분석 도구 - 히스토그램 분석 도구 - 히스토그램.
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
Keller: Stats for Mgmt & Econ, 7th Ed
재료수치해석 HW # 박재혁.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
Keller: Stats for Mgmt & Econ, 7th Ed
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
기술 통계학 (Descriptive Statistics)
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
경영통계학 통계학은 어떤 학문인가? What is Statistics? 1.1.
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
CHAPTER 21 UNIVARIATE STATISTICS
제 3장. 수치를 통한 연속형 자료의 요약.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Chapter 07. 기본 함수 익히기.
제 10장 주성분 분석(PCA) 주성분 분석(PCA)이란? 여러 개의 양적변수들 사이의 분산-공분산 관계를
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
공학컴퓨터프로그래밍 Python 염익준 교수.
제 2장 SAS 프로그램의 구성 DATA 단계와 PROC(EDURE) 단계
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
(independent variable)
Descriptive statistics
Association between two measurement variables Correlation
Inferences concerning two populations and paired comparisons
(Data Exploration & Analysis)
데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
연산자 (Operator).
Keller: Stats for Mgmt & Econ, 7th Ed
자료의 표현.
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도.
Statistical inference I (통계적 추론)
Frequency distributions and Graphic presentation of data
The normal distribution (정규분포)
제 11장 인자분석(Factor Analysis)
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Excel 일차 강사 : 박영민.
제3장 함수와 배열수식 전진환
Chapter 4: 통계적 추정과 검정 Pilsung Kang
에어 PHP 입문.
Excel 일차 강사 : 박영민.
Chapter2. 기술통계(Descriptive Statistics)
척도의 속성 - 목 차- 자료수집과정 척도의 속성 -명목척도 -서열척도 -등간척도 -비율척도 -리커트척도 3.Data(자료)
Chapter 10 데이터 검색1.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
어서와 C언어는 처음이지 제21장.
Presentation transcript:

Chapter 2: 데이터의 요약 및 표현 Pilsung Kang Industrial & Information Systems Engineering Seoul National University of Science & Technology

2011 Data Analysis Tool, IISE, SNUT Descriptive vs. Inferential (1/2) 기술 통계학 (Descriptive Statistics) 방대한 자료를 그래프나 표 또는 몇 개의 수치로 요약하여 주어진 자료의 전반적인 내용을 쉽고 빠르게 파악할 수 있도록 하는 기법을 다루는 분야. 추리 통계학 (Inferential Statistics) 모집단의 크기가 커 모집단의 개체 전부를 조사 분석 하는 것이 불가능할 경우, 표본을 선택해서 표본의 성격인 통계량을 계산한 다음 이를 기초로 하여 모집단의 성격인 모수(parameter)를 구하는 기법을 다루는 분야. 통계적 추정(statistical estimation): 표본 집단의 통계량을 기초로 하여 모수를 추정. 가설 검증(hypothesis testing): 모수의 유의성 검증 및 신뢰 구간 추정.

2011 Data Analysis Tool, IISE, SNUT Descriptive vs. Inferential (2/2) 기술 통계학 자료의 수집 자료의 정리 및 요약 자료의 해석 추리 통계학 모집단인가? N 통계적 추론 Y 모집단 특성에 대한 결론

2011 Data Analysis Tool, IISE, SNUT Data Characteristics (1/2) 질적 자료 (Qualitative Data) 특정한 속성을 가진 자료 (성별: 남/여, 혈액형: A/B/O/AB 등). 일반적으로 사칙 연산 적용 불가능. 명목형 (Nominal) 자료값의 크기나 순서에 의미가 없음. 각 속성에 대하여 편의상 숫자를 대응시켜 사용하기도 함. 혈액형, 종교, 운동선수 등번호, 인종 등. 순서형 (Ordinal) 기준에 따라 자료값들의 순서에 의미를 부여. 각 숫자는 순서의 의미만을 가지며, 차이/비율의 의미는 없음. 에너지 효율 등급, 학점, 올림픽 메달 등.

2011 Data Analysis Tool, IISE, SNUT Data Characteristics (2/2) 양적 자료 (Quantitative Data) 많고 적음을 나타내는 수치로 된 자료. 사칙 연산 가능. 계수형/이산형 (Count/Discrete) 셀 수 있는 정수의 형태 형제 수, 보험 가입 건 수 등 연속형 (Continuous) 셀 수 없는 소수점을 포함. 키, 무게, 길이 등. 구간형 (Interval) 차이만 의미가 있음. 온도: 20도는 10도보다 2배 뜨겁다(X). 비율형 (Ratio) 차이와 비율이 모두 의미가 있음. 20kg은 10kg보다 2배 무겁다 (O).

2011 Data Analysis Tool, IISE, SNUT Population and Statistics 모집단 (Population) 표본 (Sample) (표본 추출) (표본 크기) (모집단 크기) (통계적 추론) (표본 통계량) (모수)

2011 Data Analysis Tool, IISE, SNUT Descriptive Statistics (1/6) Example 1: 10개의 자연수 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

2011 Data Analysis Tool, IISE, SNUT Descriptive Statistics (2/6) 대표값 (중심경향, Measures of Centrality) 평균 (Mean): 자료값들의 합(sum)을 표본 크기(관측치의 개수) n으로 나눈 것, 일반적으로 가장 널리 쓰이는 대표값. 중간값(Median): 자료값들을 크기 순으로 정렬하였을 때 중앙에 위치하는 값, 평균에 비해 아주 작거나 큰 극단값(extreme value)에 덜 민감. n이 홀수: (n+1)/2 번째 값 n이 짝수: (n/2번째 값 + (n/2+1)번째 값)/2 앞의 예시에서의 중간값 = (5+6)/2 = 5.5 최빈값(Mode): 자료값들 중 가장 빈도가 많은 자료값. 앞의 예시에서는 모든 값이 최빈값

2011 Data Analysis Tool, IISE, SNUT Descriptive Statistics (3/6) 산포도/변이측도 (Measures of Dispersion/Variability) 분산 (Variance): 자료값들이 그의 평균으로부터 얼마만큼 떨어져 있는지를 측정. 변동계수 (Coefficient of Variation): 측정단위나 상대크기가 서로 다른 자료들의 산포도를 비교할 때 유용. 수정 제곱합 (Corrected SS) 비수정 제곱합 (Uncorrected SS)

2011 Data Analysis Tool, IISE, SNUT Descriptive Statistics (4/6) 산포도/변이측도 (Measures of Dispersion/Variability) 분위수 (Quartile): 자료값들을 크기 순으로 정렬하였을 때, 자료를 q등분하는 값. 제 1사분위수(Q1) = 제 25백분위수 = 2.5. 제 2사분위수(Q2) = 제 50백분위수 = 중간값(Median) = 5.5. 제 3사분위수(Q3) = 제 75백분위수 = 7.5. 범위(Range): 최대값(Maximum value)과 최소값(Minimum)의 차이 = 9. 사분위범위 (Interquartile range): 제 3사분위수(Q3) – 제 1사분위수(Q1) = 5.

2011 Data Analysis Tool, IISE, SNUT Descriptive Statistics (5/6) 왜도 (Skewness) 자료의 분포에 대한 비대칭의 정도 (표준정규분포의 왜도 = 0) Relationship among mean, median, mode, skewness. Positively skewed (Skewness > 0) Negatively skewed (Skewness < 0) 최빈값<중간값<평균 평균<중간값<최빈값

2011 Data Analysis Tool, IISE, SNUT Descriptive Statistics (6/6) 첨도 (Kurtosis) 자료분포의 뾰족한 정도 (표준정규분포의 첨도 = 0) Relationship among mean, median, mode, skewness.

2011 Data Analysis Tool, IISE, SNUT Descriptive Illustrations (1/5) Example 2: 성별과 나이에 따른 콜레스테롤 과포화율

2011 Data Analysis Tool, IISE, SNUT Descriptive Illustrations (2/5) 히스토그램 (Histogram) 양적(수치형) 자료에 대해서 적절한 구간으로 나누어 빈도(비율)를 계산하여 막대그래프로 표현한 것.

2011 Data Analysis Tool, IISE, SNUT Descriptive Illustrations (3/5) 줄기-잎 그림 (Stem-and-leaf plot) 줄기(Stem): 자료의 일부 정보 제시 (숫자의 첫 단위 등) 잎(leaf): 나머지 정보 제시 (숫자의 나머지 단위 등)

2011 Data Analysis Tool, IISE, SNUT Descriptive Illustrations (4/5) 상자 그림 (Box plot) 최대값, 최소값, 제 1사분위수, 제 3사분위수, 중간값, 평균 등을 하나의 상자 형식의 도표로 도시. Skeletal box plot Schematic box plot 최대값 이상치 위인접값 (Q3*1.5) 제 3사분위수 + 평균 + 중앙값 제 1사분위수 최소값 (아래인접값)

2011 Data Analysis Tool, IISE, SNUT Descriptive Illustrations (5/5) 정규 확률도 (Normal probability plot) X축에 정규화된 값(x-mu/sigma)과 Y축에는 실제 값을 도시하여 실제 정규 분포와의 유사도를 표현. (+: 정규 분포를 따를 때의 산점도, *: 실제 데이터의 산점도)

2011 Data Analysis Tool, IISE, SNUT SAS Overview 로그 창: 프로그램 실행 로그 확인 탐색기 창: 라이브러리 탐색 확장 편집기 창: 실제 프로그램 작성 영역

2011 Data Analysis Tool, IISE, SNUT SAS Overview 출력 창: 프로그램 실행 결과 확인 결과 창: 프로그램 결과 히스토리 탐색

2011 Data Analysis Tool, IISE, SNUT SAS Overview SAS 프로그램 작성시 유의 사항 SAS는 대문자와 소문자를 구별하지 않는다. SAS는 8자 이상의 라이브러리 명을 할당할 수 없다. SAS 변수 및 라이브러리의 첫 글자는 숫자가 될 수 없다. SAS 프로그래밍 Tip 모르는 명령어 및 프로시저가 있을 경우 도움말에 Keyword를 입력하여 검색한다.

2011 Data Analysis Tool, IISE, SNUT SAS Overview SAS 프로그래밍 Tip (con’t)

2011 Data Analysis Tool, IISE, SNUT SAS Library 할당 1. 탐색기 우클릭 2. 새로 만들기 3. 라이브러리

2011 Data Analysis Tool, IISE, SNUT SAS Library 할당 SAS 실행 시 자동으로 Library 할당

2011 Data Analysis Tool, IISE, SNUT SAS Library 할당

2011 Data Analysis Tool, IISE, SNUT SAS Data 가져오기

2011 Data Analysis Tool, IISE, SNUT SAS Data 가져오기

2011 Data Analysis Tool, IISE, SNUT SAS Data 가져오기

2011 Data Analysis Tool, IISE, SNUT SAS Data 가져오기

2011 Data Analysis Tool, IISE, SNUT SAS Data 가져오기

2011 Data Analysis Tool, IISE, SNUT SAS Data 가져오기

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate 1 UNIVARIATE Procedure Syntax PROC UNIVARIATE DATA = SAS-data-set options; BY variables; CLASS variables / KEYLEVEL = ‘value1’|(‘value1’ ‘value2’); FREQ variables; HISTOGRAM variables / options; ID variables; INSET keywords / options; OUTPUT OUT = SAS-data-set statistic-keywords = names; PROBPLOT variables / options; QQPLOT variables / options; VAR variables; WEIGHT variables; RUN;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate 1 Data Creation data dat.cholest; input gender $ age super @@; cards; M 23 40 M 64 88 M 66 110 M 31 86 M 55 137 M 48 78 M 58 111 M 31 88 M 27 80 M 25 86 M 20 80 M 32 47 M 63 106 M 23 65 M 62 74 M 43 66 M 43 79 M 36 58 M 67 123 M 27 87 M 29 88 M 48 90 M 63 56 M 27 73 M 19 112 M 59 110 M 65 118 M 26 52 M 53 106 M 42 67 M 60 57 F 30 66 F 25 69 F 40 65 F 38 52 F 57 84 F 33 86 F 23 35 F 42 116 F 49 76 F 35 55 F 49 73 F 44 89 F 50 127 F 60 87 F 63 142 F 47 77 F 23 76 F 27 58 F 36 91 F 48 107 F 23 98 F 74 128 F 44 84 F 56 146 F 53 75 F 37 120 F 41 80 F 41 82 F 57 123 ; run;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate 1 Basic Syntax 1. Syntax의 첫 줄과 마지막 줄만으로도 실행 가능 proc sort data = dat.cholest; run;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate 숫자형 변수(age, super)에 대해서만 기초 통계량 산출

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate BY 명령문 2. BY 뒤에 나타나는 변수별로 기초 통계량 산출 proc univariate data = dat.cholest; by gender; run; 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate Gender = F/M에 대해 각각 기초 통계량 산출

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate VAR 명령문 3. VAR를 사용하여 원하는 변수에 대해서만 기초 통계량 산출 proc univariate data = dat.cholest; by gender; var age; run; var super age; label super = '콜레스테롤 과포화율' age = '나이'; 3

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate Gender = F/M의 Age 변수에 대해서만 기초 통계량 산출

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate CLASS 명령문 4. CLASS: VAR 뒤의 변수에 대해 CLASS 변수별로 기초통계량 계산 proc univariate data = dat.cholest; class gender; var age super; run; 4

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate HITOGRAM 명령문 5. HISTOGRAM: 양적(수치형) 자료에 대해서 적절한 구간으로 나누어 빈도와 퍼센트를 계산하고 이를 막대그래프로 표현. proc univariate data = dat.cholest; class gender; histogram age; run; 5

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate HITOGRAM 명령문 5 Age에 대해서만 Histogram이 작성됨

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate HITOGRAM 명령문 5

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate HITOGRAM 명령문 5. HISTOGRAM의 다양한 옵션을 사용하여 User-specified histogram 작성 proc univariate data = dat.cholest; class gender; histogram age/ outhistogram = dat.outhisto cfill = orange vaxis = 0 to 40 by 5 midpoints = 10 to 80 by 10 nrow = 1 ncol = 2; run; proc print data = dat.outhisto LABEL; 5

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate UNIVARIATE Procedure 5

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate HITOGRAM 명령문 5

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate HITOGRAM 명령문 5

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate PLOT 옵션 6. PLOT: univariate 프로시저에서 줄기-잎 그림, 상자 그림, 정규 확률도 등을 도시 가능. proc univariate data = dat.cholest plot; by gender; var age; run; 6

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate PLOT 옵션 6

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate OUTPUT 명령문 7. OUTPUT: univariate 프로시저에서 산출된 통계 지표 중 원하는 지표를 저 장하여 새로운 데이터 셋으로 생성. proc univariate data = dat.cholest; by gender; var super age; output out = dat.univ_out mean = s_mean a_mean std = s_std a_std pctlpts = 33.3 66.6 pctlpre = s_p a_p; run; proc print data = dat.univ_out; 7

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate OUTPUT 명령문 7. OUTPUT: univariate 프로시저에서 산출된 통계 지표 중 원하는 지표를 저 장하여 새로운 데이터 셋으로 생성. CSS Corrected sum of squares SUM Sum of the observations CV Coefficient of variation SUMWGT Sum of the weights KURTOSIS Kurtosis USS Uncorrected sum of squares MAX Largest value VAR Variance MEAN Sample mean P1 1st percentile MIN Smallest value P5 5th percentile MODE Most frequent value P10 10th percentile N Sample size Q1 Lower quartile (25th percentile) NMISS Number of missing values MEDIAN Median (50th percentile) NOBS Number of observations Q3 Upper quartile (75th percentile) RANGE Range P90 90th percentile SKEWNESS Skewness P95 95th percentile STD Standard deviation P99 99th percentile STDMEAN Standard error of the mean QRANGE Interquartile range (Q3 - Q1) 7

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: Univariate

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: RANK & SORT 1 RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 1. RANK: 특정 변수에 대한 순위 계산 proc rank data = dat.cholest out=dat.rankout ties = low; where gender = 'F'; var super; ranks r_super; run;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: RANK & SORT 1 RANK & SORT Procedure: 데이터의 순위 계산 및 정렬

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: RANK & SORT RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 2. SORT: 특정 변수에 대해서 정렬, 기본 정렬 옵션은 오름차순. proc sort data = dat.rankout; by (descending) r_super; run; proc print data = dat.rankout; 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: RANK & SORT RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: RANK & SORT RANK & SORT Procedure: 데이터의 순위 계산 및 정렬 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: BOXPLOT 1 BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 BOXPLOT Procedure Syntax PROC BOXPLOT DATA = SAS-data-set options; BY variables; ID variables; PLOT analysis-variables*group-variables / options; RUN;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 1. SKELETAL Box plot: 제 1 사분위수, 중간값, 제3사분위수로 상자를 나타내고 최대값 및 최소값을 상자와 선으로 연결. proc boxplot data = dat.cholest; plot age*gender / boxstyle = skeletal boxwidth = 20 hoffset = 15; run; 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 2. SCHEMATIC Box plot: 제 1 사분위수, 중간값, 제3사분위수로 상자를 나타내고 아래쪽 인접값 및 위쪽인접값을 상자와 선으로 연결. 아래쪽 인접값 = 제 1사분위수로부터 아래쪽으로 1.5배 사분위 범위 이내 위쪽 인접값 = 제 3사분위수로부터 위쪽으로 1.5배 사분위 범위 이내 proc boxplot data = dat.cholest; plot age*gender / boxstyle = schematic boxwidth = 20 hoffset = 15; run; 3

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: BOXPLOT BOXPLOT Procedure: 그래픽 형태의 상자그림 도시 3

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY 1 MEANS/SUMMARY Procedure: Summary 통계량 출력 BOXPLOT Procedure Syntax PROC MEANS(SUMMARY) DATA = SAS-data-set options; BY variables; CLASS variables / options; FREQ variables; ID variables; OUTPUT OUT = SAS-data-set statistic-specifications / options; TYPES requests; VAR variables / WEIGHT = weight-variable; WAYS lists; WEIGHT variable; RUN;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 MEANS Procedure: data dat.score; input dept $ gender $ age score @@; datalines; Stat M 10 94 Stat F 10 96 Stat M 15 91 Stat M 15 86 Stat F 10 76 Stat M 20 88 Math M 20 71 Math F 20 66 Math M 15 81 Math F 10 77 Math F 15 55 Math F 20 78 ; run; proc means data = dat.score; class dept gender; var age score; 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 MEANS Procedure: proc means data = dat.score maxdec = 2 max min mean; class dept gender; var age score; output out = dat.scoreout mean(age score) = m_age m_score std(age score) = s_age s_score; run; proc print data = dat.scoreout; title '>>>>> Data-Set: dat.scoreout <<<<<'; 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 2. SUMMARY Procedure: MEANS Procedure와 거의 동일, default로 output window에 결과를 출력하지 않음. proc summary data = dat.score; class dept gender; var age score; output out = dat.n_score mean(age score) = ; run; 3

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: MEANS & SUMMARY MEANS/SUMMARY Procedure: Summary 통계량 출력 3

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ 1 FREQ Procedure 하나의 질적 변수가 가지는 분포상의 특징이나 두 질적 변수 간의 연관관계를 살펴보기 위해 사용 일차원 또는 다차원 빈도표와 변수들 간의 상호연관성을 재는 측도들을 제공함으로써 각 변수값들의 분포와 연관도에 관한 정보를 요약 1. Basic Syntax proc freq data = dat.score; run;

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ 1 FREQ Procedure

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ FREQ Procedure 2. TABLES 명령문 다양한 형식의 빈도표를 정의 하나의 FREQ Procedure 안에서 여러 개의 TABLES 명령문 사용 가능 NOROW(행 퍼센트 출력 X), NOCOL(열 퍼센트 출력 X) 등의 출력 제어 옵션 사용 가능. proc freq data = dat.score; tables dept gender; tables dept*gender; tables dept*gender / norow nopercent; run; 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ FREQ Procedure 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ FREQ Procedure 2

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ FREQ Procedure 3. WEIGHT 명령문 빈도표의 대상이 되는 Data Set에 각 칸별 빈도가 미리 요약되어 있는 경우 사용. data dat.drink; input age drink $ count @@; cards; 18 A 10 19 A 13 20 A 12 18 B 14 19 B 7 20 B 4 18 C 2 19 C 10 20 C 6 18 D 12 19 D 8 20 D 10 ; run; proc freq data = dat.drink; weight count; tables age age*drink / nocol nopercent; 3

2011 Data Analysis Tool, IISE, SNUT SAS Procedures: FREQ FREQ Procedure 3