자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도.

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
1. 도형의 연결 상태 2. 꼭지점과 변으로 이루어진 도형 Ⅷ. 도형의 관찰 도형의 연결상태 연결상태가 같은 도형 단일폐곡선의 성질 연결상태가 같은 입체도형 뫼비우스의 띠.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
경영통계 제 1 장 통계란 무엇인가 도수분포표. 도수분포 도수분포 상대도수분포 상대도수분포 누적 도수 누적 도수 분석 도구 - 히스토그램 분석 도구 - 히스토그램.
Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
5. 통계 1. 산포도와 표준편차.
Keller: Stats for Mgmt & Econ, 7th Ed
제 2장. 표와 그림을 통한 자료의 요약.
재료수치해석 HW # 박재혁.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
Entity Relationship Diagram
제12주 회귀분석 Regression Analysis
제2장 기술통계학Ⅰ: 표와 그래프적 방법.
제 3장. 수치를 통한 연속형 자료의 요약.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
디지털영상처리 및 실습 대구보건대학 방사선과.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
제2장 기초통계 양윤권 교수.
23장. 구조체와 사용자 정의 자료형 2.
확률통계론 2장 : 확률변수.
상관함수 correlation function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
제4장 제어 시스템의 성능.
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
자료의 표현.
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
1. 2진 시스템.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
이차방정식과 이차함수의 관계 이차함수의 그래프와 축의 위치 관계 이차방정식 의 그래프와 축이 만나는 점의 좌표는 이차방정식
Sampling Distributions
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
기초 통계학 지도위원 이광희.
Chapter2. 기술통계(Descriptive Statistics)
Chapter 1 단위, 물리량, 벡터.
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
Chapter 1 단위, 물리량, 벡터.
척도의 속성 - 목 차- 자료수집과정 척도의 속성 -명목척도 -서열척도 -등간척도 -비율척도 -리커트척도 3.Data(자료)
제2장 자료의 정리 및 기술통계 Min Gyoung Chan Ph.Dr..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
비교분석 보고서 Template 2015.
상관계수.
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
In-house Consultant Training
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
                              데이터베이스 설계 및 실습 #6 - SQL 실습 한국외국어대학교 DaPS 연구실                              
문제의 답안 잘 생각해 보시기 바랍니다..
Presentation transcript:

자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도

자료의 분류 데이터 정성적 데이터 (Nonmetric Data) 정량적 데이터 (Metric Data) 자료 →정보→파일→DB 데이터 정성적 데이터 (Nonmetric Data) 정량적 데이터 (Metric Data) 명목척도 Nominal Scale 순서척도 Ordinal Scale 등간척도 Interval Scale 비율척도 Ratio Scale 범주형 데이터 (Categorical Data) 연속형 데이터 (Continuous Data)

명목자료(Nominal Data) 순위자료(Ordinal Data) 측정대상의 특성을 분류하거나 확인할 목적으로 숫자를 부여하는 척도. 몇 개의 범주에 의하여 구분된 자료. 수의 연산개념은 적용 불가능 성별 (예, 남자=1, 여자=2) 혈액형 (예, A형=1, B형=2, AB형=3, O형=4) 지역 (예, 서울=1, 경기=2, 강원=3, 전라=4, 경상=5) 운동종목 (예, 축구=1, 배구=2, 야구=3, 농구=4) 결혼 유무 (예, 결혼=1, 미혼=2) 직업 (예, 회사원=1, 공무원=2, 자영업=3, 학생=4) 순위자료(Ordinal Data) 측정대상 간의 순서 관계를 나타내는 척도 범주 간의 크기는 부등식을 이용하여 표현 가능 연산은 적용 불가능 건강 상태(양호=3, 보통=2, 나쁨=1) 성적(상=1, 중=2, 하=3) 선호도(매우 좋다=1, 좋다=2, 보통=3, 나쁘다=4, 매우 나쁘다=5) 상품소비도(매우 많다=1, 많다=2, 보통=3, 적다=4, 매우 적다=5)

등간자료(Interval Data) 비율자료(Ratio Data) 측정대상이 갖고 있는 속성의 양적인 차이를 표현 두 관찰치 사이의 차이를 표현 (인접한 두 변수간의 차이가 일정하다) 평균값, 표준편차, 상관계수 등의 계산 가능 절대적 원점(0)이 존재하지 않으며, 비율의 의미가 없는 척도 온도(기준값 ‘0’이 ‘없음’을 나타내지 않는다) 물가지수 비율자료(Ratio Data) 구간척도가 갖는 특성에 절대적 원점(0)이 존재하며, 비율계산이 가능한 척도 소득이 0이라면 소득이 전혀 없음을 의미 소득 200만원은 소득 100만원의 두 배 신장 체중 성적(시험점수) 판매량 압력 수명 나이

자료의 종류 질적 자료(Qualitative data), 범주형 자료 양적자료(Quantitative data) 원칙적으로 숫자로 표기될 수 없는 자료 - 성별, 학력, 교육 수준 등 질적 자료는 필요에 따라 숫자화 할 수 있으나 자료의 속성을 반영하지는 못함 예) 성별: 남 =1, 여 =2로 편의상 구분할 수 있으나 1과 2는 성별 자체의 속성을 가지지는 않음 양적자료(Quantitative data) 자료 자체가 숫자로 표현되어 있으며 숫자는 자료의 속성을 그대로 반영. 키, 몸무게, 전구의 수명, 시험 성적 등 양적 자료는 필요에 따라 질적 자료로 변환 가능 예) 성적: 90-100 = 수, 60점 미만 = 가 → 이러한 변환 과정을 “집단화”라 함 변 수: 키, 몸무게, 성별 등과 같이 한가지 이상의 자료값을 가질 수 있는 것을 의미 질적변수: 성별과 같이 질적 자료값을 가지는 변수 양적변수: 키, 몸무게 같이 양적 자료값을 가지는 변수

변수 변수(Variable)의 정의 특징적인 속성을 대표하며 일정한 측정단위로 계량화가 가능한 것 (예, 학생의 한달 용돈, 학생의 학업성적) 표본추출단위의 특성을 의미 임의의 변수는 오직 하나의 값만을 갖는 것이 일반적 변수 질적 변수 Qualitative Variable 이산 변수 Discrete Variable 연속 변수 Continuous Variable 양적 변수 Quantitative Variable

질적 변수(Qualitative Variable) 속성을 수치보다는 범주로 표시(성별, 직업, 학력, 만족도) 양적 변수(Quantitative Variable) 연구자의 관심대상이 되는 속성을 수치로 표현 이산변수(Discrete Variable) 정수 값만을 갖는 변수 측정척도에서 셀 수 있는 숫자로 표현되는 변수 각 가구의 자녀 수, 어느 학급의 농촌 출신 학생 수, 1년 교통사고 사망자 수 등 연속변수(Continuous Variable) 측정척도에서 어떠한 값이라도 취할 수 있는 것 정보당 수확되는 곡물의 무게, 어느 학교 학생의 체중, 어떤 회사에서 생산하는 건전지의 사용 시간 등 질적 변수의 양적 변수 표기 및 양적 변수의 질적 변수 표기 가능 (월 평균 소득액을 상, 중, 하로 구분)

질적 자료의 해석 도수(frequency) : 각 자료값이 나타나는 빈도수를 의미 상대도수(relative frequency) : 도수를 전체 자료의 숫자로 나눈 것을 의미 컴퓨터공학전공 학생의 진로 희망 학 생 진로희망 학 생 진로희망 김모씨 군입대 박모양 해외유학 장모씨 대학원 박모시 대학원 손모씨 취직 노다지 취직 김모양 취직 우선동 군입대 서모씨 군입대 박보시 해외유학 박모씨 해외유학 생명대 원양상선 이모씨 군입대 이공대 원양상선 컴퓨터공학전공 학생의 진로 희망 진로희망 도수 상대도수 군입대 4 0.29 대학원 2 0.14 취직 3 0.21 해외유학 3 0.21 원양상선 2 0.14 합 계 14 1.00

도수분포표 질적 자료의 도표 막대그래프의 사용 원형그래프(파이그래프)의 사용 도수분포표의 작성 순서 데이터의 수를 센다. 각 자료 값의 상대도수를 같은 폭의 그래프로 표현 하나의 자료 값에 하나의 막대가 대응 막대의 높이는 상대도수의 크기에 비례 막대의 순서는 임의로 변경 가능 원형그래프(파이그래프)의 사용 원형그래프의 면적은 상대적 크기로 표현 12시 위치에서 시작되며, 시계방향으로 면적 할당 빈도수가 제일 큰 것부터 시작하는 경우도 존재 도수분포표의 작성 순서 데이터의 수를 센다. 데이터의 최대치와 최소치를 구한다. 범위(최대치~최소치)를 구한다. 자료의 크기에 따라 적절한 수를 정한다. 중복되지 않고 동일한 간격을 갖도록 계급구간을 정한다. 각 계급에 속하는 관측 값의 수를 세어 도수를 구한다. 상대도수, 백분율, 누적도수, 누적상대도수, 계급의 중앙값을 구한다. 계급구간 = 최대값 - 최소값 계급의 수

▣ 도수분포표: 각 범주의 도수와 상대도수를 나열한 표 계급값( ) 도수( ) 상대도수 총 계 1 예) 은혜병원의 진료분야별 환자 수에 대한 도수분포표 ▣ 도수(Frequency) : 범주형 자료에서 각 범주에 속하는 관측값의 개수 ▣ 상대도수(Relative frequency) : 도수를 자료의 전체 개수로 나눈 비율

도수 및 상대도수 막대그래프 질적 자료의 도수 및 상대도수 분포를 그림을 통하여 표현하면 자료의 분포를 한눈에 파악할 수 있음

Consideration ? S 대학교 W 대학교 3 5 7 6 9 4 8 20 30 S 대학교 W 대학교 0.15 종류 S 대학교 W 대학교 아메리카노 3 5 에스프레소 7 카푸치노 6 9 카페모카 4 8 계 20 30 종류 S 대학교 W 대학교 아메리카노 0.15 0.1666 에스프레소 0.35 0.2333 카푸치노 0.30 0.3 카페모카 0.20 0.2666 계 1.0

양적 자료의 해석 질적 자료와 같은 방법으로 자료를 분석 줄기 잎 그림(stem and leaf diagram) 도수분포표 (표 2-4) P 24 (예 2-5) P 26 도수분포표 계급 폭 : (가장 큰 자료값-가장 작은 자료값)/계급수(given) 방법 – P 29 도수분포표 작성 자료의 최대값과 최소값을 갖는다. 자료의 크기에 따라 5 -20개 정도의 계급을 정한다. 히스토그램 상대도수 밀도 = 계급의 상대도수 / 계급의 간격 전체 자료의 범위를 몇 개의 범위(계급)으로 구분하여 막대그래프 형태로 표기 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것 더 간단하게 말하면, 도수분포표를 그래프로 나타낸 것 보통 히스토그램에서는 가로축이 계급, 세로축이 도수를 뜻함. 때때로 반대로 그리기도 한함 계급은 보통 변수의 구간이고, 서로 겹치지 않는다. 그림에서 계급(막대기)끼리는 서로 붙어 있어야 함. 히스토그램은 일반 막대그래프와는 다름 막대그래프는 계급 즉 가로를 생각하지 않고 세로의 높이로만 나타내지만 히스토그램은 가로와 세로를 함께 생각해야 함

▣ 상자그림: 자료에 이상치(Outlier)의 존재 여부, 대칭성 등을 쉽게 알아 볼 수 있도록 자료를 요약한 상자 모양의 그래프. 최대값(max) 제3사분위수(Q3) 중위수(median) 제1사분위수(Q1) 최소값(min)

예 2-7(P36) 참고하여 설명할 것 연습문제 2.5(P41) 연습문제 2.12(P43) 2361 171 231 233 83 296 515 172 285 275 158 306 3441 445 266 924 129 549 77 1008 336 225 173 5163 180 578 437 719 1357 803 계급 빈도수 0- 500 19 501-1000 6 1001-1500 2 1501-2000 2001-2500 1 2501-3000 기타 예 2-7(P36) 참고하여 설명할 것 연습문제 2.5(P41) 연습문제 2.12(P43)

자료의 중심위치를 측정하는 측도 ▣ 대표값 : 자료를 대표하거나 또는 자료가 가장 많이 밀집되어 있는 위치를 나타내는 수치로써 평균, 중앙값, 최빈값, 사분위수 ▣ 평균(mean) : 모든 자료값을 더한 것을 총 도수로 나눈 수치로 일반적으로 평균이라 함은 산술평균을 의미한다. ▶ 수리적인 계산이 쉽고 ▶ 개개의 자료에 내포된 정보를 모두 반영할 수 있으며 ▶ 잔차 제곱의 합 이 다른 대표값에 비하여 작게 나타난다. ▶ 예제 3-2(P48)

▣ 중앙값(median) : 측정된 자료값을 크기순서로 나열하여 중앙에 오는 값 ▶ 이상점에 대하여 (산술)평균보다 영향을 덜 받고 ▶ 특히 어느 한 쪽으로 치우친 분포를 갖는 자료에 대하여 평균보다 좋은 중심을 갖는다. ▶ 예 3-4 (P50 참고 ) ▣ 최빈값(mode) : 자료 중에서 가장 많은 도수를 가지는 자료값 ▶ 질적자료, 양적자료에 모두 사용할 수 있고 ▶ 이상점에 영향을 받지 않으며 ▶ 수리적으로 다루기 매우 힘들며 ▶ 최빈값을 없을 수도 있고, 여러 개일 수도 있다. , 이 홀수인 경우 , 이 짝수인 경우

자료의 흩어진 정도를 측정하는 측도 ▣ 자료에 대한 정보를 충분히 제공하기 위해서는 대표값 이외에 자료의 흩어진 정도를 나타내는 척도, 산포도(measure of dispersion)가 필요하며, 척도로는 분산, 표준편차, 범위, 사분위수범위, 변동계수 등이 널리 이용되고 있다. ▣ 분산(variance)과 표준편차(standard deviation) 모분산 : 표본분산 : 모표준편차 : 표본표준편차 :

▣ 범위(R)=최대값( )-최소값( ) ▣ 사분위 범위(interquartile range) ▶ 이 척도는 자료의 수가 적고 어느 정도 대칭성을 갖는 분포를 이룰 때 주로 사용하나, 이상점에 크게 영향을 받으며 각각의 관측값의 크기가 반영되지 못한다는 단점이 있다. ▣ 사분위 범위(interquartile range) ▶ 범위가 갖는 이상점에 대한 영향을 줄이기 위하여 고안된 산포의 척도로서, 자료의 최대, 최소값으로부터 각각 ¼에 해당하는 값들을 제거함으로써 이상점에 대한 영향을 최대한 줄인 산포의 척도이다. ▣ 변동계수(coefficiant of variance) ▶ 두 집단을 상대적으로 비교하는 산포의 척도로서, 측정단위가 다르거나 비록 동일하더라도 평균이 매우 큰 차이를 나타내는 두 집단을 비교할 경우에 주로 사용함. , 모집단의 변동계수 , 표본의 변동계수

실습문제 -사분위수를 확대하여 크기 순서에 따라 나열한 자료값을 100등분하는 수 값을 의미 ▣ 상대적 위치의 측도(백분위수) – P59 참조 -사분위수를 확대하여 크기 순서에 따라 나열한 자료값을 100등분하는 수 값을 의미 -제 P백분위수(pth percentile)는 자료값 중 p%가 그 값보다 작거나 같고 (100-p)%가 그 값보다 크거나 같게 하는 값이다. ▣ 상대적 위치의 측도(z점수) -자료값 z의 z점수 (자료가 모집단일 경우) (자료가 표본일 경우) ▣ 예 3-7(P 55) ▣ 예 3-9(P 57) ▣ 연습문제 3-13(P 69)