Download presentation
Presentation is loading. Please wait.
1
자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도
2
자료의 분류 데이터 정성적 데이터 (Nonmetric Data) 정량적 데이터 (Metric Data)
자료 →정보→파일→DB 데이터 정성적 데이터 (Nonmetric Data) 정량적 데이터 (Metric Data) 명목척도 Nominal Scale 순서척도 Ordinal Scale 등간척도 Interval Scale 비율척도 Ratio Scale 범주형 데이터 (Categorical Data) 연속형 데이터 (Continuous Data)
3
명목자료(Nominal Data) 순위자료(Ordinal Data)
측정대상의 특성을 분류하거나 확인할 목적으로 숫자를 부여하는 척도. 몇 개의 범주에 의하여 구분된 자료. 수의 연산개념은 적용 불가능 성별 (예, 남자=1, 여자=2) 혈액형 (예, A형=1, B형=2, AB형=3, O형=4) 지역 (예, 서울=1, 경기=2, 강원=3, 전라=4, 경상=5) 운동종목 (예, 축구=1, 배구=2, 야구=3, 농구=4) 결혼 유무 (예, 결혼=1, 미혼=2) 직업 (예, 회사원=1, 공무원=2, 자영업=3, 학생=4) 순위자료(Ordinal Data) 측정대상 간의 순서 관계를 나타내는 척도 범주 간의 크기는 부등식을 이용하여 표현 가능 연산은 적용 불가능 건강 상태(양호=3, 보통=2, 나쁨=1) 성적(상=1, 중=2, 하=3) 선호도(매우 좋다=1, 좋다=2, 보통=3, 나쁘다=4, 매우 나쁘다=5) 상품소비도(매우 많다=1, 많다=2, 보통=3, 적다=4, 매우 적다=5)
4
등간자료(Interval Data) 비율자료(Ratio Data) 측정대상이 갖고 있는 속성의 양적인 차이를 표현
두 관찰치 사이의 차이를 표현 (인접한 두 변수간의 차이가 일정하다) 평균값, 표준편차, 상관계수 등의 계산 가능 절대적 원점(0)이 존재하지 않으며, 비율의 의미가 없는 척도 온도(기준값 ‘0’이 ‘없음’을 나타내지 않는다) 물가지수 비율자료(Ratio Data) 구간척도가 갖는 특성에 절대적 원점(0)이 존재하며, 비율계산이 가능한 척도 소득이 0이라면 소득이 전혀 없음을 의미 소득 200만원은 소득 100만원의 두 배 신장 체중 성적(시험점수) 판매량 압력 수명 나이
5
자료의 종류 질적 자료(Qualitative data), 범주형 자료 양적자료(Quantitative data)
원칙적으로 숫자로 표기될 수 없는 자료 - 성별, 학력, 교육 수준 등 질적 자료는 필요에 따라 숫자화 할 수 있으나 자료의 속성을 반영하지는 못함 예) 성별: 남 =1, 여 =2로 편의상 구분할 수 있으나 1과 2는 성별 자체의 속성을 가지지는 않음 양적자료(Quantitative data) 자료 자체가 숫자로 표현되어 있으며 숫자는 자료의 속성을 그대로 반영. 키, 몸무게, 전구의 수명, 시험 성적 등 양적 자료는 필요에 따라 질적 자료로 변환 가능 예) 성적: = 수, 60점 미만 = 가 → 이러한 변환 과정을 “집단화”라 함 변 수: 키, 몸무게, 성별 등과 같이 한가지 이상의 자료값을 가질 수 있는 것을 의미 질적변수: 성별과 같이 질적 자료값을 가지는 변수 양적변수: 키, 몸무게 같이 양적 자료값을 가지는 변수
6
변수 변수(Variable)의 정의 특징적인 속성을 대표하며 일정한 측정단위로 계량화가 가능한 것 (예, 학생의 한달 용돈, 학생의 학업성적) 표본추출단위의 특성을 의미 임의의 변수는 오직 하나의 값만을 갖는 것이 일반적 변수 질적 변수 Qualitative Variable 이산 변수 Discrete Variable 연속 변수 Continuous Variable 양적 변수 Quantitative Variable
7
질적 변수(Qualitative Variable)
속성을 수치보다는 범주로 표시(성별, 직업, 학력, 만족도) 양적 변수(Quantitative Variable) 연구자의 관심대상이 되는 속성을 수치로 표현 이산변수(Discrete Variable) 정수 값만을 갖는 변수 측정척도에서 셀 수 있는 숫자로 표현되는 변수 각 가구의 자녀 수, 어느 학급의 농촌 출신 학생 수, 1년 교통사고 사망자 수 등 연속변수(Continuous Variable) 측정척도에서 어떠한 값이라도 취할 수 있는 것 정보당 수확되는 곡물의 무게, 어느 학교 학생의 체중, 어떤 회사에서 생산하는 건전지의 사용 시간 등 질적 변수의 양적 변수 표기 및 양적 변수의 질적 변수 표기 가능 (월 평균 소득액을 상, 중, 하로 구분)
8
질적 자료의 해석 도수(frequency) : 각 자료값이 나타나는 빈도수를 의미
상대도수(relative frequency) : 도수를 전체 자료의 숫자로 나눈 것을 의미 컴퓨터공학전공 학생의 진로 희망 학 생 진로희망 학 생 진로희망 김모씨 군입대 박모양 해외유학 장모씨 대학원 박모시 대학원 손모씨 취직 노다지 취직 김모양 취직 우선동 군입대 서모씨 군입대 박보시 해외유학 박모씨 해외유학 생명대 원양상선 이모씨 군입대 이공대 원양상선 컴퓨터공학전공 학생의 진로 희망 진로희망 도수 상대도수 군입대 대학원 취직 해외유학 원양상선 합 계
9
도수분포표 질적 자료의 도표 막대그래프의 사용 원형그래프(파이그래프)의 사용 도수분포표의 작성 순서 데이터의 수를 센다.
각 자료 값의 상대도수를 같은 폭의 그래프로 표현 하나의 자료 값에 하나의 막대가 대응 막대의 높이는 상대도수의 크기에 비례 막대의 순서는 임의로 변경 가능 원형그래프(파이그래프)의 사용 원형그래프의 면적은 상대적 크기로 표현 12시 위치에서 시작되며, 시계방향으로 면적 할당 빈도수가 제일 큰 것부터 시작하는 경우도 존재 도수분포표의 작성 순서 데이터의 수를 센다. 데이터의 최대치와 최소치를 구한다. 범위(최대치~최소치)를 구한다. 자료의 크기에 따라 적절한 수를 정한다. 중복되지 않고 동일한 간격을 갖도록 계급구간을 정한다. 각 계급에 속하는 관측 값의 수를 세어 도수를 구한다. 상대도수, 백분율, 누적도수, 누적상대도수, 계급의 중앙값을 구한다. 계급구간 = 최대값 - 최소값 계급의 수
10
▣ 도수분포표: 각 범주의 도수와 상대도수를 나열한 표
계급값( ) 도수( ) 상대도수 총 계 1 예) 은혜병원의 진료분야별 환자 수에 대한 도수분포표 ▣ 도수(Frequency) : 범주형 자료에서 각 범주에 속하는 관측값의 개수 ▣ 상대도수(Relative frequency) : 도수를 자료의 전체 개수로 나눈 비율
11
도수 및 상대도수 막대그래프 질적 자료의 도수 및 상대도수 분포를 그림을 통하여 표현하면 자료의 분포를 한눈에 파악할 수 있음
12
Consideration ? S 대학교 W 대학교 3 5 7 6 9 4 8 20 30 S 대학교 W 대학교 0.15
종류 S 대학교 W 대학교 아메리카노 3 5 에스프레소 7 카푸치노 6 9 카페모카 4 8 계 20 30 종류 S 대학교 W 대학교 아메리카노 0.15 0.1666 에스프레소 0.35 0.2333 카푸치노 0.30 0.3 카페모카 0.20 0.2666 계 1.0
13
양적 자료의 해석 질적 자료와 같은 방법으로 자료를 분석 줄기 잎 그림(stem and leaf diagram) 도수분포표
(표 2-4) P 24 (예 2-5) P 26 도수분포표 계급 폭 : (가장 큰 자료값-가장 작은 자료값)/계급수(given) 방법 – P 29 도수분포표 작성 자료의 최대값과 최소값을 갖는다. 자료의 크기에 따라 5 -20개 정도의 계급을 정한다. 히스토그램 상대도수 밀도 = 계급의 상대도수 / 계급의 간격 전체 자료의 범위를 몇 개의 범위(계급)으로 구분하여 막대그래프 형태로 표기 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것 더 간단하게 말하면, 도수분포표를 그래프로 나타낸 것 보통 히스토그램에서는 가로축이 계급, 세로축이 도수를 뜻함. 때때로 반대로 그리기도 한함 계급은 보통 변수의 구간이고, 서로 겹치지 않는다. 그림에서 계급(막대기)끼리는 서로 붙어 있어야 함. 히스토그램은 일반 막대그래프와는 다름 막대그래프는 계급 즉 가로를 생각하지 않고 세로의 높이로만 나타내지만 히스토그램은 가로와 세로를 함께 생각해야 함
14
▣ 상자그림: 자료에 이상치(Outlier)의 존재 여부, 대칭성 등을 쉽게 알아 볼 수 있도록 자료를 요약한 상자 모양의 그래프.
최대값(max) 제3사분위수(Q3) 중위수(median) 제1사분위수(Q1) 최소값(min)
15
예 2-7(P36) 참고하여 설명할 것 연습문제 2.5(P41) 연습문제 2.12(P43) 2361 171 231 233 83
296 515 172 285 275 158 306 3441 445 266 924 129 549 77 1008 336 225 173 5163 180 578 437 719 1357 803 계급 빈도수 19 6 2 1 기타 예 2-7(P36) 참고하여 설명할 것 연습문제 2.5(P41) 연습문제 2.12(P43)
16
자료의 중심위치를 측정하는 측도 ▣ 대표값 : 자료를 대표하거나 또는 자료가 가장 많이 밀집되어 있는
위치를 나타내는 수치로써 평균, 중앙값, 최빈값, 사분위수 ▣ 평균(mean) : 모든 자료값을 더한 것을 총 도수로 나눈 수치로 일반적으로 평균이라 함은 산술평균을 의미한다. ▶ 수리적인 계산이 쉽고 ▶ 개개의 자료에 내포된 정보를 모두 반영할 수 있으며 ▶ 잔차 제곱의 합 이 다른 대표값에 비하여 작게 나타난다. ▶ 예제 3-2(P48)
17
▣ 중앙값(median) : 측정된 자료값을 크기순서로 나열하여 중앙에 오는 값
▶ 이상점에 대하여 (산술)평균보다 영향을 덜 받고 ▶ 특히 어느 한 쪽으로 치우친 분포를 갖는 자료에 대하여 평균보다 좋은 중심을 갖는다. ▶ 예 3-4 (P50 참고 ) ▣ 최빈값(mode) : 자료 중에서 가장 많은 도수를 가지는 자료값 ▶ 질적자료, 양적자료에 모두 사용할 수 있고 ▶ 이상점에 영향을 받지 않으며 ▶ 수리적으로 다루기 매우 힘들며 ▶ 최빈값을 없을 수도 있고, 여러 개일 수도 있다. , 이 홀수인 경우 , 이 짝수인 경우
18
자료의 흩어진 정도를 측정하는 측도 ▣ 자료에 대한 정보를 충분히 제공하기 위해서는 대표값 이외에 자료의 흩어진 정도를 나타내는 척도, 산포도(measure of dispersion)가 필요하며, 척도로는 분산, 표준편차, 범위, 사분위수범위, 변동계수 등이 널리 이용되고 있다. ▣ 분산(variance)과 표준편차(standard deviation) 모분산 : 표본분산 : 모표준편차 : 표본표준편차 :
19
▣ 범위(R)=최대값( )-최소값( ) ▣ 사분위 범위(interquartile range)
▶ 이 척도는 자료의 수가 적고 어느 정도 대칭성을 갖는 분포를 이룰 때 주로 사용하나, 이상점에 크게 영향을 받으며 각각의 관측값의 크기가 반영되지 못한다는 단점이 있다. ▣ 사분위 범위(interquartile range) ▶ 범위가 갖는 이상점에 대한 영향을 줄이기 위하여 고안된 산포의 척도로서, 자료의 최대, 최소값으로부터 각각 ¼에 해당하는 값들을 제거함으로써 이상점에 대한 영향을 최대한 줄인 산포의 척도이다. ▣ 변동계수(coefficiant of variance) ▶ 두 집단을 상대적으로 비교하는 산포의 척도로서, 측정단위가 다르거나 비록 동일하더라도 평균이 매우 큰 차이를 나타내는 두 집단을 비교할 경우에 주로 사용함. , 모집단의 변동계수 , 표본의 변동계수
20
실습문제 -사분위수를 확대하여 크기 순서에 따라 나열한 자료값을 100등분하는 수 값을 의미
▣ 상대적 위치의 측도(백분위수) – P59 참조 -사분위수를 확대하여 크기 순서에 따라 나열한 자료값을 100등분하는 수 값을 의미 -제 P백분위수(pth percentile)는 자료값 중 p%가 그 값보다 작거나 같고 (100-p)%가 그 값보다 크거나 같게 하는 값이다. ▣ 상대적 위치의 측도(z점수) -자료값 z의 z점수 (자료가 모집단일 경우) (자료가 표본일 경우) ▣ 예 3-7(P 55) ▣ 예 3-9(P 57) ▣ 연습문제 3-13(P 69)
Similar presentations