기술통계.

Slides:



Advertisements
Similar presentations
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Advertisements

경영통계 제 1 장 통계란 무엇인가 도수분포표. 도수분포 도수분포 상대도수분포 상대도수분포 누적 도수 누적 도수 분석 도구 - 히스토그램 분석 도구 - 히스토그램.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
5. 통계 1. 산포도와 표준편차.
Keller: Stats for Mgmt & Econ, 7th Ed
2015 개정교육과정 (제2차 수학교육 종합계획).
재료수치해석 HW # 박재혁.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
제 7 장 함수 사용을 통해 엑셀 정복하기.
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
Excel 일차 강사 : 박영민.
수치해석 6장 예제문제 환경공학과 천대길.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
제12주 회귀분석 Regression Analysis
제2장 기술통계학Ⅰ: 표와 그래프적 방법.
제 3장. 수치를 통한 연속형 자료의 요약.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
제2장 기초통계 양윤권 교수.
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
제 7장 연관성분석 화장품과학과 홍보람.
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
군집 분석.
(independent variable)
Descriptive statistics
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
자료의 표현.
자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도.
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
생활 속의 밀도 (1) 뜨고 싶니? 내게 연락해 ! 물질의 뜨고 가라앉음 여러 가지 물질의 밀도.
Fitting / Matrix / Excel
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Excel 일차 강사 : 박영민.
제3장 함수와 배열수식 전진환
Sampling Distributions
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
기초 통계학 지도위원 이광희.
Chapter2. 기술통계(Descriptive Statistics)
Chapter 1 단위, 물리량, 벡터.
여러 가지 집의 같은 점과 다른 점 비교하기 슬기로운 생활 2학년 1학기
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
척도의 속성 - 목 차- 자료수집과정 척도의 속성 -명목척도 -서열척도 -등간척도 -비율척도 -리커트척도 3.Data(자료)
제2장 자료의 정리 및 기술통계 Min Gyoung Chan Ph.Dr..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
추리통계학의 기본개념.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
문제의 답안 잘 생각해 보시기 바랍니다..
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
진리표를 이용한 타당성 증명 진리표(truth table) : 단순 문장들이 진리값을 상이하게 가질 수 있는 가능한 모든 경우를 남김없이 열거한 표 (ex) 오늘은 날씨가 맑거나 비가 올 것이다. 오늘은 날씨가 맑다 비가 온다 오늘은 날씨가 맑거나 비가 올 것이다. T.
Survey Sampling Sangji University.
Presentation transcript:

기술통계

평균적으로 통계학자는 일생동안 결혼은 1.75번 하며 부인들은 일주일에 2회 남편과 외식하려고 애쓰나 성공률은 고작 50%이다. 그는 약 2%급으로 기울어진 지성이 넘치는 이마를 지녔으며, 은행계좌는 5/8개이다. 자녀는 3.06명이고, 그들은 그를 ½쯤 미치게 하는데, 자녀 가운데 남자 아이는 1.65명이다. 아침 식탁에서 정신을 그나마 ¼이라도 차리는 사람은 전체 통계학자 가운데 .07% 남짓인 가 거기서 그는 커피 1.68잔을 소비하고 나머지 .32잔은 셔츠 앞에 흘리고 만다….. 토요일 저녁, 그가 3.06명의 애들을 보모에게 맡길 확률른 1/3인데, 특히 반 값이면 봐줄 장모와 함께 사는 5/8 가운데 들지 못한 경우도 그렇다……. W.F. 믹쉬(1950).

빈도분포 빈도와 퍼센트의 상호 장, 단점 비교? 빈도(frequency); 비표준화 수치 비율(proportion) 일정한 변수의 응답범주 각각에 대한 응답수 그 같은 응답수를 분포의 형태로 정리한 것을 빈도분포라고 한다. 비율(proportion) 일정한 변수가 지니는 범주 각각의 빈도를 전체 사례수로 나눈 수치를 의미한다. 해당변수의 각각의 범주들에 대한 비율을 모두 합하면 항상 ( )과 같다. 비율분포를 사용하는 이유는? 퍼센트(percent); 표준화 수치 일정한 변수가 지니는 범주 각각의 비율에 100을 곱한 수치 퍼센트는 전체 사례수가 100이라고 가정한 상태에서 각각의 범주가 차지하는 사례수를 제시해줌으로써, 전체분포를 더욱 더 용이하게 파악할 수 있다. 빈도와 퍼센트의 상호 장, 단점 비교?

도수분포표와 그래프 가족수 작업치료학과 2학년(바를 정자로 표시) 도수(f) 상대도수(f/n) 1 2 3 4 5 6 7 8 계=1.00

표 및 그림 위의 각 분포 내용을 일목요연하게 제시하기 위해서 표와 그림이 사용된다. S병원 A병원 범주 빈도(%) 뇌졸중 1,236(81.0) 766(55.7) 척수손상 89(5.8) 125(9.1) 외상성뇌손상 161(10.6) 429(31.2) 뇌성마비 40(2.6) 55(4.0) 계 1,526(100.0) 1,375(100.0)

그래프의 특성 막대그래프 및 파이차트; 비서열적 비연속형 변수 히스토그램; 서열적 비연속형 변수 혹은 연속형 변수 범주들간에 어떠한 서열도 존재하지 않으므로, 범주와 범주들 사이에 간격이 유지되는 형태로 격리시켜서 그림을 그린다. 히스토그램; 서열적 비연속형 변수 혹은 연속형 변수 범주들간에 일정한 서열 혹은 연속성이 존재하므로 범주들 사이를 격리 시키지 않고 붙여서 그림을 그린다. 꺽은선 그래프; 서열적 비연속형 변수 혹은 연속형 변수 히스토그램의 변형으로써 히스토그램의 각 범주의 중간 값들을 선으로 연결하여 그린 것을 말한다.

막대그래프 및 파이차트; 비서열적 비연속형 변수 -범주들간에 어떠한 서열도 존재하지 않으므로, 범주와 범주들 사이에 간격이 유지되는 형태로 격리시켜서 그림을 그린다.

꺽은선 그래프; 서열적 비연속형 변수 혹은 연속형 변수 -히스토그램의 변형으로써 히스토그램의 각 범주의 중간 값들을 선으로 연결하여 그린 것을 말한다. 히스토그램; 서열적 비연속형 변수 혹은 연속형 변수 -범주들간에 일정한 서열 혹은 연속성이 존재하므로 범주들 사이를 격리 시키지 않고 붙여서 그림을 그린다.

표와 그래프를 이용한 요약 명목, 서열 척도일 경우 등간, 비율 척도일 경우 도수분포표 막대그래프 줄기와 잎그림 파이차트 히스토그램 분할표 도수다각형 산포도 다이어그램

Recoding 빈도분포표를 정리하고, 요약하는 과정에서 개념적으로 혹은 논리적으로 유사한 범주들이 지니는 빈도들을 서로 묶을 필요가 종종 생기는데, 이처럼 유사한 범주들을 결합함으로써 새로운 빈도분포표를 구성하는 행위를 일컬어 Recoding이라고 한다. 예를.. 뇌졸중+척수손상+외상성 뇌송상=성인 뇌성마비=아동으로 다시 변수를 조정할 수 있다.

누적분포 누적분포란? 빈도분포 혹은 퍼센트 분포에서 각 범주마다 그 범주 이하의 모든 범주들이 지니는 빈도 혹은 퍼센트들을 모두 합한 수치를 바탕으로 재구성한 분포를 말한다.

통제 집단의 사용 자녀수의 도수와 상대도수 Q1. 왜, 상대도수를 사용하는가?

근력이나 인간의 키는 그것이 가질 수 있는 값들이 연속적으로 변한다. 도수를 얘기한다는 것이 무의미함 연속 변수의 경우 근력이나 인간의 키는 그것이 가질 수 있는 값들이 연속적으로 변한다. 도수를 얘기한다는 것이 무의미함 막대그래프 or 히스토그램이라고 함 계급의 수는 너무 자세하지도 간단하지도 않게 끔 적당한 선으로 절충한다. 각 계급 내의 모든 관찰값들을 대표하는 중간값은 정수가 되게 하는 것이 편리하다.

집중화 경향치 집중화 경향치는 최빈값, 중앙값, 평균 변수의 분포가 일정한 속성에로 집중되는 정도를 나타내는 통계치를 의미한다. 최빈값, 중앙값, 평균 최빈값 가장 열등한 통계치이다. 분포의 특정한 수치하나만을 사용하여 계산된 수치임으로 인하여 분포의 집중화 경향을 적절히 대표하는 대표성이 중앙치 및 평균에 비하여 결여되기 때문이다. 중앙치 통계적 극단치에 의한 영향을 상대적으로 적게 받음에 비하여 평균 극단치의 영향을 상대적으로 많이 받는다.

통계적 극단치 정의 극단치와 집중화 경향치 일정한 분포에서 여타의 수치들에 비하여 지나칠 정도로 이탈된 수치를 의미한다. 과연 어느 정도 벗어나는 것이 통계적 극단치인가? (이를 위한 통계적 방법이 존재). 극단치와 집중화 경향치 평균이 77점이고 중앙값은 88점 35kg / 72kg / 88kg / 93kg / 97kg에서 평균이 극단치인 35kg에 대해서 민감하고, 중앙값은 극단치에 별로 민감하지 않다.

줄기_잎 그래프

중앙치와 평균의 사용용도 중앙치는 평균은 실질적으로 평균이 더 많이 빈번하게 이용 사향된(혹은 비대칭적인) 분포의 집중화 경향을 기술하는데 주로 사용됨 평균은 사향되지 않은 분포의 집중화 경향을 기술하는데 주로 사용됨 실질적으로 평균이 더 많이 빈번하게 이용 중간치에 비하여 평균이 보다 더 우수한 통계적 속성을 지니기 때문이다. 평균이 ‘가중된 수치’라는 사실, 즉, 평균은 분포내의 모든 수치들의 크기가 고려된 상태에서 계산됨.

자료의 특성 집단화된 자료 빈도분포의 여러 범주들 가운데 복수(2이상)의 빈도를 지니는 범주가 최소한 하나라도 존재하는 자료 중앙치는 정가운데(홀수)/나누기 2를 함(짝수) 비집단화된 자료 빈도분포의 모든 범주들이 오로지 하나만의 빈도를 가지는 자료 누적빈도 및 퍼센트 분포표를 작성한 후에 누적퍼센트가 정확하게 50%에 해당하는 값 or 50%를 상회하는 최초의 범주값을 찾으면 된다.

평균 평균의 종류 산술평균(arithmetic mean) 기하평균(geometric mean) 조화평균(harmonic mean)

비집단화된 자료 평균의 계산 척수손상환자의 FIM score Yi fi Y1 = 35 1 Y2 = 72 Y3 = 88 N 5

집단화된 자료 평균의 계산 척수손상환자의 FIM score Yi fi Y1 = 81 1 Y2 = 84 2 Y3 = 87 N 5

기술통계관련 공식들

평형점으로서의 평균

상대도수를 사용한 계산법

정점이 하나인 대칭적 분포

평균, 중위수 및 최빈값의 비교

산포치 산포치는 변수의 분포가 일정한 집중화 경향치를 중심으로 이산된 혹은 흩어져 있는 정도는 나타내는 통계치이다. 종류는 왜도(Skewness), 범위(Range), 변량(Variance) 및 표준편차(Standard Deviation), 사분편차(Quartile Deviation), 변이계수(Coefficient of Variation), 평균편차(Average Deviation), 첨도(Kurtosis) 가장 중요한 산포치는 범위, 변량, 표준편차이다.

평균은 동일하지만 변량이 서로 다른 두 분포에 대한 비교

범위 범위 범위는 범위의 장단점을 비교해보면 분포의 이산 정도에 대한 용이하고 신속한 파악 범위=최대값 –최소값 범주간의 서열을 전제로 하는 통계치이므로 비서열적 비연속형 변수의 경우에는 사용할 수 없고, 서열적 비연속형 변수 혹은 연속형 변수의 경우에만 사용 범위의 장단점을 비교해보면 매우 쉽고 신속하게 계산할 수 있다는 장점 최대값과 최소값이라는 두가지 범주값만을 가지고 계산됨으로 인하여 범위가 보유하는 통계적 정보가 여타의 산포치에 비하여 상대적으로 결여될 수밖에 없다는 단점 분포의 이산 정도에 대한 용이하고 신속한 파악

변량과 표준편차 표준편차는 단지 변량에 루트근호를 씌운 것으로써 수치에 있어서의 차이만 존재할 뿐 실제 내용에 있어선 동일한 것이라는 사실을 기억할 필요가 있다. 변량은 가장 일반적이면서도 가장 우수한 산포치이다. 일정한 분포에 있어서 각각의 범주들이 평균을 중심으로 그 주위에 이산된 정도를-즉, 각각의 범주들과 평균 사이의 거리를-모두 제곱한 수치를 전체사례수(N)로 나눈 통계치를 의미한다.

변량 및 표준편차의 통계적 속성 바람직한 산포치가 되기 위한 필수조건 분포내의 모든 범주들과 평균간의 관계가 고려되어야 한다. ‘평균’을 사용하여 이산정도를 산출한 값이 여타의 집중화경향치를 사용하여 이산정도를 산출한 값에 비하여 상대적으로 작아야 한다.

편차제곱평균(M)

표본변량 공식

불편추정치 정의는 표본통계치를 바탕으로 모수를 추정함에 있어서 표본통계치의 기대값이 모수와 같은 경우를 의미한다. 통계적으로 확인된 바에 의하면, 표본 평균의 경우에는 모집단 평균을 불편추정치가 됨 하지만, 표본변량의 경우에는 모집단변량을 불편추정치를 찾아내지 못함. 이 경우에 분모를 N-1로 설정하면 불편추정치 됨

자유도 만약에, 이용할 수 있는 관찰이 단지 n=1개뿐이면 평균은 계산할 수 있으나, 산점도는 계산할 길이 없다. 그러므로, n이 1을 넘는 경우에만 분산에 대한 정보를 얻을 수 있다. 분산에 대해서는 필연적으로 정보가 단지 (n-1)개만 존재하게 되며, 그것이 적절한 분모가 된다. 정보의 개수는 관례적으로 자유도(degrees of freedom; d.f.)

표준편차(SD, standard deviation) 표준편차는 원자료와 동일한 측정단위를 사용하면서 산포성을 나타낼 수 있는 지수다. 분량은 측정단위로서 제곱의 형태를 취하기 때문에 표본의 측정값과 동일한 측정단위를 사용하는 지수로서는 적합하지 않다.

표준편차와 표준오차 표준편차란 표준오차란 측정치와 평균 사이의 거리를 측정하는 것 표본 평균들의 표준편차를 의미하며, 추정된 모평균의 정밀성을 나타내 주는 것이다. 표준편차와 달리 표준오차는 기술통계량이 아니다. 따라서 표준오차를 기술통계량의 목적으로 사용하는 것은 적절하지 않다. 표준오차의 공식을 확인하기….

왜도(Skewness) 왜도는 자료의 중심경향성과 산포도 외에 분포의 모양이 대칭분포로부터 얼마나 벗어나 있는지, 자료 분포가 대칭을 이루고 있는지 어느 한쪽으로 치우쳐 있는지를 측정하는 것이다. 대칭 = 정규분포 s=0 비대칭 좌 비대칭형 = 음의 왜도 S < 0 우 비대칭형 = 양의 왜도 S > 0

첨도(Kurtosis) 첨도란? 자료의 분포 모양의 첨예의 정도, 즉 도수 커브가 위로 뾰쪽한가 아니면 완만한가를 나타내는 측도이다. Kur(x)=0 ; 정규분포(중첨) Kur(x)>3 ; 뾰쪽한 급침 Kur(x)<3 ; 정규분포 보다 완만한 완침

변이계수(CV, Coefficient of Variation) 만약에, 비교하고자 하는 두 집단이 서로 다른 측정 단위를 사용하였을 경우, 악력(grip strength)을 파운드 단위 vs. kg단위 서로 성격이 다른 집단에서 표준편차의 값이 얻어졌을 경우 초등학생1학년 악력 vs. 고등학교 1학년 악력 표준편차 값을 가지고 산포도를 비교하면 문제가 발생한다. 결론적으로 절대적인 변이라 필요한 것이 아니라 상대적인 변이가 필요하다.

2개의 아동발달 검사도구를 이용하여 검사A에서 평균 5.0, 표준편차 0.25 검사 B에서는 평균 50.0, 표준편차 5.0을 얻은 경우에 어느 검사도구의 변이가 큰가를 알고 싶을 때 변이계수를 구하면; 결과적으로 검사 B를 이용하였을 때 아동발달점수의 변이가 크다.

백분위수와 사분위수 백분위수는 사분위수는 Q1=n+1/4, Q2=2(n+1)/4, Q3=3(n+1)/4 사분위범위=Q3-Q1 실제 점수를 비교 점수로 환산하거나 특정한 점수를 해석할 때 기준점이 필요한 경우에 유용 어떤 시험에서 점수 59.0, 81백분위수라는 결과를 통보 받은 경우; 시험점수가 59점이라는 정보 외에 시험을 치른 사람들 중에서 81%가 59점 이하의 점수를 받았다는 사실로서 응시자의 상대적 위치를 알려준다. 사분위수는 백분위수를 네 부분으로 나눈 것으로, 첫번째 사분위수는 25번째 백분위수, 두번째 사분위수는 50번째 백분위수로 중 위수이고, 세번째 사분위수는 75번째 백분위수가 된다. Q1=n+1/4, Q2=2(n+1)/4, Q3=3(n+1)/4 사분위범위=Q3-Q1 사분위편차=(Q3-Q1)/2

LAB 2 Frequency Mean

Central tendency Measures of Dispersion LAB 3 Central tendency Measures of Dispersion