Presentation is loading. Please wait.

Presentation is loading. Please wait.

기술통계.

Similar presentations


Presentation on theme: "기술통계."— Presentation transcript:

1 기술통계

2 평균적으로 통계학자는 일생동안 결혼은 1.75번 하며 부인들은 일주일에 2회 남편과 외식하려고 애쓰나 성공률은 고작 50%이다. 그는 약 2%급으로 기울어진 지성이 넘치는 이마를 지녔으며, 은행계좌는 5/8개이다. 자녀는 3.06명이고, 그들은 그를 ½쯤 미치게 하는데, 자녀 가운데 남자 아이는 1.65명이다. 아침 식탁에서 정신을 그나마 ¼이라도 차리는 사람은 전체 통계학자 가운데 .07% 남짓인 가 거기서 그는 커피 1.68잔을 소비하고 나머지 .32잔은 셔츠 앞에 흘리고 만다….. 토요일 저녁, 그가 3.06명의 애들을 보모에게 맡길 확률른 1/3인데, 특히 반 값이면 봐줄 장모와 함께 사는 5/8 가운데 들지 못한 경우도 그렇다…… W.F. 믹쉬(1950).

3 빈도분포 빈도와 퍼센트의 상호 장, 단점 비교? 빈도(frequency); 비표준화 수치 비율(proportion)
일정한 변수의 응답범주 각각에 대한 응답수 그 같은 응답수를 분포의 형태로 정리한 것을 빈도분포라고 한다. 비율(proportion) 일정한 변수가 지니는 범주 각각의 빈도를 전체 사례수로 나눈 수치를 의미한다. 해당변수의 각각의 범주들에 대한 비율을 모두 합하면 항상 ( )과 같다. 비율분포를 사용하는 이유는? 퍼센트(percent); 표준화 수치 일정한 변수가 지니는 범주 각각의 비율에 100을 곱한 수치 퍼센트는 전체 사례수가 100이라고 가정한 상태에서 각각의 범주가 차지하는 사례수를 제시해줌으로써, 전체분포를 더욱 더 용이하게 파악할 수 있다. 빈도와 퍼센트의 상호 장, 단점 비교?

4 도수분포표와 그래프 가족수 작업치료학과 2학년(바를 정자로 표시) 도수(f) 상대도수(f/n) 1 2 3 4 5 6 7 8
계=1.00

5 표 및 그림 위의 각 분포 내용을 일목요연하게 제시하기 위해서 표와 그림이 사용된다. S병원 A병원 범주 빈도(%) 뇌졸중
1,236(81.0) 766(55.7) 척수손상 89(5.8) 125(9.1) 외상성뇌손상 161(10.6) 429(31.2) 뇌성마비 40(2.6) 55(4.0) 1,526(100.0) 1,375(100.0)

6 그래프의 특성 막대그래프 및 파이차트; 비서열적 비연속형 변수 히스토그램; 서열적 비연속형 변수 혹은 연속형 변수
범주들간에 어떠한 서열도 존재하지 않으므로, 범주와 범주들 사이에 간격이 유지되는 형태로 격리시켜서 그림을 그린다. 히스토그램; 서열적 비연속형 변수 혹은 연속형 변수 범주들간에 일정한 서열 혹은 연속성이 존재하므로 범주들 사이를 격리 시키지 않고 붙여서 그림을 그린다. 꺽은선 그래프; 서열적 비연속형 변수 혹은 연속형 변수 히스토그램의 변형으로써 히스토그램의 각 범주의 중간 값들을 선으로 연결하여 그린 것을 말한다.

7 막대그래프 및 파이차트; 비서열적 비연속형 변수
-범주들간에 어떠한 서열도 존재하지 않으므로, 범주와 범주들 사이에 간격이 유지되는 형태로 격리시켜서 그림을 그린다.

8 꺽은선 그래프; 서열적 비연속형 변수 혹은 연속형 변수
-히스토그램의 변형으로써 히스토그램의 각 범주의 중간 값들을 선으로 연결하여 그린 것을 말한다. 히스토그램; 서열적 비연속형 변수 혹은 연속형 변수 -범주들간에 일정한 서열 혹은 연속성이 존재하므로 범주들 사이를 격리 시키지 않고 붙여서 그림을 그린다.

9 표와 그래프를 이용한 요약 명목, 서열 척도일 경우 등간, 비율 척도일 경우 도수분포표 막대그래프 줄기와 잎그림 파이차트
히스토그램 분할표 도수다각형 산포도 다이어그램

10 Recoding 빈도분포표를 정리하고, 요약하는 과정에서 개념적으로 혹은 논리적으로 유사한 범주들이 지니는 빈도들을 서로 묶을 필요가 종종 생기는데, 이처럼 유사한 범주들을 결합함으로써 새로운 빈도분포표를 구성하는 행위를 일컬어 Recoding이라고 한다. 예를.. 뇌졸중+척수손상+외상성 뇌송상=성인 뇌성마비=아동으로 다시 변수를 조정할 수 있다.

11 누적분포 누적분포란? 빈도분포 혹은 퍼센트 분포에서 각 범주마다 그 범주 이하의 모든 범주들이 지니는 빈도 혹은 퍼센트들을 모두 합한 수치를 바탕으로 재구성한 분포를 말한다.

12 통제 집단의 사용 자녀수의 도수와 상대도수 Q1. 왜, 상대도수를 사용하는가?

13 근력이나 인간의 키는 그것이 가질 수 있는 값들이 연속적으로 변한다. 도수를 얘기한다는 것이 무의미함
연속 변수의 경우 근력이나 인간의 키는 그것이 가질 수 있는 값들이 연속적으로 변한다. 도수를 얘기한다는 것이 무의미함 막대그래프 or 히스토그램이라고 함 계급의 수는 너무 자세하지도 간단하지도 않게 끔 적당한 선으로 절충한다. 각 계급 내의 모든 관찰값들을 대표하는 중간값은 정수가 되게 하는 것이 편리하다.

14 집중화 경향치 집중화 경향치는 최빈값, 중앙값, 평균
변수의 분포가 일정한 속성에로 집중되는 정도를 나타내는 통계치를 의미한다. 최빈값, 중앙값, 평균 최빈값 가장 열등한 통계치이다. 분포의 특정한 수치하나만을 사용하여 계산된 수치임으로 인하여 분포의 집중화 경향을 적절히 대표하는 대표성이 중앙치 및 평균에 비하여 결여되기 때문이다. 중앙치 통계적 극단치에 의한 영향을 상대적으로 적게 받음에 비하여 평균 극단치의 영향을 상대적으로 많이 받는다.

15 통계적 극단치 정의 극단치와 집중화 경향치 일정한 분포에서 여타의 수치들에 비하여 지나칠 정도로 이탈된 수치를 의미한다.
과연 어느 정도 벗어나는 것이 통계적 극단치인가? (이를 위한 통계적 방법이 존재). 극단치와 집중화 경향치 평균이 77점이고 중앙값은 88점 35kg / 72kg / 88kg / 93kg / 97kg에서 평균이 극단치인 35kg에 대해서 민감하고, 중앙값은 극단치에 별로 민감하지 않다.

16 줄기_잎 그래프

17 중앙치와 평균의 사용용도 중앙치는 평균은 실질적으로 평균이 더 많이 빈번하게 이용
사향된(혹은 비대칭적인) 분포의 집중화 경향을 기술하는데 주로 사용됨 평균은 사향되지 않은 분포의 집중화 경향을 기술하는데 주로 사용됨 실질적으로 평균이 더 많이 빈번하게 이용 중간치에 비하여 평균이 보다 더 우수한 통계적 속성을 지니기 때문이다. 평균이 ‘가중된 수치’라는 사실, 즉, 평균은 분포내의 모든 수치들의 크기가 고려된 상태에서 계산됨.

18 자료의 특성 집단화된 자료 빈도분포의 여러 범주들 가운데 복수(2이상)의 빈도를 지니는 범주가 최소한 하나라도 존재하는 자료 중앙치는 정가운데(홀수)/나누기 2를 함(짝수) 비집단화된 자료 빈도분포의 모든 범주들이 오로지 하나만의 빈도를 가지는 자료 누적빈도 및 퍼센트 분포표를 작성한 후에 누적퍼센트가 정확하게 50%에 해당하는 값 or 50%를 상회하는 최초의 범주값을 찾으면 된다.

19 평균 평균의 종류 산술평균(arithmetic mean) 기하평균(geometric mean)
조화평균(harmonic mean)

20 비집단화된 자료 평균의 계산 척수손상환자의 FIM score Yi fi Y1 = 35 1 Y2 = 72 Y3 = 88
N 5

21 집단화된 자료 평균의 계산 척수손상환자의 FIM score Yi fi Y1 = 81 1 Y2 = 84 2 Y3 = 87
N 5

22 기술통계관련 공식들

23 평형점으로서의 평균

24 상대도수를 사용한 계산법

25 정점이 하나인 대칭적 분포

26 평균, 중위수 및 최빈값의 비교

27 산포치 산포치는 변수의 분포가 일정한 집중화 경향치를 중심으로 이산된 혹은 흩어져 있는 정도는 나타내는 통계치이다. 종류는
왜도(Skewness), 범위(Range), 변량(Variance) 및 표준편차(Standard Deviation), 사분편차(Quartile Deviation), 변이계수(Coefficient of Variation), 평균편차(Average Deviation), 첨도(Kurtosis) 가장 중요한 산포치는 범위, 변량, 표준편차이다.

28 평균은 동일하지만 변량이 서로 다른 두 분포에 대한 비교

29 범위 범위 범위는 범위의 장단점을 비교해보면 분포의 이산 정도에 대한 용이하고 신속한 파악 범위=최대값 –최소값
범주간의 서열을 전제로 하는 통계치이므로 비서열적 비연속형 변수의 경우에는 사용할 수 없고, 서열적 비연속형 변수 혹은 연속형 변수의 경우에만 사용 범위의 장단점을 비교해보면 매우 쉽고 신속하게 계산할 수 있다는 장점 최대값과 최소값이라는 두가지 범주값만을 가지고 계산됨으로 인하여 범위가 보유하는 통계적 정보가 여타의 산포치에 비하여 상대적으로 결여될 수밖에 없다는 단점 분포의 이산 정도에 대한 용이하고 신속한 파악

30 변량과 표준편차 표준편차는 단지 변량에 루트근호를 씌운 것으로써 수치에 있어서의 차이만 존재할 뿐 실제 내용에 있어선 동일한 것이라는 사실을 기억할 필요가 있다. 변량은 가장 일반적이면서도 가장 우수한 산포치이다. 일정한 분포에 있어서 각각의 범주들이 평균을 중심으로 그 주위에 이산된 정도를-즉, 각각의 범주들과 평균 사이의 거리를-모두 제곱한 수치를 전체사례수(N)로 나눈 통계치를 의미한다.

31 변량 및 표준편차의 통계적 속성 바람직한 산포치가 되기 위한 필수조건 분포내의 모든 범주들과 평균간의 관계가 고려되어야 한다.
‘평균’을 사용하여 이산정도를 산출한 값이 여타의 집중화경향치를 사용하여 이산정도를 산출한 값에 비하여 상대적으로 작아야 한다.

32 편차제곱평균(M)

33 표본변량 공식

34 불편추정치 정의는 표본통계치를 바탕으로 모수를 추정함에 있어서 표본통계치의 기대값이 모수와 같은 경우를 의미한다.
통계적으로 확인된 바에 의하면, 표본 평균의 경우에는 모집단 평균을 불편추정치가 됨 하지만, 표본변량의 경우에는 모집단변량을 불편추정치를 찾아내지 못함. 이 경우에 분모를 N-1로 설정하면 불편추정치 됨

35 자유도 만약에, 이용할 수 있는 관찰이 단지 n=1개뿐이면
평균은 계산할 수 있으나, 산점도는 계산할 길이 없다. 그러므로, n이 1을 넘는 경우에만 분산에 대한 정보를 얻을 수 있다. 분산에 대해서는 필연적으로 정보가 단지 (n-1)개만 존재하게 되며, 그것이 적절한 분모가 된다. 정보의 개수는 관례적으로 자유도(degrees of freedom; d.f.)

36 표준편차(SD, standard deviation)
표준편차는 원자료와 동일한 측정단위를 사용하면서 산포성을 나타낼 수 있는 지수다. 분량은 측정단위로서 제곱의 형태를 취하기 때문에 표본의 측정값과 동일한 측정단위를 사용하는 지수로서는 적합하지 않다.

37 표준편차와 표준오차 표준편차란 표준오차란 측정치와 평균 사이의 거리를 측정하는 것
표본 평균들의 표준편차를 의미하며, 추정된 모평균의 정밀성을 나타내 주는 것이다. 표준편차와 달리 표준오차는 기술통계량이 아니다. 따라서 표준오차를 기술통계량의 목적으로 사용하는 것은 적절하지 않다. 표준오차의 공식을 확인하기….

38 왜도(Skewness) 왜도는 자료의 중심경향성과 산포도 외에 분포의 모양이 대칭분포로부터 얼마나 벗어나 있는지,
자료 분포가 대칭을 이루고 있는지 어느 한쪽으로 치우쳐 있는지를 측정하는 것이다. 대칭 = 정규분포 s=0 비대칭 좌 비대칭형 = 음의 왜도 S < 0 우 비대칭형 = 양의 왜도 S > 0

39 첨도(Kurtosis) 첨도란? 자료의 분포 모양의 첨예의 정도, 즉 도수 커브가 위로 뾰쪽한가 아니면 완만한가를 나타내는 측도이다. Kur(x)=0 ; 정규분포(중첨) Kur(x)>3 ; 뾰쪽한 급침 Kur(x)<3 ; 정규분포 보다 완만한 완침

40 변이계수(CV, Coefficient of Variation)
만약에, 비교하고자 하는 두 집단이 서로 다른 측정 단위를 사용하였을 경우, 악력(grip strength)을 파운드 단위 vs. kg단위 서로 성격이 다른 집단에서 표준편차의 값이 얻어졌을 경우 초등학생1학년 악력 vs. 고등학교 1학년 악력 표준편차 값을 가지고 산포도를 비교하면 문제가 발생한다. 결론적으로 절대적인 변이라 필요한 것이 아니라 상대적인 변이가 필요하다.

41 2개의 아동발달 검사도구를 이용하여 검사A에서 평균 5.0, 표준편차 0.25
검사 B에서는 평균 50.0, 표준편차 5.0을 얻은 경우에 어느 검사도구의 변이가 큰가를 알고 싶을 때 변이계수를 구하면; 결과적으로 검사 B를 이용하였을 때 아동발달점수의 변이가 크다.

42 백분위수와 사분위수 백분위수는 사분위수는 Q1=n+1/4, Q2=2(n+1)/4, Q3=3(n+1)/4 사분위범위=Q3-Q1
실제 점수를 비교 점수로 환산하거나 특정한 점수를 해석할 때 기준점이 필요한 경우에 유용 어떤 시험에서 점수 59.0, 81백분위수라는 결과를 통보 받은 경우; 시험점수가 59점이라는 정보 외에 시험을 치른 사람들 중에서 81%가 59점 이하의 점수를 받았다는 사실로서 응시자의 상대적 위치를 알려준다. 사분위수는 백분위수를 네 부분으로 나눈 것으로, 첫번째 사분위수는 25번째 백분위수, 두번째 사분위수는 50번째 백분위수로 중 위수이고, 세번째 사분위수는 75번째 백분위수가 된다. Q1=n+1/4, Q2=2(n+1)/4, Q3=3(n+1)/4 사분위범위=Q3-Q1 사분위편차=(Q3-Q1)/2

43 LAB 2 Frequency Mean

44

45

46

47 Central tendency Measures of Dispersion
LAB 3 Central tendency Measures of Dispersion

48


Download ppt "기술통계."

Similar presentations


Ads by Google