Presentation is loading. Please wait.

Presentation is loading. Please wait.

Keller: Stats for Mgmt & Econ, 7th Ed

Similar presentations


Presentation on theme: "Keller: Stats for Mgmt & Econ, 7th Ed"— Presentation transcript:

1 Keller: Stats for Mgmt & Econ, 7th Ed
February 26, 2017 제3장 수치를 이용한 기술통계학 기법 Numerical Descriptive Techniques Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.

2 수치를 이용한 기술통계학 기법… 중심위치의 척도 평균(Mean), 중앙값(Median), 최빈값(Mode) 변동성의 척도
-범위(Range), 표준편차(Standard Deviation), 분산(Variance), 변동계수(Coefficient of Variation) 상대위치의 척도 -백분위수(Percentiles), (사분위수)Quartiles 선형관계의 척도 -공분산(Covariance), 상관계수(Correlation Coefficient), 결정계수(Coefficient of Determination), 최소자승선(Least Squares Line)

3 중심위치의 척도 모든 관측치의 합 평균 = 관측치의 수
-산술평균(arithmetic mean ) 또는 평균(mean) 은 가장 널리 사용되는 유용한 중심위치의 척도이다. -산술평균은 모든 관측치들을 합하고 관측치의 수로 나누어서 계산된다. 모든 관측치의 합 관측치의 수 평균 =

4 기호 = 모집단에 속한 관측치의 수 = 표본에 속한 관측치의 수 = 모평균(모집단의 산술평균) “mu” = 표본평균(표본의 산술평균) “x-bar”

5 산술평균(Arithmetic Mean)
모평균(population mean) 표본평균(Sample Mean)

6 산술평균 -분포의 집중도를 나타내는 중심개념을 말하는데 간단히 말해 평균이라고 한다. -산술평균은 측정데이터 (예: 키, 점수, 등)의 중심위치를 나타내는데 적정한 척도이다. -산술평균은 “이상치(outliers)”라고 부르는 극단값들에 의해 크게 영향을 받는다. 예: 억만장자가 이웃으로 이사오면 평균가계소득이 크게 증가한다…

7 산술평균 모평균 표본평균

8 산술평균의 예 1.경영통계학과 학생의 성적이 다음과 같다면 평균성적은 얼마인가. 89,55,45,62,75,90,67,82,72,81 2.어느 지역 가구들의 월 평균 소비전력을 측정하기 위하여 8가구를 표본으로 뽑아 조사했더니 다음과 같았다. 표본의 평균값은 얼마인가 120,184,220,85,68,146,162,95

9 도수분포표에서 평균값을 구하라. 도수분포표에서 산술평균 식 계급 중간점 도수(fi) 10-14 15-19 20-24 25-29
30-34 12 17 22 27 32 2 4 7 13 3 도수분포표에서 산술평균 식

10 중앙값 -중앙값(median )은 모든 관측치를 순서대로 정렬할 때 중심에 있는 관측치를 의미한다. -중앙값은 숫자로 표시되는 양적자료에만 사용. -중앙값은 수치로 된 자료를 크기 순서로 나열할 때 가장 가운데에 위치하는 관찰값을 의미. -전체자료를 크기 순서로 나열할 때 중앙에 위치하는 값

11 중앙값의 계산방법 N은 관찰수 조선대학교 생협에서 판매하는 자동차 판매원 9명의 월간판매량을
크기 순서에 따라 정리한 결과이다. 22,24,24,25,27,30,31,35,40 일 때 중앙의 위치는 =5 , 다섯번째 위치한 자료 27 이 중앙값 만약에 판매원이 10명이라면 22,24,24,25,27,30,31,35,40,42 이면 이므로 중앙값은 5번째와 6번째 사이. 따라서 28.5이 중앙값이다.

12 최빈값 -관측치들의 최빈값(mode )은 발생되는 빈도수가 가장 많은 관측치이다. -한 세트의 데이터에는 최빈값이 하나 또는 둘 이상이 존재할 수 있다. -최빈값은 주로 명목데이터의 경우에 사용되지만 모든 데이터 유형에 대하여 유용한 중심위치의 척도이다. -대규모 데이터 세트의 경우 최빈계급구간( modal class)가 단일 값을 가지는 최빈값보다 더 유용하다.

13 최빈값 예: 데이터: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10 -어느 관측치가 가장 많이 나타나는가? -이 데이터 세트의 최빈값은 0 이다. -이와 같은 최빈값은 어떻게 중심위치의 척도가 되는가? 최빈계급구간 Frequency Variable

14 평균(Mean),중앙값(Median),최빈값(Mode)
-만일 변수의 분포가 대칭이면, 평균, 중앙값, 최빈값은 모두 동일할 수 있다… median mode mean

15 평균(Mean),중앙값(Median),최빈값(Mode)
-만일 변수의 분포가 비대칭이면, 즉 왼쪽으로 기울져 있거나 또는 오른쪽으로 기울어져 있으면, 평균, 중앙값, 최빈값은 서로 다를 수 있다. median mode mean

16 평균, 중앙값, 최빈값 중에서 어느 것이 가장 좋은 중심위치의 척도인가?
평균, 중앙값, 최빈값 중에서 어느 것이 가장 좋은 중심위치의 척도인가? -평균은 일반적으로 가장 널리 사용되는 유용한 중심위치의 척도이다. 그러나 중앙값이 더 좋은 중심위치의 척도인 상황들이 존재한다. -최빈값은 결코 가장 좋은 중심위치의 척도는 아닌다. -중앙값이 가지고 있는 한가지 장점은 평균과는 달리 극단값들에 대하여 민감하지 않다는 점이다.

17 평균, 중앙값, 최빈값 중에서 어느 것이 가장 좋은 중심위치의 척도인가?
평균, 중앙값, 최빈값 중에서 어느 것이 가장 좋은 중심위치의 척도인가? -예제 3.1 인터넷의 평균사용시간을 살펴보자. -평균은 11.0이고 중앙값은 8.5이다. -이제 33시간을 보고한 응답자가 실제로 133시간을 보고하였다고 하자. 이 경우 평균은

18 평균, 중앙값, 최빈값 중에서 어느 것이 가장 좋은 중심위치의 척도인가?
평균, 중앙값, 최빈값 중에서 어느 것이 가장 좋은 중심위치의 척도인가? -표본에는 평균(21)보다 큰 관측치들은 두개 존재한다. 이와 같이 극단값의 존재는 평균이 중심위치의 척도가 되지 못하게 만든다. -그러나 중앙값은 극단값에 관계없이 동일하다. 상대적으로 적은 수의 극단값들이 존재할 때 중앙값은 일반적으로 데이터의 중심을 나타내는 더 양호한 척도가 된다.

19 서열 및 범주데이터의 평균,중앙값, 최빈값 -서열데이터와 범주데이터의 경우 평균의 계산은 의미가 없다. -서열데이터의 경우 중앙값은 중심위치의 척도가 된다. -범주데이터의 경우 최빈값은 유용한 빈도 척도이나 “중심위치”의 척도는 아니다.

20 기하평균(Geometric Mean) -산술평균은 가장 널리 사용되는 유용한 중심위치의 척도이다. -산술평균이나 중앙값이 최선의 중심척도가 아닌 상황이 존재한다. -변수가 성장률 또는 변화율일 때, 기하평균이 유용한 중심위치 척도가 될 수 있다.

21 기하평균(Geometric Mean) -<예시>당신이 $1,000를 2년간 투자한다고 하자. 첫째 해에 투자가치가 100% 증가하여 $2,000가 되고 두번째 해에 투가가치가 -50% 감소하여(손실발생) 다시 $1,000가 된다고 하자. -연도 1과 연도 2의 수익률은 각각 R1 = 100%과 R2 = 50%이다. 두 연도 수익률의 산술평균(과 중앙값)은 다음과 같이 계산된다.

22 기하평균(Geometric Mean) -그러나 이 수치는 오도적이다. 투자가 이루어지는 2년 동안 투 자가치는 변화가 없기 때문에, “평균”복리수익률은 0%이다. -이와 같은 “평균”복리수익률은 기하평균의 값이다.

23 기하평균(Geometric Mean) Ri 는 기간 i의 수익률 (소수점으로 표시한 수익률)이라고 하자 (i = 1, 2, …, n). 수익률들의 기하평균(geometric mean )Rg 는 다음과 같이 정의된다. Rg 에 대하여 풀면,

24 기하평균(Geometric Mean) -따라서 주어진 예에서 투자수익률의 기하평균은 -따라서 투자수익률의 기하평균은 0%이다. 따라서 0%의 복리이자율 공식을 사용하면 투자기간 말의 투자가치 = 1,000(1 + Rg)2 = 1,000(1 + 0) 2 = 1,000

25 변동성의 척도 -관측치들이 평균 주위에서 얼마나 흩어져 있는가를 측정하는 척도가 변동성의 척도이다.
-관측치들이 평균 주위에서 얼마나 흩어져 있는가를 측정하는 척도가 변동성의 척도이다. 예를 들면, 두 과목의 점수들이 주어져 있다고 하자. 평균은 두 과목 모두 50으로 같다… 그러나 붉은색으로 나타낸 과목의 점수가 파란색으로 나타낸 과목의 점수보다 변동성이 더 크다 (평균 주위에서 더 많이 흩어져 있다).

26 범위(Range) -범위(range )는 가장 간단한 변동성의 척도 -최대값과 최소값의 차이를 말하는 것으로서 산포도를 알아보는 가장 단순한 방법 범위(Range) = 최대 관측치 – 최소 관측치

27 범위(Range) - 범위(range)가 가지는 주요 장점은 쉽게 계산될 수 있다는 점이다. -범위(range)가 가지는 주요 단점은 양쪽 끝에 있는 관측치 사이에 존재하는 관측치들이 흩어져 있는 정도에 관한 정보를 제공하지 못한다는 점이다. -따라서 모든 관측치들을 포함하는 변동성의 척도가 필요하다.

28 분산(Variance) -분산(variance)과 표준편차(standard deviation)는 가장 중요한 변동성의 척도이며 거의 모든 통계적 추론에서 중요한 역할을 수행한다. 기호: = 모분산(population variance) “sigma” squared = 표본분산(sample variance) “s” squared

29 분산(Variance) 모분산: 표본분산: 주:/표본분산의 분포는 표본크기 (n) – 1 이다 !
모평균(population mean) 모집단 크기(population size) 표본평균(sample mean) 주:/표본분산의 분포는 표본크기 (n) – 1 이다 !

30 분산(Variance) Key Point (표본분산의 공식) 1)관측값에서 표본평균을 뺀값을 제곱하여 합한 것을 n이

31 분산(Variance) -표본분산을 계산하기 위해서는 먼저 표본평균을 계산해야 한다. -표본평균을 계산하는 중간단계없이 데이터로부터 표본분산을 계산하는 간편공식은 다음과 같다:

32 표본분산의 계산 -예제 3.7 (여름방학 아르바이트). 6명의 학생이 지원한 아르 바이트의 수로 구성된 표본은 다음과 같다: 17, 15, 23, 7, 9, 13. -표본평균과 표본분산을 구하라.

33 Sample Variance (간편공식)
표본평균과 표본분산 Sample Mean Sample Variance Sample Variance (간편공식)

34 표준편차(Standard Deviation)
-표준편차는 분산의 제곱근이다. 모표준편차(Population standard deviation): 표본표준편차(Sample standard deviation):

35 표준편차(Standard Deviation)의 해석
-히스토그램이 종모양(bell shaped)이면 다음과 같은 경험법칙 ( Empirical Rule)이 적용될 수 있다. 모든 관측치의 약 68%는 평균으로부터 1 표준편차 이내에 속한다. 모든 관측치의 약95%는 평균으로부터 2 표준편차 이내에 속한다. 모든 관측치의 약 99.7%는 평균으로부터 3 표준편차 이내에 속한다.

36 경험법칙(Empirical Rule) 데이터의 히스토그램(분포)이 종모양이면 (1)모든 관측치의 약 68%는 평균으로부터 1 표준편차이내에 속한다.. (2) 모든 관측치의 약 95%는 평균으로부터 2 표준편차이내에 속한다. (3) 모든 관측치의 약 99.7%는 평균으로부터 3 표준편차 이내에 속한다.

37 체비세프의정리(Chebysheffs Theorem)
-표준편차에 대한 보다 일반적인 해석은 종모양을 포함하여 모든 형태의 히스토그램(분포)에 적용되는 체비세프의 정리 (Chebysheff’s Theorem)로 부터 이루어진다. -체비세프의 정리: 평균으로부터 k 표준편차(k>1) 이내에 속하는 관측치들의 비율은 적어도 다음과 같다. k=2 인 경우, 체비세프의 정리 에 의하면 모든 관측치의 적어 도 ¾는 평균으로부터 2 표준편 차이내에 속한다. 이것은 경험 법칙의 근사 (95%)의 “하한”이다.

38 변동계수(Coefficient of Variation)
-변동계수(coefficient of variation )는 표준편차를 평균으로 나 눈 척도이다. 모변동계수(Population coefficient of variation) = CV = 표본변동계수(Sample coefficient of variation)

39 3.3. 상대위치의 척도와 박스그림 -상대위치의 척도는 전체 데이터 세트와 비교한 특정한 수치의 상대위치에 관한 정보를 제공한다. -백분위수(Percentile): P번째 백분위수(Pth Percentile) 은 이 값 보다 적은 값들이 관측치들의 P%이고 이 값보다 큰 값들이 관측 치들의 (100-P)%인 값이다. 예: 당신의 점수가 GMAT에서 60 퍼센타일이라는 것은 당신의 점수보다 낮은 점수들이 60%이고 당신의 점수보다 높은 점수들 이 40%라는 것을 의미한다.

40 사분위수(quartiles) -25번째, 50번째, 75번째 퍼센타일을 사분위수 (quartiles)라고 부 른다. -첫번째 사분위수 또는 하위 사분위수는 Q1 = 25th percentile , 두 번째 사분위수는 Q2 = 50th percentile (두번째 사분위수는 중앙값 이다), 세번째 사분위수 또는 상위 사분위수는 Q3 = 75th percentile로 나타낸다. -백분위수는 오분위수(quintiles)와 십분위수 (deciles) 로 전환될 수 있다.

41 일반적으로 사용되는 백분위수 첫번째 (하위) 십분위수 = 10th percentile 첫번째 (하위) 사분위수 Q1= 25th percentile 두번째 (중간) 사분위수 Q2= 50th percentile 세번째 (상위) 사분위수 Q3= 75th percentile 아홉번째 (상위)십분위수 = 90th percentile 주: 만일 당신의 점수가 80 퍼센타일이면, 이것은 시험에서 80%의 점수을 얻었다는 것을 의미하지 않는 것이다. 이것은 다 른 학생들의 80%가 당신보다 낮은 점수를 얻었다는 것을 의미 한다.

42 퍼센타일의 위치

43 사분위수간 범위(interquartile Range)
-사분위수는 변동성의 척도인 사분위수간 범위 (interquartile range )를 구하기 위해 사용될 수 있다. 사분위수간 범위(Interquartile Range) = Q3 – Q1 -사분위수간 범위는 관측치들의 중간 50%가 흩어져 있는 정도를 측정한다. -사분위수간 범위가 큰 값을 가진다는 것은 첫번째 사분위수와 세 번째 사분위수가 멀리 떨어져 있다는 것, 즉 변동성이 크다는 것을 의미한다.

44 3.4 선형관계의 척도 Measures of Linear Relationship
-두 변수 간 선형관계의 강도와 방향에 관한 정보를 제공하는 3 개의 수치적 척도, 즉 공분산(covariance), 상관계수(coefficient of correlation) 결정계수(coefficient of determination )

45 공분산(Covariance) 변수 X의 모평균 변수 Y의 모평균 변수 X의 표본평균 변수 Y의 표본평균
분모는 n이 아니라 n-1이다

46 공분산(Covariance) -표본평균을 계산하지 않고 표본공분산을 계산하기 위한 간편공식은 다음과 같다.

47 공분산(Covariance) 두 변수가 동일한 방향으로 움직일 때 (두 변수 모두 증가하거나
두 변수가 동일한 방향으로 움직일 때 (두 변수 모두 증가하거나 또는 감소할 때), 공분산은 크고 양의 값을 가진다. -두 변수가 반대방향으로 움직일 때, 공분산은 크고 음의 값을 가 진다. -두 변수의 움직임에 특정한 패턴이 존재하지 않을 때, 공분산의 값은 작다. -그러나 특정한 공분산 값이 크거나 또는 작은지를 결정하는 일 이 어렵다. ->공분산은 선형의 강도에 대하여 정보를 제공하지 못 한다.

48 상관계수(Coefficient of Correlation)
-상관계수는 공분산을 변수들의 표준편차 곱으로 나눈 것으로 정의된다: Greek letter “rho” 상관계수는 X와 Y간의 선형관계가 얼마나 강한가에 대한 정보를 제공한다.

49 상관계수(Coefficient of Correlation)
-상관계수는 -1과 +1 사이의 값 을 가진다. 두 변수가 매우 강한 양의 선형관계를 가지면, 상관계수는 +1에 가까운 값을 가진다.(강한 양의 선형관계) 두 변수가 매우 강한 음의 선형관계를 가지면, 상관계수는 1에 가까운 값을 가진다. (강한 음의 선형관계) -두 변수간에 선형관계가 존재하지 않으면 상관계수는 0에 가까운 값을 가진다.

50 상관계수(Coefficient of Correlation)
+1 -1 강한 양의 선형관계 r 또는 r = 선형관계가 존재하지 않음 강한 음의 선형관계

51 상관계수의 계산(예제3.16) -표본공분산과 X와 Y의 표준편차를 이용하여 표본상관계수를 계산한다.

52 상관계수의 계산(예제3.16) -따라서 X와 Y의 표본표준편차는 각각 다음과 같다.

53 상관계수의 계산(예제3.16) Set 1: Set 2: Set 3:

54 최소자승법(Least Squares Method)

55 최소자승법(Least Squares Method)
- 직선식은 다음과 같이 표현된다. y = b0x + b1 여기서 b0 = 직선의 기울기 , b1 = y-절편. -공분산과 상관계수를 구해보고 두 변수간에 선형관계가 존재 한다고 결정했다면, 두 변수 간 관계를 나타내는 선형식을 어떻 게 구할 수 있는가?

56 최소자승법(Least Squares Method)
-최소자승법은 점들과 직선간의 편차제곱합이 최소가 되도록 데이터를 통과하는 직선식을 구하는 방법이다. -이와 같은 방법으로 구해진 직선식은 다음과 같이 표현된다. b0 = y-절편, b1 = 기울기 (“y” hat) = 직선에 의해 결정되는 y 의 값.

57 최소자승법(Least Squares Method)
-계수 b0 와 b1 은 다음과 같이 구해진다:

58 결정계수(Coefficient of Determination)
-상관계수는 -1, 0, +1인 경우를 제외하고 그 의미를 정확하게 해석할 수 없다. 단지 상관계수가 -1, 0, +1에 얼마나 가까운가에 의해서만 그 의미를 판단할 수 있다. -다행스럽게도 정확하게 해석할 수 있는 다른 하나의 척도가 존재한다. 상관계수를 제곱한 척도를 결정계수(coefficient of determination)라고 하며 R2 로 나타낸다. -결정계수는 종속변수의 변동 중에서 독립변수의 변동에 의해서 설명되는 비율을 측정한다.

59 상관관계의 해석 -두 구간변수 간 관계를 분석하는데 있어서 상관계수와 결정계 수를 정확히 해석할 필요가 있다. 두 변수가 선형관계를 가진다 는 것이 X가 원인이고 Y가 결과라는 것을 의미하지 않는다. 다.

60 모수(parameters)와 통계량(statistics)


Download ppt "Keller: Stats for Mgmt & Econ, 7th Ed"

Similar presentations


Ads by Google