Keller: Stats for Mgmt&Econ, 7th Ed. 통계학은 어떤 학문인가? What is Statistics? December 5, 2018 켈러의 경영경제통계학 제1장 통계학은 어떤 학문인가? What is Statistics?
통계학은 어떤 학문인가? “통계학은 데이터로부터 정보를 얻는 하나의 방법론이다” 통계학(Statistics) 데이터(Data) 정보(Information) Definitions: Oxford English Dictionary
예제 2.6 경영통계학 점수 -경영학 프로그램에 등록한 한 학생이 필수과목인 통계학 과목의 첫 수업에 출석하고 있다. 이 학생은 통계학 과목은 어렵다는 잘못된 생각을 가지고 있기 때문에 약간 걱정스러워하고 있다. -그의 걱정을 덜어보기 위해 통계학을 가르치는 교수에게 작년의 점수에 대하여 질문한다. -통계학 교수는 학기연구과제와 기말시험으로 구성된 최종 점수표를 제공한다. 이 학생은 이와 같은 최종 점수표로부터 어떤 정보를 얻을 수 있는가?
예제 2.6 경영통계학 점수
예제 2.6 경영통계학 점수 -“요약통계” Mean (평균점수) Median (중앙값) Mean = 72.67 Median = 72 -이와 같은 “요약통계”는 충분한 정보인가?
예제 2.6 경영통계학 점수 -대부분의 점수들은 평균 주위에 모여 있는가 또는 넓게 퍼져 있는가? 범위(Range) = 최대값-최소값= 92-53 = 39 분산(Variance) 표준편차(Standard deviation)
예제2.6 경영통계학 - 60점 이하 또는 80점 이상에 얼마나 많은 점수들이 존재하는가? - A,B,C,D 학점의 비율들은 얼마인가? -하나의 그래프 기법인 히스토그램(histogram)은 이와 같은 정보와 기타 정보를 제공할 수 있는가?
예제 2.6 경영통계학 점수
기술통계학(Descriptive Statistics) -기술통계학은 데이터를 편리하고 정보를 나타내는 방식으로 정리, 요약, 설명하는 방법을 다룬다. -기술통계학의 한 가지 형태는 통계전문가들이 유용한 정보를 추출하기 쉽게 데이터를 설명하는 그래프 기법 (graphical techniques)이다. -제2장에서는 다양한 그래프 기법들이 제시된다.
기술통계학(Descriptive Statistics) -기술통계학의 다른 형태는 데이터를 요약하는 수치 기법(numerical techniques)이다. -평균(mean)과 중앙값(median)은 데이터의 중심 위치를 나타내기 위해 널리 사용되는 척도이다. -범위(range), 분산(variance), 표준편차(standard deviation)은 데이터의 변동성을 나타내기 위해 사용되는 척도이다. -제3장에서는 데이터의 다른 특성들을 나타내는 수치 통계척도들이 제시된다.
사례분석11.1 대학과 펩시콜라의 독점계약 -5 만명의 등록학생을 가지고 있는 한 대형대학이 펩시콜라에게 내년에 모든 대학 시설에서 펩시콜라 제품을 판매할 수 있는 독점적 권리와 내년 이후의 미래 연도들에 대한 옵션를 부여한 독점계약을 제안하였다. -이에 대한 대가로 이 대학은 캠퍼스 판매수입의 35%와 연간 20만 달러를 일시금으로 받도록 되어 있다. -펩시콜라가 제안된 독점계약에 대하여 응답하는데 2주일의 기간이 주어졌다.
사례분석11.1 대학과 펩시콜라의 독점계약 -소프트 드링크 시장의 규모는 12 온스 캔 기준으로 측정된다. -펩시콜라는 현재 대학이 운영되는 연간 40주 동안 주당 평균 22,000 캔을 판매한다. -캔당 평균 판매가격은 75센트이다. 노동비용을 포함한 비용은 캔당 20센트이다. -펩시콜라는 시장점유율에 대하여 확신하지 못하나 50%보다는 훨씬 낮다고 생각한다.
사례분석 11.1 대학과 펩시콜라의 독점계약 -신속하게 분석한 결과에 의하면, 시장점유율이 25%라면 독점계약 하에서, -펩시콜라는 주당 88,000 캔 또는 연간 3,520,000 캔을 판매할 것이다. -독점계약 하에서 펩시콜라의 이윤 또는 손실이 계산될 수 있다. -이와 같은 분석에서 제기되는 유일한 문제점은 이 대학에서 주당 얼마나 많은 소프트드링크가 판매되는지를 모른다는 것이다.
사례분석 11.1 대학과 펩시콜라의 독점계약 -펩시콜라는 생략된 정보를 얻기 위해 최근의 한 대학졸업생에게 이 대학의 학생들을 대상으로 서베이하는 일을 부과하였다. -이에 따라 이 대학졸업생은 500명의 학생들에게 다음 7일 동안 그들이 구매하는 소프트 드링크의 수를 기록하도록 요청하였다. -서베이의 응답결과가 이 책과 함께 제공된 CD 속에 한 파일 (Case 11.1)로 저장되어 있다.
추론통계학(Inferential statistics) -사례분석 11.1에서 우리가 얻고자 하는 정보는 독점계약으로부터 발생되는 연간 이윤의 추정치이다. 데이터는 표본을 구성하고 있는 500명의 학생 각각이 7일 동안에 구매한 소프트드링크 캔 수이다. -우리가 원하는 정보는 전체 학생 5만명에 의해 소비되는 소프트드링크의 평균 캔 수이다. -이와 같은 정보를 얻기 위해서 통계학의 다른 한 분야인 추론통계학(inferential statistics)이 필요하다.
추론통계학(Inferential statistics) -추론통계학은 표본데이터에 기초하여 모집단의 특성에 관한 결론을 얻거나 또는 추론을 하기 위해 사용되는 통계방법론이다. -사례분석 11.1의 모집단은 이 대학에 다니는 5만명 학생들의 소프트드링크 소비량이다. -각 학생을 인터뷰하는데 발생되는 비용은 매우 크고 매우 시간이 많이 걸린다. -추론통계기법은 이와 같은 노력을 하지 않도록 해준다. -그 대신 아주 적은 수인 500명 (표본크기=500)을 표본추출하고 표본데이터로부터 전체 학생인 5 만명이 소비하는 소프트드링크의 수를 추론할 수 있다. -이와 같은 과정을 통하여 펩시콜라의 연간 이윤을 추정할 수 있다.
예제 11.5 -선거직을 선출하기 위한 선거가 있을 때, 텔레비전 방송국들은 정규방송 프로그램을 취소하고 선거방송을 한다. -개표가 이루어질 때 그 결과가 보도된다. -그러나 대통령 또는 대형 주들의 상원의원과 같은 중요한 선거직 선거의 경우, 텔레비전 방송국들은 승자를 예측하기 위한 첫 번째 텔레비전 방송국이 되기 위해 치열하게 경쟁한다.
예제 11.5 -이와 같은 일은 출구여론조사(exit polls)를 통하여 이루어진다. 출구여론조사는 투표소를 나오는 유권자들을 임의로 표본추출하여 이들이 어느 후보에 투표하였는지를 조사하는 방식으로 이루어진다. -이와 같은 표본데이터로부터 특정후보를 지지한 유권자 비율이 계산된다. -선두후보가 승리하기 위해 충분한 투표수를 확보할 것이라고 추론할 수 있는 충분한 증거가 존재하는지를 결정하기 위해 통계기법이 적용된다.
예제 11.5 -2000년 미국 대통령 선거에서 플로리다 주의 출구여론조사 결과가 기록되었다 (공화당 후보인 George W. Bush와 민주당 후보인 Albert Gore에 대해서만 출구조사가 이루어졌다.) -Bush 또는 Gore에 지지 투표를 한 765명의 유권자에 대한 출구여론조사결과가 기록되었다고 하자 (Xm11-05 1 = Gore and 2 = Bush) -텔레비전 방송국 분석가들은 출구여론조사결과로부터 George W. Bush가 플로리다 주에서 승리할 것이라고 결론내릴 수 있는지를 알기 원한다.
예제 11.5 -예제 11.5는 통계적 추론이 일반적으로 응용되는 예이다. -텔레비전 방송국들이 추론하기 원하는 모집단은 대통령선거에서 Bush 또는 Gore에 지지투표를 한 약 500만명의 플로리다 주 유권자들이다. -표본은 두 후보 중 한 사람에게 지지투표를 한 유권자들 중에서 여론조사회사에 의해 임의로 선정된 765명으로 구성되어 있다.
예제 11.5 -우리가 알기 원하는 모집단의 특성은 Bush에 지지투표를 한 총유권자의 비율이다.
예제 11.5 -투표한 5백만명 유권자 각 자에게 물어 본것이 아니기 때문에 100%의 확실성을 가지고 선거결과를 예측할 수 없다. -모집단 크기의 일부분인 표본으로부터 이러한 일을 많이 하는 경우 일정한 비율만큼만 정확한 추론이 얻어질 수 있다. -통계전문가들은 일반적으로 이와 같은 비율을 90%와 99% 사이로 통제할 수 있다.
Keller: Stats for Mgmt&Econ, 7th Ed. December 5, 2018 주요 통계학 개념 모집단(Population) — 모집단(population ) 은 통계전문가가 관심을 가지고 있는 모든 항목들의 그룹(집합)이다. — 일반적으로 매우 크고 종종 무한히 클 수 있다. 예. 예제 12.5에서 플로리다 주의 5백만명 유권자 표본(Sample) — 표본(sample) 은 모집단으로부터 추출된 데이터 집합이다. — 매우 크기도 하지만 모집단보다는 작다. 예. 예제 12.5에서 선거일에 출구여론조사가 이루어진 765명의 유권자로 구성된 표본
주요 통계학 개념 모수(Parameter) — 모집단(population)의 기술적 척도. 통계량(Statistic) — 표본(sample)의 기술적 척도
주요 통계학 개념 Population Sample Statistic Parameter 모집단은 모수들을 가지고 있다. 부분집합 Statistic Parameter 모집단은 모수들을 가지고 있다. 표본은 통계량들을 가지고 있다.
기술통계학 -기술통계학은 편리하고 정보를 제공하는 방식으로 데이터를 조직, 요약, 제시하는 방법이다. 이와 같은 방법들에는 그래프 기법 (제2장)과 수치 기법(제3장)이 있다. -사용되는 실제 기법은 우리가 추출하기 원하는 정보가 무엇인가에 의해 결정된다. • 중심위치의 척도? • 변동성의 척도? -기술통계학은 이와 같은 질문들에 답을 제공하는데 도움을 준다…
추론통계학(Inferential Statistics) -추론통계학도 다양한 방법을 가지고 있으나 표본데이터에 기초하여 모집단의 특성에 관한 결론을 내리거나 또는 추론하기 위해 사용된다.
통계적 추론(Statistical Inference) -통계적 추론(Statistical inference) 은 표본데이터에 기초하여 모집단에 관한 추정,예측, 의사결정을 하는 과정(process)이다. Population Sample 통계적 추론 Statistic Parameter 표본의 통계량에 기초하여 모집단의 모수에 관하여 무엇을 추론할 수 있는가?
통계적 추론(Statistical Inference) -모수(parameters)에 관한 추론을 하기 위해 통계량( statistics)이 사용된다. -표본(sample)데이터에 기초하여 모집단(population)에 관한 추정, 예측, 결론을 얻을 수 있다.
통계적 추론(Statistical Inference) 논거: • 대모집단에서는 모든 구성원 각각을 조사하는 일이 가능하지도 않고 비용이 많이 든다. • 표본을 추출하고 표본으로부터 모집단에 관한 추정치를 구하는 것이 더 쉽고 비용이 덜 든다. 그러나: 표본으로 구해지는 결론과 추정치들은 항상 옳은 것이 아니다. 이와 같은 이유로, 통계적 추론에 신뢰의 척도, 즉 신뢰수준(confidence level) 과 유의수준(significance level)이 도입된다.
신뢰수준과 유의수준 -신뢰수준(confidence level )은 표본추출이 매우 많은 수로 반복되는 경우 추정과정이 정확한 결과를 제공하는 표본의 비율이다. 예. 95%의 신뢰수준은 표본추출이 매우 많이 반복되는 경우 추정치가 정확한 결과를 제공하는 표본의 비율이 95%라는 것을 의미한다. -통계적 추론의 목적이 모집단에 관한 결론을 도출하는 것일 때, 유의수준(significance level )은 표본추출이 매우 많이 반복되는 경우 결론이 잘못인 경우가 발생되는 표본의 비율이다. 예. 5%의 유의수준은 표본추출이 매우 많이 반복되는 경우 결론이 잘못된 결과를 제공하는 표본의 비율이 5%라는 것을 의미한다.
신뢰수준과 유의수준 - 만일 α (Greek letter “alpha”)가 유의수준을 나타낸다면, 신뢰수준은 1 – α 이다. -이와 같은 관계는 다음과 같이 나타낼 수 있다. 신뢰수준(Confidence Level) + 유의수준(Significance Level) = 1
신뢰수준과 유의수준 -여론조사데이터와 관련하여 다음과 같은 뉴스를 들었다고 하자. “이 여론조사는 표본오차가 3.4% 포인트이다.” 또는 “이 여론조사는 3.4% 포인트 내에서 또는 20번 중 19번 에서 정확한 것으로 여겨진다.” -이 경우에 신뢰수준은 95% (19/20 = 0.95)인 반면 유의수준은 5%이다.