Presentation is loading. Please wait.

Presentation is loading. Please wait.

제1장 통계의 기본개념.

Similar presentations


Presentation on theme: "제1장 통계의 기본개념."— Presentation transcript:

1 제1장 통계의 기본개념

2 1. 통계의 개념과 종류 (1)통계(Statistics) (2)통계의 기능
통계는 사회현상 및 자연 현상에 대해 수량화 하는 것 또한 주어진 현상을 요약 기술할 뿐 아니라 보다 정확하고 광범위 하게 설명 수량적 사실이나 수량적 관찰 혹은 수량적 자료의 수집 표본에서 나온 수량적 값 수량적 자료를 수집 • 분석 • 해석하고 이를 이론화하는 도구 많은 수량적 자료를 처리하고 쉽게 이해할 수 있는 형태로 축소시키는 일 수량적 자료의 기술(description)과 추리(inference) (2)통계의 기능

3 (3)기능에 대한 분류 기술통계 추리통계 관찰, 측정된 소수의 결과로 관찰되지 않은 관찰, 측정된 잡다한 개개의 현상을 전체적
파악 및 간략하게 기술해 주는 기능 방법: (수량적 자료제시) 빈도분포, 백분율, 표준편차, 평균, 상관관계 등 추리통계 관찰, 측정된 소수의 결과로 관찰되지 않은 전반전인 현상에 대해서 일반적인 결론으로 일반화 시키는 기능 T검정, 분산분석, 회귀분석 등이 해당 (추리통계는 통계적 방법에 따라 모수적 통계와 비모수적 통계가 있다)

4 (4) 모집단 분포의 가정에 따른 종류 모수적 추리통계 비모수적 추리통계 (parametric statistics)
정규 분포 가정 모집단의 특성을 추정, 측정치의 연속성과 등간격성 (선형성), 모집단의 어떤 특성의 정규분포성, 분산의 동질성의 조건 을 가지고 있어야 함 비모수적 추리통계 (nonparametric statistics) 모집단의 특성의 분포에 어떤 가정도 하지 않은 상태 선형성, 정규분포성 등의 조건이 없어도 됨 가설 검정력이 덜 정밀함.

5 (5)변인의 수에 따른 분류 일원적 통계분석 다원적 통계분석 둘 이상의 변인을 하나의 변인만을 동시에 분석하는 통계

6 2. 표본 추출 (1) 표집 방법 표집방법 연구대상 집단의 전체구성원 -전집(population)-
확률적 표집방법, 모든 사례를 임의의 순서로 배열하고 일련번호를 배정한 후 거기에 우선 난선적으로 출발점을 정한다. 그 다음 그 점으로 일정한 간격으로 표본을 추출함 모집단의 의미 있는 하위집단으로 나누고, 하위집단별 정해진 수만큼 무작위 표본추출로 표본과 모집단의 동질성을 확보, 표본의 대표성을 높인다. 즉, 성별, 연령별, 지역별 등을 표집하기 전 구분한 다음 유층에서 무선적으로 표본을 추출하는 방법을 말함 임의 추출법;무선표집;무작위추출법 모집단 자체서 아무런 변동이 없어야 함 모집단 사례가 표집으로 뽑힐 확률이 동일하다는 가정 하에 표집하는 방법 연구대상 집단의 전체구성원 -전집(population)- 전집으로부터 선발된 소수집단 -표본(sample)- 표본에서 얻어진 수치 -표집치, 통계치, 추정치- 표집방법 계통적 유층표집 방법 집략표집 지역표집 유의추출법 단순무작위표집방법 단계적 표집 많은 수의 집단을 분류하고, 그 집락중 표집 대상의 집락을 추출하고, 그 집락에서만 표본을 추출하는 방법을 말함 전집을 대표한다고 생각되는 일부 대표적 지역(집단)의 임의로 표집하는 방법 주관적 판단이 개입 층화표집의 한 형태로 다단계 층화표집을 말한다. ★ 표본을 추출 할 때 규모를 표집 할 것인가 하는 표본의 크기(Sample size)가 중요하게 대두

7 (2) 표본의 크기 모집단의 크기, 이질성 또는 동질성의 정도 신뢰도 범위 통계 방법 등에 영향을 받는다. 모집단의 크기
적정표본의 크기 95%신뢰도수준에서의 허용표집오차 99% 신뢰도 수준에서의 ±1% ±2% ±3% ±5% 1,000 - 473 244 360 3,000 1,206 690 291 1,021 470 5,000 1,437 760 303 2,053 1,182 508 10,000 4,465 1,678 823 313 2,584 1,341 527 20,000 5,749 1,832 858 318 8,213 2,967 542 50,000 6,946 1,939 811 321 10, 898 3,257 1,502 551 100,000 7,465 1,977 888 12, 231 3,367 1,525 554 500,000 7,939 2,009 895 322 13, 557 3,460 1,544 모집단의 크기, 이질성 또는 동질성의 정도 신뢰도 범위 통계 방법 등에 영향을 받는다.

8 3. 변인(변수, Variable) 연구대상이 되고 있는 집단 구성원이 층성(계층 성격)에 있어서 서로 구별 지어질 수 있을 때 이 속성을 변인 변인 관심이 되는 분석의 단위를 의미 구성원 성별, 연령, 학교, 종교 등이 변인 예)) 만약 개인이라면……

9 3. 변인 (변수, Variable) 매개 독립 변인 위치 선행 종속 변인 등 서열변인 명목(명명)변인 변인의 종류
질적인 변인 독립 변인 매개 선행 변인 등 종속 위치 명목(명명)변인 서열변인 동간(등간)변인 비율변인 변인의 종류 양적인 변인

10 수량화 할 수 없는 것들을 말하며 눈의 색깔, 성별, 취미, 직업 등 질적변인
3가지조건 만족 1. 독립 • 종속변인과 연관 2. 선행변인은 통제되어도 독립,종속변인관계는 유지 3. 독립변인이 통제되면 종속변인과는 아무런 관계가 없다 선행변인 독립변인과 종속변인과의 관계를 자세히 설명하는 기능 매개변인 제2의 독립변인으로 종속변수에 미치는 영향정도를 파악하기 위해 통제되는 변인 ★통제변인 신장, 몸무게 등과 같은 일정한 범위 내에서 무한히 나타낼 수 있는 변인의 값 연속적 변인 가족의 수, 자동차 대수 등과 같은 일정한 수치이며 그 사이의 어떠한 값도 가질 수 없는 변인 비연속적 변인 수량화 할 수 없는 것들을 말하며 눈의 색깔, 성별, 취미, 직업 등 질적변인 수량화 할 수 있는 것들을 말하며 체중, 신장, 성적 등 양적변인 어떤 변인에 영향을 주는 변인, 변인자체로서의 독립적인 성격을 띤다. 독립변인(설명변인) 다른 변인의 영향을 받는 변인으로 결과가 된다. 종속변인(반응변인)

11 4. 변인측정 명목 서열척도 (명명)척도 등간척도 비율척도 (분류, 순위, 동간격)
서열성, 동간성의 정보를 제공해줄 뿐 아니라, 절대영점(0)을 갖고 있는 척도로 한 측정치는 다른 측정치의 두배, 세배 또는 10배 등의 비율에 관한 정보를 갖고 있는 척도를 말함 평균, 표준편차, 모수통계, 정규분포 검정 등 등간척도와 같다. 서열상 뿐만 아니라 어느 만큼 차이가 있는가 하는 동간성에 관한 정보를 갖고 있는 척도 서열화된 척도, 동시에 척도간의 간격이 같다. 평균, 표준편차, 모수통계, 정규분포검정 등 한 변인이 측정 또는 분류되었을 때 같다, 다르다라는 정보 뿐만 아니라 크다, 작다라는 서열에 관한 정보를 제공하는 척도 서열상의 관계, 비모수 통계분석의 순위비교 등이 있다. 한 변인이 측정 또는 분류되었을 때 어떤 사물 사람 또는 속성을 분류하기 위한 목적 계량의 의미가 없으며, 질적인 성격을 가짐 빈도분석, 비모수통계분석, 교차분석, 카이검정 등 명목 (명명)척도 서열척도 비율척도 등간척도 (분류, 순위, 동간격)

12 측정수준에 따른 변인의 분류 변인의 분류 특성 보기 비율변인 절대영점을 갖고 있다 측정치는 비율 또는
퍼센트로 비교될 수 있다. 거리, 시간, 무게 등 등간변인 동간적이다. 측정시간의 거리가 비교될 수 있다. 연(year), 온도, IQ 등 서열변인 순위의 정보만 있다. 백분위수, 랭킹, 순위(학업성적) 등 명목변인 서로 다른 속성의 정보만 있다. 성별, 국적, 눈의 색깔, 출신학교 등

13 5.(1) 정규분포곡선 (normal distribution curve)
(2) 정규분포곡선의 특성 5.(1) 정규분포곡선 (normal distribution curve) 통계이론에 있어 중요한 의의를 가진 수학적 개념의 하나 통계적 모형으로 사용되는 몇 가지 분포곡선 중 가장 많이 사용되는 모형 단, 어떤 자료가 정상적으로 분포되었다는 것과 정규분포 그 자체와는 구별해야 함 *수리적으로 유도된 곡선으로 그것이 현실적인 자료를 설명하는데 적합하기에 정상분포의 수리적 모형을 이용 하는 것임 *정규분포의 법칙을 실제 자료에 적용시킬 때에는 그 자료의 특성, 종류 및 표집 등에 따라 달라질 수 있음을 주의 종모양과 비슷한 모양을 하고 있으며, 꼭지점은 좌우대칭의 분포를 이룬다, 즉, 좌우대칭과 하나의 꼭지점을 가진 분포이므로, 평균, 중앙값 및 최빈값이 일치하는 분포. 또한, 양끝에 갈수록 사례는 적어짐 정규분포곡선은 연속적인 변인의 분포라는 특성을 가짐

14 그 곡선의 형태를 변화시켜 곡선의 모양이 평평하게 된다.
(3) 정규분포의 여러가지 형태 평균과 표준편차가 다르고, 곡선 안에 포함된 면적이 다른 경우에 정규분포는 여러 가지 형태를 이루게 됨 사례수N이 변하면 이 곡선의 모양은 좌우로 퍼지게 되나 전체적 모양은 변하지 않고, 표준편차가 커지면 그 곡선의 형태를 변화시켜 곡선의 모양이 평평하게 된다.

15 (4) 정규분포곡선의 경험적 검정 분포의 정규성 여부는 표집의 방법에 달려 있다 연구대상이나 특성에
따라 L, V, J등의 형태로 나타낼 수 있다 분포의 정규성 여부는 표집의 방법에 달려 있다 (무작위 표집을 전제로 함) 자료의 분포는 측정의 결과이므로 측정의 척도에 의하여 분포의 모양이 좌우 모든 조건이 완벽해도 실제로 완전한 정규분포를 얻긴 어렵다

16 (2)가설 검정에서의 오류 6. 가설 : 영가설과 대립가설, 유의도 가설(hypothesis) 대립가설과 영가설
(1)가설의 뜻과 종류 표본에 의해 모수치 추정의 오차를 가설검정의 오류 제1종 오류는 실제로 영가설이 참인데 이를 부정하는 오류 (컴퓨터 통계 기각방법) 제2종 오류는 실제로 영가설이 거짓인데, 이를 긍정하는 오류 아직 경험적으로 검정되지 않은 이론의 예비적 이론 둘 혹은 그 이상의 변인들간의 관계에 대한 추축적 진술. 연구물제의 해답, 변인관계의 간단,명료, 뚜렷함, 실증적으로 검증 가능, 가설 내용의 긍정 또는 부정이 가능하도록 진술 되어야함 가설(hypothesis) 대립가설Ha은 변수간의 차이를 긍정적인 형태로 질술하는 가설 영가설H0은 두 변수간의 차이가 없다며 부정적 형태로 진술하는 가설 대립가설과 영가설 영가설이 참인경우 영가설이 거짓인 경우 영가설 긍정 정확한 결론(1-α) 제2종 오류(β) 영가설 부정 제1종 오류(α) (컴퓨터 통계오류) 정확한 결론(1-β)

17 (3)유의도 수준(Sig, Significant level)의 결정
유의도 수준은 제 1종 오류에 기초를 두고 있다 가설검정에서 유의도 수준을 α=0.10 또는 p<0.10(90%),α=0.05 또는 p<0.05(95%), α=0.01 또는 p<0.01(99%), α=0.001 또는 p<0.001(99.9%)로 나타낸다. 영가설을 기각한다고 결론을 내려도 1종 오류가 발생할 확률(p<0.05)을 같이 제시해 줌

18 (4)자유도 영가설을 부정하는 한계영역 (5)영가설을 부정하는 한계영역 예>>
사례수 주어진 조건아래에서 자유롭게 변화할 수 있는 점수나 변인의 수를 뜻함 예>> 4명의 학생에게 자신이 좋아하는 한명을 선택하라면, 선택대상은 자신을 제외한 3명. 자유도는 3이다. 즉 DF= n-1 영가설을 부정하는 한계영역 가설1;월수입에 있어서 남녀간의 차이가 없을 것이다. →양방검정 가설2: 남자들은 여자들보다 월수입이 더 많을 것이다. →일방검정 P<0.05수준에서 영가설을 부정하는 한계영역은 양방 검정의 경우 정규 분포곡선의 양쪽 극단값 0.025% 씩이나 일방검정은 한쪽이 0.05%이다.

19 연구문제의 성격이 차의 방향을 분명히 밝혀야 하는 경우에는
7.일방적 검정과 양방적 검정 어떤 종류의 상대적 가설을 세우느냐에 따라 제 2종의 오류를 범할 가능성은 달라짐 일방적 검정이 전집에 차이가 있을 때 (대립가설, 상대적 가설, 연구가설이 참일 때), Ho를 올바르게 부정할 가능성은 더 커짐 연구문제의 성격이 차의 방향을 분명히 밝혀야 하는 경우에는 일방적 검정을 적용하는 것이 타당함

20 양방적 검정과 일방적 검정에 따른 제2종의 오류

21 8. 모수치의 추정 (2)표준오차 (1)모수치 추정의 기본원리 하나의 표집분포에 표본사례수가 많을 수록 나타난 여러
통계치들의 표준편차, 대체로 사례가 많을 수록 표준오차는 줄어들고, 표준편차가 클수록 표준오차는 커지는 경향 표본사례수가 많을 수록 표집오차가 적어지고 표집오차가 적을수록 표본에서 나온 통계적 모수치에 더 가깝게 됨 통계치의 신뢰도는 표본에서 나온 통계치가 모수치와 얼마나 가까운가 하는 문제로 표집 오차를 포함 모집단이 정규분포일 경우 그 모집단에서 무작위적으로 추출된 여러 표본들에서 나오는 평균치들의 표집분포도 정규분포가 됨

22 (3)모수치 추정방법 모집단 평균치 μ(mu) 표본의 평균치 M, X 모집단의 표준편차 σ 표본의 표준편차 S.D, S
평균치의 표집분포 표준편차의 표집분포 분포의 범위 사례수 M±1.00σM 68.26% σ±1.00σσ M±2.00σM 95.44% σ±2.00σσ M±3.00σM 99.74% σ±3.00σσ 신뢰도 수준별 평균치와 표준편차의 신뢰한계 신뢰도 수준 평균치의 신뢰한계 표준편차의 신뢰한계 90% M±1.65σM σ±1.65σσ 95% M±1.96σM σ±1.96σσ 99% M±2.58σM σ±2.58σσ


Download ppt "제1장 통계의 기본개념."

Similar presentations


Ads by Google