통계방법의 이해
통계의 이해 목차 통계의 기초 개념 2. 기 술 통 계 학 3. 추 리 통 계 학
통계의 기초 개념 1. 1. 통계학과 통계 방법 2. 통계학의 기본 용어
통계학과 통계방법 1 통계학 이란? 2 통계의 종류 - 많은 양의 자료를 간단한 숫자나 진술로 요약한 학문. 1 통계학 이란? - 많은 양의 자료를 간단한 숫자나 진술로 요약한 학문. 2 통계의 종류 기 술 통 계 수집된 자료의 특성을 요약, 정리. 예) 성적의 평균값, 백분율. 추 리 통 계 분석된 자료를 근거로 모집단의 특성을 추론. 예) 체력측정
통계학의 기본용어 1 변 수 독립 변수 인과 관계 종속 변수 매개 변수 양적 변수 특성 (속성) 질적 변수 1 변 수 독립 변수 다른 변수에 영향, 예측을 주는 것. (실험, 처치변수) 인과 관계 종속 변수 영향을 받는 것. (반응, 결과변수) 매개 변수 독립변수 이외에 종속변수에 영향을 줌. (혼동변수) 변수의 속성을 수량화 시킬 수 있는 것. 연 속 - 길이, 무게, 시간 . 비연속 – 사람 수. 양적 변수 특성 (속성) 속성을 수량화 할 수 없는 것. 서 열 - 군인계급 비서열 - 성별, 인종. 질적 변수
2 모 집 단 과 표 본 모집단 ( population) 통계분석의 대상이 되는 모든 개체들의 집합 표 본 ( sample) 모 집 단 과 표 본 모집단 ( population) 통계분석의 대상이 되는 모든 개체들의 집합 표 본 ( sample) 모집단으로부터 임의로 추출된 모집단의 부분집합 모수 값 ( parameter) 모집단의 특성을 나타내는 값 표본 값 ( statistic) 표본의 특성을 나타내는 값
사물을 구분하기 위해 규칙에 따라 수나 상징을 부여하는 과정. 3 측정과 척도 측 정 사물을 구분하기 위해 규칙에 따라 수나 상징을 부여하는 과정. 척 도 사물의 속성을 구체화하기 위한 측정의 단위. 종 류 1) 명명 척도 – 사물을 분류하기 위한 명칭에 수치를 부여하는 것. 예) 당신의 성별은? 남 1 여 2 2) 서열 척도 – 변수가 가지는 속성의 크기에 따라 순서대로 배열한 것. 예) 당신의 직급은? 3) 등간 척도 – 척도간의 거리가 동일한 경우. 예) 온도, 학력검사. 4) 비율 척도 – 어떤 측정 값이 다른 측정값의 2배, 또는 3배라는 비율성이 적용되는 것. 예) 길이, 무게, 금액.
2. 기 술 통 계 학 1. 빈도 분포와 그래프 2. 집 중 경 향 값 3. 분 산 도 4. 정규 분포와 표준 점수 5. 상 관 관 계 분 석 6. 단 순 회 귀 분 석
빈 도 분 포 (frequency distribution) 빈도분포와 그래프 1. 빈 도 분 포 (frequency distribution) 수집한 자료를 분류, 요약하기 위해 특성이나 크기가 유사한 자료들을 순서대로 정리하여 표로 나타낸 것. 2. 빈도 분포 그래프 - X축: 점수 또는 독립변인, Y축: 빈도 또는 종속변인 막대 그래프 - 명명척도나 서열척도로 측정한 자료 사용되는 변수가 질적 변수일 때나 양적변인 중에서도 비 연속 변수 일 경우 사용.
히스토그램 절선 그래프 등간 척도나 비율척도로 측정한 자료. 양적변인 중, 연속 변수일 경우 사용. - 등간이나 비율척도 점수 바로 위에 점 표시
집 중 경 향 값 1. 최 빈 값 ( Mo ) 2. 중 앙 값( Md ) 3. 평 균 값 ( M ) 어떤 분포에서 가장 많이 나타나는 , 즉 빈도가 가장 높은 점수를 말함. ‘가장 빈번하게 발생하는 것은 무엇인가?’ 에 대한 대답으로 사용. 명명척도와 같은 질적자료의 유일한 측정값이 됨. 예) 기성복을 만들 때 2. 중 앙 값( Md ) 한 집단에서 얻은 점수를 크기 순으로 배열해 놓았을 때 집단을 반으로 나누는 값 . 3. 평 균 값 ( M ) 점수의 총합을 사례수로 나눈 것. 모집단의 평균: µ = SX / N 표 본의 평균: X = SX / n-1
4. 집중 경향 치와 분포의 모양 대칭 분포 비대칭 분포 하나의 최빈 값을 가지며, 집중 경향 값 세 개의 값 동일. 최빈 값이 둘이거나 없는 경우, 평균과 중앙치만 같음. 대칭 분포 1) 정적 편포: 최빈 값은 왼쪽, 중앙값은 최빈 값 오른쪽, 평균값은 가장 오른쪽 2) 부적 편포: 최빈 값은 오른쪽, … - 정적 편포와 반대 - 대칭분포는 세 값이 같으므로 편포도 0 편포도가 클수록 최빈 값과 평균값 간의 차이 커짐 비대칭 분포
- 집단의 점수들이 흩어져 있는 정도를 양적으로 표시한 것. 분 산 도 1. 분산도 (variation ) 란? - 집단의 점수들이 흩어져 있는 정도를 양적으로 표시한 것. 2. 분산도의 종류 최고 점수-최저 점수. 범 위 사분 편차 점수를 크기 순으로 정렬하여, 제1사분위수와 제3사분위수 간의 거리를 측정 하는 것.
분 산 표준 편차 제곱편차 ((관측값-평균)의 제곱) 의 평균 표본분산은 n 으로 나누지 않고 n-1로 나누어 줌. 분 산 표준 편차 - 분산을 제곱근하여 단위를 낮춘 값.
정규분포와 표준점수 1. 정규 분포 연속변수의 분포로서 가장 많이 활용됨. 종 모양의 좌우 대칭이고, 일봉의 모양을 하고있으며, 평균값, 중앙값, 최빈값이 일치함.
정규분포와 표준점수 2. 표준 정규 분포 평균이 0이고 표준편차가 1이 되게 표준화 시킨 분포로 Z분포라고도 함. 3. 표준 점수 어떤 점수가 평균이 μ이고 표준편차가 σ인 정규 분포일 때, 이를 평균이 0이고 표준 편차가 1인 표준정규분포로 변환 시켰을 때, 이를 표준 점수라 함. Z = ( X – μ ) / σ
상관 관계 분석 1. 상관의 개념 # 관계의 특징 2개 이상의 변인 간의 관계를 설명해주는 것 1) 관계의 방향: 정적 상관(+) 대 부적 상관(-) 2) 관계의 형태: 직선적(linear) 대 곡선적
2. 공 분 산 3. 적률 상관 계수 한 변수가 변할 때 다른 한 변수는 얼마만큼 변하는가를 알아보기 위한 것으로 2. 공 분 산 한 변수가 변할 때 다른 한 변수는 얼마만큼 변하는가를 알아보기 위한 것으로 공변량 이라고도 함. 3. 적률 상관 계수 상관계수 r (또는 ρ)은 항상 -1과 1사이의 값을 갖는다
회귀분석 1 2 1 회귀분석의 개념 2. 기 본 가 정 선 형 성 정 규 성 독 립 성 등분산성 1 회귀분석의 개념 1 독립변수가 종속변수에 미치는 영향력의 크기를 측정하여 독립변수의 일정한 값에 대응하는 종속변수의 값을 예측하기 위한 방법으로서 변수들간의 인과관계를 알아보기 위한 통계적 분석. 2. 기 본 가 정 2 독립변수와 종속변수 간의 관계가 직선적인가를 알아보는 것. X변수가 증가 할 때 변수가 계속 증가하거나 계속 감소하는 것. 선 형 성 정 규 성 독립변수의 값에 관계없이 오차의 분포가 정규분포를 이루어야 한다는 것. 종속변수 측정치들간의 오차는 서로 영향을 미치지 않는다는것 을 전제함. 독 립 성 등분산성 흩어진 점들을 대표하는 직선을 그렸을 때, 독립변수의 값에 관계없이 종속변수의 흩어진 정도가 일정한 것.
추 리 통 계 학 3. 1. 표 집 분 포 2. 가 설 검 증
표 집 분 포 1 기 본 개 념 모집단 분포 표 집 분 포 자 유 도 (df) 연구대상이 되는 사람 혹은 사물의 전체 집합. 1 기 본 개 념 모집단 분포 연구대상이 되는 사람 혹은 사물의 전체 집합. 표 집 분 포 똑같은 크기를 가진 표본을 여러 번 추출했을 때 각 표본의 특성 값들이 어떤 분포를 이루는가를 보여주는 것. 자 유 도 (df) 주어진 조건 하에서 통계적 제한을 받지 않는 사례 수. (n-1)
가 설 검 증 1 기 본 개 념 2 기 본 용 어 영가설과 대립가설 1 기 본 개 념 변수들간의 관계에 대해서 잠정적으로 내린 결론 또는 추측이며, 어떤 문제에 대한 예상된 해답이라고 할 수 있다. 즉 가설은 변수와 변수간의 관계를 알아보기 위해서 실증단계 이전에 행해진 잠정적인 진술이다. 2 기 본 용 어 영가설과 대립가설 연구과정에서 검증의 대상이 되는 가설 = 영가설 (Ho) 영가설이 받아들여질 수 없을 때, 대신 받아 들여지는 가설 = 대립가설 (H1) 예) Ho : 남녀간의 논술능력에는 차이가 없다. H1 : 남녀간의 논술능력에는 차이가 있다.
유의수준과 결정 값 일방적 검증과 양방적 검증 유의수준(α) = 영가설을 기각할 확률의 크기를 의미하며, 흔히 α= 0.05, 유의수준(α) = 영가설을 기각할 확률의 크기를 의미하며, 흔히 α= 0.05, 또는 α= 0.01 로 정하여 사용하는 경우가 많다. 결정 값 = 주어진 유의수준에서 영가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점이다. http://myhome.hanshin.ac.kr/stat-kric/%BB%E7%C8%B8%C5%EB%B0%E8%BA%D0%BC%AE/h.htm 일방적 검증과 양방적 검증 일방적 검증 = 모수가 어떤 값보다 크거나 작은지를 검정하는 것. Ho: μ ≥ μo, Ha: μ < μo Ho: μ ≤ μo, Ha: μ 〉μo 양방적 검증 = 모수가 어떤 값과 같다는 가설을 검정하는 것으로 H0: μ = μo, Ha: μ ≠ μo
기각 역 (critical region : CR) : 영가설을 기각하게 되는 검정통계량의 범위. ⇒ 검정통계량의 관측 값이 기각 역에 포함되면 무조건 영가설을 기각 하고 대립가설을 채택, 연구자가 얻은 어떤 검증 통계 값이 자신이 설정한 유의도 수준에 입각하여 편단해 볼 때, 영가설을 기각할 만큼 유의한 것. 통계적 유의성 실제적 상황에서 얻은 통계 값이 의미가 있는지를 말함.경우에 따라 통계적으로 유의한 차이가 있는 것인 반드시 실제적으로 유의 하다는 것을 의미하지는 않는다. 실제적 유의성
3 가설검증의 오류 제 1종 오류와 제 2종 오류 통계적 검증력 1 - α 3 가설검증의 오류 제 1종 오류와 제 2종 오류 제 1종 오류 : 실제로는 영가설이 옳은데도 검증결과 영가설을 기각하는 오류. 제 2종 오류 : 실제로는 영가설이 틀렸는데도 검증결과 영가설이 옳은 것으로 받아들이는 오류. 통계적 검증력 영가설이 거짓일 때 기각할 수 있는 능력으로 검증력이 높을 때 영가설이 거짓 임을 발견할 수 있음. 진 리 Ho H1 2 종 오류 β Ho 1 - α 의사결정 1 종 오류 α 검증력1 - β H1
4 통계적 검증의 절차 가설의 설정 및 진술 통계적 방법의 선택 유의수준의 결정 검증 통계 값의 계산 가설의 검증 및 해석