Download presentation
Presentation is loading. Please wait.
1
R활용 통계실습 보충자료
2
# 난수발생과 모의실험
3
R에서의 분포함수 d 확률밀도함수 (density) 값 d = f(x) p 누적확률 (probabililty)
p 누적확률 (probabililty) p = P(X ≤ x) lower.tail = TRUE인 경우 (default) p = P(X > x) lower.tail = FALSE인 경우 q 분위수 (quantile) 값 −∞ 𝜎 𝑓 𝑥 𝑑𝑥= 𝑝 를 만족하는 q 값 r 난수 발생
4
## (1) 연속분포 # (1.1) 정규분포 # (1.2) t 분포 # (1.3) 균일분포 # (1.4) 지수분포
지수함수: 평균=1/r 인 지수분포에 대한 밀도함수 f(x) = 𝑟𝑒 −𝑟𝑥 (- ∞ <x< ∞) (단, r은 발생비율 (rate))
5
## (2) 이산분포 # (2.1) 베르누이 분포와 이항분포 # (2.2) Poisson 분포
f(x) = 1 𝑥! 𝜆 𝑥 𝑒 −𝜆 (x = 0,1,2, …)
6
## (3) 정규성 검정 # (3.1) Histogram을 이용한 정규성 검토 # (3.2) 정규확률그림
Shapiro 검정; 검정통계량을 이용한 정규성 검정 H0: 정규분포를 따른다 Ha: 정규분포를 따르지 않는다.
7
## (4) simulation # (4.1) 이항분포의 정규분포 근사 # (4.2) 중심극한정리와 모의실험
np ≥ 5, np(1-p) ≥ 5 인 경우 이항분포의 정규분포 근사가 유효 # (4.2) 중심극한정리와 모의실험 “표본크기가 충분히 크면 동일 분포에서 얻어진 확률표본 평균과 합은 정규분포에 근사”
8
# 일변량 데이터와 기술통계량
9
## (1) 범주형 데이터 # (1.1) 분할표 # (1.2) 막대그래프 # (1.3) Pie 그림
# (1.4) 점그림 (dot chart)
10
## (2) 숫자형 데이터 # (2.1) 줄기-잎-그림 (stem-and-leaf plot)
# (2.2) 상자그림 (boxplot) # (2.3) 히스토그램 # (2.4) 중심경향 측도: 평균, 중앙값 # (2.5) 퍼짐경향 측도: 분산, 표준편차, 사분위수범위 (IQR)
11
# (2.6) 표준화점수 평균과 표준편차를 이용해 변수를 표준화 (standardization) Zi = 𝑥 𝑖 − 𝑥 𝑠
1 𝑛 𝑖 𝑛 𝑍 𝑖 =0, 1 𝑛−1 𝑖 𝑛 (𝑍 𝑖 −1 ) 2 =1
12
# (2.7) 신뢰구간 (confidence interval)
모수 추정시 90%, 95%, 99% 신뢰구간을 구해 구간추정. θ에 대한 근사적인 95% 신뢰구간은 𝜃 ±1.96 𝑥 𝑠𝑑( 𝜃) (단, 𝜃 은 θ에 대한 추정량, 𝑠𝑑( 𝜃) 는 𝜃 의 표준편차) {x1, x2, ..xn}~N() 경우 평균 μ에 대한 95% 신뢰구간은 𝑋 ± 𝑡 𝑛−1 ∝ 2 𝑥 𝑆 𝑛 (단, 𝑋 는 표본평균, S는 표본의 표준편차)
13
# 이변량 데이터
14
## (1) 범주형 데이터의 이원분할표 [예제] 부모와 아이의 안전벨트 착용여부에 대한 빈도 부모의 안전벨트 착영여부 착용
부모의 안전벨트 착영여부 착용 착용 안함 부모의 안전벨트 착용여부 54 7 3 12
15
[예제] 니코틴 중독환자 데이터를 빈도를 중심으로 정리
환자번호 니코틴 패치 사용여부 금연여부 patient nicotin stopsmoke 1 Y 2 3 N 4 5 6 7 8 9 10
16
# 상관계수
17
상관관계에 대하여 다음과 같이 통계적 가설 검정하려면:
H0: 두 변수간의 Pearson 상관계수가 0 Ha: 두 변수간의 Pearson 상관계수가 0이 아님
18
[예제] 15명의 남자 어른에 대해 기계와 간호사가 잰 혈압을 분석하세요
id machine expert 1 68 72 2 82 84 3 94 89 4 106 100 5 92 97 6 80 88 7 76 8 74 70 9 110 103 10 93 11 86 12 65 63 13 69 14 87 15
19
[예제] 신체데이터에 대한 Pearson 상관계수와 산점도.
id age weight height gender 1 58 38 M 2 103 87 43 3 50 48 4 138 98 61 5 82 47 F 6 52 30 24 7 28 29 8 79 45 9 107 144 59 10 11 40 12 15 27 13 20 26 14 19
20
# 유의성 검정
21
통계적 가설검정 <표 7-2> p-값 범위와 유의수준 통계적 결정 귀무가설 () 참 거짓 H0를 기각함
제 1종 오류 = σ 옳은 결정 = 1 - β H0를 채택함 =1 - σ 제2종 오류 =β p-값 범위 R 결과에서 별 표시 일반적 설명 [0, .001] *** 극단적으로 유의함 (extremely significant) [.001, .01] ** 매우 유의함 (highly significant) [.01, .05] * 통계적으로 유의함 (statistically significant) [.05, .10] . 유의할 수 있음 (could be significant) [.10, 1.0] 유의하지 않음 (not significant)
22
## (1) 일집단 t-검정 # (1.1) 소표본 (n ≤ 30)이며 모분산 σ2을 모르는 경우
(예제) 데이터: 암컷 원숭이의 몸무게 (단위 Kg). 원숭이의 몸무게는 정규분포를 따른다고 할 때 암컷원숭이의 평균 몸무게가 8.5 kg이라고 할 수 있는지 검정하라. 통계적 가설: H0 : μ = 8.5 H1: μ ≠ 8.5 t =
23
# (1.2) 모분산 σ2을 아는 경우 (예제) (앞의) 암컷 원숭이의 몸무게에서 분산이 1.0인 정규분포를 따른다고 할 때 암컷원숭이의 평균 몸무게가 8.5 kg이라고 할 수 있는지 검정. 통계적 가설: H0 : μ = 8.5 H1: μ ≠ 8.5 Z =
24
## (2) 이집단 t-검정 # (2.1) 일변량 소표본 (n ≤ 30)에서 모분산을 모르며 σ21 ≠ σ22 경우
25
## (3) 이집단 분산비 F-검정 H0 : σ12 = α22 H1: σ12 ≠ α22
; 만일 F ≥ 또는 F ≤ 이면 H0 를 기각한다. H0 : σ12 ≤ α22 H1: σ12 > α22 ; 만일 F ≥ 이면 H0 를 기각한다.
26
## (4) matched sample에 대한 t-검정
(예 7-6) 10명의 학생을 대상 학습법 강좌 수강 전후의 B과목 시험점수에 대하여.. H0 : 강좌수강 전후 점수 차이가 없다. H1: 강좌수강 전후 점수 차이가 있다. <표> 강좌 수강 전후의 시험 점수 시험 점수 pre-test 77, 56, 64,60,58,72, 67, 78,67, 79 post-test 99, 80, 78, 65, 59, 67,65, 85, 74, 80
27
## (5) 일집단 비율 검정 [예제] A 살충제는 한 번 살포에 85% 살충효과가 있다고 선전한다. 150마리 모기에게 A 살충제를 살포하였더니 110마리가 죽었다. A살충제의 선전이 믿을만한지 유의성 검정을 하라
28
## (6) 이집단 비율에 대한 검정 (예제 7-8) A 도시에서 300명 중 100명이, B 도시에서는 400명 중 170명이 D 후보를 지지한다고 조사되었다. A도시와 B 도시의 D 후보 지지 비율이 같다고 할 수 있는지 통계적 검정을 하고자 한다. (1) 가설 H0: p1 = p2 H1: p2 ≠p2
29
# χ2 검정
30
## (1) χ2 독립성 검정 # (1.1) 데이터가 빈도표로 주어진 경우 예제: 고등학교 졸업 여부와 수입의 독립성 여부
> chisq.test() H0: 고교 졸업 여부와 수입은 서로 독립이다. (관련이 없다.) H1: 고교 졸업 여부와 수입은 서로 독립이 아니다. (관련이 있다.) χ2 = (단, 자유도 df = (r-1)(c-1) 고등학교 졸업 여부 yes no 고수입 (high income) 54 45 저수입(low income) 63 65
31
데이터가 개체에 대한 정보로 주어진 경우 (예) A 학과 지원생에 대한 데이터로 입학여부와 성별 간에 관계가 있다고 할 수 있는지 검사. 성별 입학여부 1 M Y 2 3 4 N 5 6 7 F 8 9 10 11 12
32
예: 직장인을 대상 음주와 흡연에 대해 조사한 데이터이다. 음주 빈도와 흡연 빈도가 서로 관련 있다고 할 수 있는가?
빈도 수준 변수로 1은 매일 또는 매우 자주, 5는 전혀 이용하지 않음을 나타낸다 음주빈도 수준 흡연빈도수준 1 20 30 25 2 35 37 31 3 16 29 40 45 4 9 10 5 26 39
33
## (2) χ2 적합도 검정 (예) 알사탕 100개가 들어 있는 한 봉지에서 빨강(1), 노랑(2), 파랑(3), 초록색(4) 각각의 사탕 개수를 세어보니 30, 20, 27, 23 이었다. 다음과 같은 가설에 대해 χ2검정을 한다. H0: p1 =0.25, p2 =0.25, p3 =0.25, p4 =0.25 H1: 적어도 한 개의 pi ≠ , (단, i=1,…,4)
34
# 분산분석법
35
## (1) 일원배치 분산분석 예 3 종류의 건전지 수명에 차이가 있는지 알아보고자 한다. 각 회사에서 5개씩 건전지를 선택하여 수명실험으로 다음의 데이터를 얻었고 이들은 정규분포를 따른다고 할 수 있다고 한다. 제품 A B C 100 76 108 96 80 98 101 84 92 78
36
## (2) 이요인 분산분석 예; 디자인 종류와 광고 요인 별로 매출액을 조사한 데이터이다 2요인 분석을 하세요. 광고 디자인
디자인 종류와 광고 요인 별로 매출액을 조사한 데이터이다 2요인 분석을 하세요. 광고 디자인 A B C 광고 했을 경우(1) 23 15 18 광고 하지 않을 경우(0) 16 9 11
Similar presentations